刊于《信报》,2025年2月24日
了解DeepSeek技术突破 避免误判发展
许佳龙
科大商学院署理院长;信息、商业统计及营运学系讲座教授;艾礼文家族商学教授
上两篇文章,笔者分析了DeepSeek面世对芯片市场的影响;亦阐释了人工智能(AI)一旦得到扩展应用,也会左右芯片市场的相应需求变化,扼要地从芯片市场变化的视阀,提出笔者对DeepSeek-R1大模型面世后的初步观察和分析。
对于DeepSeek在新春来临前夕「横空出世」,笔者不少校内学生和大学外的朋友不约而同问笔者,怎样看待DeepSeek大语言模型技术创新上所带来的「震撼性」、DeepSeek对整个AI市场的发展,继后会产生什么影响?
笔者并非专门研究AI技术的专家,但透过对DeepSeek报告资料的了解后,基本上有一个认识梗概,乐意同读者分享我对「DeepSeek现象」的观察和见解。
技术创新并非「破天荒」
首先, DeepSeek公司公布DeepSeek-R1语言大模型,其低成本高效能的训练技术改进,使不少人觉得DeepSeek的崛起,对美国人工智能科技行业,尤其对于Open AI的ChatGPT-4o大模型,以至美国整个AI业界发展带来巨大冲击。不过,笔者认为,对于「DeepSeek现象」,我们其实需要正确解读。从DeepSeek-R1语言大模型的报告数据看,DeepSeek并非「从无到有」的颠覆性创新突破,其底层技术依然是围绕深度神经网络、建基于大语言模型学习技术的发展。
仔细观察,DeepSeek与Open AI公司和其他美国科网大公司所开发的大语言模型(LLM)最大的分别,在于DeepSeek并没有像Open AI公司等那样,采用「刚硬」的方式,用大量芯片去积累算力、综合海量文档、使用数量众多的函数进行训练,而是「另辟蹊径」,运用了更加节能且效能不减的模型架构,包括使用专家混合模型(MoE)、多层注意力机制(MLA)等技术,这些技术能够提升模型表现,同时降低耗能,却又能够增强信息处理的能力。
然而,这些技术在业界及学术界是已有的成果,并非DeepSeek所独创。但深度求索公司在发展大语言模型上,创新地把这些算法集成起来进行优化应用,最终令DeepSeek-R1做到「低成本高效能」效果,甚至在若干性能检测标准上,超越其他同类大语言模型产品,包括ChatGPT-4o。
「我胜你败」思维易形成误判
当DeepSeek一推出,旋即对美国AI业界和华尔街股市相关芯片公司带来震撼性冲击,若果认为DeepSeek-v3(最新的版本)已经彻底超越美国AI技术,这个判断,笔者认为并不正确。
虽然在多个不同指针性能的比较,并经过不同的实验和检测,DeepSeek- v3基本上可以在表现上压倒所有开源的AI大语言模型,但对于闭源的AI 大语言模型,如ChatGPT-4o,在性能表现上,检测结果显示各有所长。在某些工作上,DeepSeek- v3比ChatGPT-4o优胜;但在某些工作上,DeepSeek- v3也有不及ChatGPT-4o的地方。因此,用「我胜你败」的思维方式,来比拼DeepSeek- v3与ChatGPT-4o的技术「谁胜谁负」,并不正确,也不适当。
事实上,双方建基于同一的底层技术基础,只不过DeepSeek 透过优化训练程序,换上了不同的基础训练逻辑,大量节省了训练时间和算力消耗。
「过滤」指控并不成立
另一方面,DeepSeek除了利用集合专家知识的概念,即运用「专家混合模型」的技术外,还使用了「过滤」技术。当DeepSeek推出后,有评论甚至有指控称DeepSeek利用「过滤」技术,对ChatGPT模型进行过滤,然后把过滤撷取所得据为己有,才能够取得「低成本、高效能」的效果,此举等同「抄袭」。
不过,笔者经过了解DeepSeek发布的详情后,对于外界称DeepSeek「抄袭」的指控并不能成立。诚然,过滤技术经常是运用大语言模型的其中一条快捷方式,但走到这一步,DeepSeek所过滤的对象也不是ChatGPT,而是DeepSeek自身所建构一个经过精简成本的大模型,从中经过滤后再得出一个「更小」的大模型,结果DeepSeek-R1只需用约550万美元成本,取得了「低成本高效能」的震撼性成效。按DeepSeek发布的详细数据显示, DeepSeek「抄袭」ChatGPT的行为并不存在。
正确认识了解发展真貌
对DeepSeek这两点基本技术正确了解,有助我们对「DeepSeek现象」作出正确认识,并可据此作为观察和分析DeepSeek-R1对大语言模型、AI业界以至芯片市场需求变化等未来发展,作出精确和适切的判断。
更重要一点是, DeepSeek的技术突破,对于其集合一些现有的学习模型技术,将之进行优化应用所取得的「创新成果」,若然大众的认识有偏差,对于DeepSeek的未来发展,我们也可能会作出偏差的判断;从宏观角度看,或者也可能不利整体AI市场包括DeepSeek公司的健康发展。
厘清了DeepSeek-R1技术突破内里的问题后,我们可以从中得到什么启迪?囿于篇幅,另文讨论。