刊於《信報》,2025年2月24日
了解DeepSeek技術突破 避免誤判發展
許佳龍
科大商學院署理院長;資訊、商業統計及營運學系講座教授;艾禮文家族商學教授
上兩篇文章,筆者分析了DeepSeek面世對晶片市場的影響;亦闡釋了人工智能(AI)一旦得到擴展應用,也會左右晶片市場的相應需求變化,扼要地從晶片市場變化的視閥,提出筆者對DeepSeek-R1大模型面世後的初步觀察和分析。
對於DeepSeek在新春來臨前夕「橫空出世」,筆者不少校內學生和大學外的朋友不約而同問筆者,怎樣看待DeepSeek大語言模型技術創新上所帶來的「震撼性」、DeepSeek對整個AI市場的發展,繼後會產生什麼影響?
筆者並非專門研究AI技術的專家,但透過對DeepSeek報告資料的了解後,基本上有一個認識梗概,樂意同讀者分享我對「DeepSeek現象」的觀察和見解。
技術創新並非「破天荒」
首先, DeepSeek公司公布DeepSeek-R1語言大模型,其低成本高效能的訓練技術改進,使不少人覺得DeepSeek的崛起,對美國人工智能科技行業,尤其對於Open AI的ChatGPT-4o大模型,以至美國整個AI業界發展帶來巨大衝擊。不過,筆者認為,對於「DeepSeek現象」,我們其實需要正確解讀。從DeepSeek-R1語言大模型的報告資料看,DeepSeek並非「從無到有」的顛覆性創新突破,其底層技術依然是圍繞深度神經網絡、建基於大語言模型學習技術的發展。
仔細觀察,DeepSeek與Open AI公司和其他美國科網大公司所開發的大語言模型(LLM)最大的分別,在於DeepSeek並沒有像Open AI公司等那樣,採用「剛硬」的方式,用大量晶片去積累算力、綜合海量文檔、使用數量眾多的函數進行訓練,而是「另闢蹊徑」,運用了更加節能且效能不減的模型架構,包括使用專家混合模型(MoE)、多層注意力機制(MLA)等技術,這些技術能夠提升模型表現,同時降低耗能,卻又能夠增強信息處理的能力。
然而,這些技術在業界及學術界是已有的成果,並非DeepSeek所獨創。但深度求索公司在發展大語言模型上,創新地把這些算法集成起來進行優化應用,最終令DeepSeek-R1做到「低成本高效能」效果,甚至在若干性能檢測標準上,超越其他同類大語言模型產品,包括ChatGPT-4o。
「我勝你敗」思維易形成誤判
當DeepSeek一推出,旋即對美國AI業界和華爾街股市相關晶片公司帶來震撼性衝擊,若果認為DeepSeek-v3(最新的版本)已經徹底超越美國AI技術,這個判斷,筆者認為並不正確。
雖然在多個不同指標性能的比較,並經過不同的實驗和檢測,DeepSeek- v3基本上可以在表現上壓倒所有開源的AI大語言模型,但對於閉源的AI 大語言模型,如ChatGPT-4o,在性能表現上,檢測結果顯示各有所長。在某些工作上,DeepSeek- v3比ChatGPT-4o優勝;但在某些工作上,DeepSeek- v3也有不及ChatGPT-4o的地方。因此,用「我勝你敗」的思維方式,來比拼DeepSeek- v3與ChatGPT-4o的技術「誰勝誰負」,並不正確,也不適當。
事實上,雙方建基於同一的底層技術基礎,只不過DeepSeek 透過優化訓練程序,換上了不同的基礎訓練邏輯,大量節省了訓練時間和算力消耗。
「過濾」指控並不成立
另一方面,DeepSeek除了利用集合專家知識的概念,即運用「專家混合模型」的技術外,還使用了「過濾」技術。當DeepSeek推出後,有評論甚至有指控稱DeepSeek利用「過濾」技術,對ChatGPT模型進行過濾,然後把過濾擷取所得據為己有,才能夠取得「低成本、高效能」的效果,此舉等同「抄襲」。
不過,筆者經過了解DeepSeek發布的詳情後,對於外界稱DeepSeek「抄襲」的指控並不能成立。誠然,過濾技術經常是運用大語言模型的其中一條捷徑,但走到這一步,DeepSeek所過濾的對象也不是ChatGPT,而是DeepSeek自身所建構一個經過精簡成本的大模型,從中經過濾後再得出一個「更小」的大模型,結果DeepSeek-R1只需用約550萬美元成本,取得了「低成本高效能」的震撼性成效。按DeepSeek發布的詳細資料顯示, DeepSeek「抄襲」ChatGPT的行為並不存在。
正確認識了解發展真貌
對DeepSeek這兩點基本技術正確了解,有助我們對「DeepSeek現象」作出正確認識,並可據此作為觀察和分析DeepSeek-R1對大語言模型、AI業界以至晶片市場需求變化等未來發展,作出精確和適切的判斷。
更重要一點是, DeepSeek的技術突破,對於其集合一些現有的學習模型技術,將之進行優化應用所取得的「創新成果」,若然大眾的認識有偏差,對於DeepSeek的未來發展,我們也可能會作出偏差的判斷;從宏觀角度看,或者也可能不利整體AI市場包括DeepSeek公司的健康發展。
釐清了DeepSeek-R1技術突破內裡的問題後,我們可以從中得到什麼啟迪?囿於篇幅,另文討論。