梁文鋒論文登《自然》封面 DeepSeek-R1開創歷史
(香港文匯報 記者 劉凝哲、郭瀚林 北京報道)由DeepSeek團隊共同完成、梁文鋒擔任通訊作者的DeepSeek-R1推理模型研究論文,日前登上了國際權威期刊《自然(Nature)》封面,DeepSeek-R1成為全球首個經過同行評審的主流大語言模型。Nature發布評論指出,依靠獨立研究人員進行同行評審,是應對AI行業炒作的一種方式,希望更多AI公司能夠效仿DeepSeek。中國電子信息產業發展研究院副總工程師劉權向香港文匯報表示,DeepSeek-R1為全球AI發展提供了新範式。
據報道,與今年1月發布的DeepSeek-R1的初版論文相比,本次論文披露了更多模型訓練的細節,並正面回應了模型發布之初的蒸餾(模型壓縮和知識轉移技術,指將複雜模型的知識遷移到輕量的模型)。梁文鋒團隊報告稱,DeepSeek-R1模型使用了強化學習而非人類示例來開發推理步驟,減少了訓練成本和複雜性。
訓練方法革新 加速多領域應用
在論文中,DeepSeek明確否認了此前關於其使用OpenAI模型輸出進行訓練的質疑。在同行評審文件中,DeepSeek介紹,DeepSeek-V3 Base(DeepSeek-R1的基座模型)使用的數據全部來自互聯網,雖然可能包含GPT-4生成的結果,但絕非有意而為之,更沒有專門的蒸餾環節。為了防止基準測試數據污染,對DeepSeek-R1的預訓練和後訓練數據都實施了全面的去污染措施。
此外,DeepSeek團隊還首次公開了R1訓練成本——僅為29.4萬美元(約合228.6萬港元)。這個金額即使加上約600萬美元的基礎模型成本,遠低於OpenAI、谷歌訓練AI的成本。
「由梁文鋒為核心加中國人工智能團隊研發的通用推理模型DeepSeek-R1研究成果正式發表,標誌着AI基礎模型研究正從技術博客和基準測試分數評價,轉向以方法論科學性、可復現性和嚴謹驗證為核心的成熟學科。」劉權表示,DeepSeek-R1為全球AI發展提供了新範式。從發展視角看,它開創僅靠強化學習激發大模型推理能力的先例,突破以往模型依賴人工標註的局限,推動訓練方法革新,加速多領域應用。
「另一方面,當前AI發展迅猛,公眾對其安全性、可靠性存疑。 DeepSeek-R1經過嚴格評審後刊登,公開訓練細節、回應安全關切,增強了透明度與可信度,為AI大規模應用築牢信任基礎,促進產業健康發展。」劉權說。
據報道,DeepSeek團隊今年以來連續發布多個開源項目,希望能夠加速行業發展進程。今年4月,DeepSeek宣布將開源其推理引擎的路徑。業界認為,在持續開源的道路上,DeepSeek不但極大推進了生態建立和降低了AI應用的門檻,而且改變了下游的固有生態格局。
開源促進知識共享與技術迭代
劉權強調,DeepSeek取得的成功離不開開源的優勢。開源模式促進了知識共享與技術迭代,為全球開發者提供創新平台,推動AI研究邁向科學、透明、可復現的新階段。從成本角度看,開源免去授權費用,降低研究門檻;靈活性上,開發者可按需修改代碼、調整架構;社區協同則匯聚全球智慧,加速模型優化。開源優勢為AI大模型發展注入強勁動力。「開源策略促進了技術民主化,為推理能力演進指明方向,還吸引更多科研人員投身行業,為AI發展注入新動力。」
針對中國人工智能等未來產業的發展,科技部部長陰和俊18日表示,在AI領域,國內湧現出多個達到國際先進水平的通用大模型,部分模型準確率突破95%,打造百餘個標杆應用場景。在人形機器人方面,多模態感知、大腦—小腦模型等關鍵技術取得進展,正在推動人形機器人在汽車製造、物流搬運、電力巡檢等場景加速落地應用,為未來萬億級產業的發展奠定堅實基礎。在腦機接口領域,已幫助截癱患者開始站立行走,盲人恢復光感;國產腦起搏器已實現全面商用,在8個國家400家醫院開展植入,成為人口健康領域高質量發展新引擎。
(來源:香港文匯報A14:要聞 2025/09/19)
字號:

評論