梁文鋒論文登《自然》封面　DeepSeek-R1開創歷史

大公文匯網新聞內地

（香港文匯報記者劉凝哲、郭瀚林北京報道）由DeepSeek團隊共同完成、梁文鋒擔任通訊作者的DeepSeek-R1推理模型研究論文，日前登上了國際權威期刊《自然（Nature）》封面，DeepSeek-R1成為全球首個經過同行評審的主流大語言模型。Nature發布評論指出，依靠獨立研究人員進行同行評審，是應對AI行業炒作的一種方式，希望更多AI公司能夠效仿DeepSeek。中國電子信息產業發展研究院副總工程師劉權向香港文匯報表示，DeepSeek-R1為全球AI發展提供了新範式。

據報道，與今年1月發布的DeepSeek-R1的初版論文相比，本次論文披露了更多模型訓練的細節，並正面回應了模型發布之初的蒸餾（模型壓縮和知識轉移技術，指將複雜模型的知識遷移到輕量的模型）。梁文鋒團隊報告稱，DeepSeek-R1模型使用了強化學習而非人類示例來開發推理步驟，減少了訓練成本和複雜性。

訓練方法革新加速多領域應用

在論文中，DeepSeek明確否認了此前關於其使用OpenAI模型輸出進行訓練的質疑。在同行評審文件中，DeepSeek介紹，DeepSeek-V3 Base（DeepSeek-R1的基座模型）使用的數據全部來自互聯網，雖然可能包含GPT-4生成的結果，但絕非有意而為之，更沒有專門的蒸餾環節。為了防止基準測試數據污染，對DeepSeek-R1的預訓練和後訓練數據都實施了全面的去污染措施。

此外，DeepSeek團隊還首次公開了R1訓練成本——僅為29.4萬美元（約合228.6萬港元）。這個金額即使加上約600萬美元的基礎模型成本，遠低於OpenAI、谷歌訓練AI的成本。

「由梁文鋒為核心加中國人工智能團隊研發的通用推理模型DeepSeek-R1研究成果正式發表，標誌着AI基礎模型研究正從技術博客和基準測試分數評價，轉向以方法論科學性、可復現性和嚴謹驗證為核心的成熟學科。」劉權表示，DeepSeek-R1為全球AI發展提供了新範式。從發展視角看，它開創僅靠強化學習激發大模型推理能力的先例，突破以往模型依賴人工標註的局限，推動訓練方法革新，加速多領域應用。

「另一方面，當前AI發展迅猛，公眾對其安全性、可靠性存疑。 DeepSeek-R1經過嚴格評審後刊登，公開訓練細節、回應安全關切，增強了透明度與可信度，為AI大規模應用築牢信任基礎，促進產業健康發展。」劉權說。

據報道，DeepSeek團隊今年以來連續發布多個開源項目，希望能夠加速行業發展進程。今年4月，DeepSeek宣布將開源其推理引擎的路徑。業界認為，在持續開源的道路上，DeepSeek不但極大推進了生態建立和降低了AI應用的門檻，而且改變了下游的固有生態格局。

開源促進知識共享與技術迭代

劉權強調，DeepSeek取得的成功離不開開源的優勢。開源模式促進了知識共享與技術迭代，為全球開發者提供創新平台，推動AI研究邁向科學、透明、可復現的新階段。從成本角度看，開源免去授權費用，降低研究門檻；靈活性上，開發者可按需修改代碼、調整架構；社區協同則匯聚全球智慧，加速模型優化。開源優勢為AI大模型發展注入強勁動力。「開源策略促進了技術民主化，為推理能力演進指明方向，還吸引更多科研人員投身行業，為AI發展注入新動力。」

針對中國人工智能等未來產業的發展，科技部部長陰和俊18日表示，在AI領域，國內湧現出多個達到國際先進水平的通用大模型，部分模型準確率突破95%，打造百餘個標杆應用場景。在人形機器人方面，多模態感知、大腦—小腦模型等關鍵技術取得進展，正在推動人形機器人在汽車製造、物流搬運、電力巡檢等場景加速落地應用，為未來萬億級產業的發展奠定堅實基礎。在腦機接口領域，已幫助截癱患者開始站立行走，盲人恢復光感；國產腦起搏器已實現全面商用，在8個國家400家醫院開展植入，成為人口健康領域高質量發展新引擎。

（來源：香港文匯報A14：要聞 2025/09/19）

中國新聞

評論

相關推薦