中國DeepSeek震撼全球　國產大模型創奇跡

大公文匯網首頁

中國新聞

2025.01.28 09:11:44

字號：

小中大特大

（大公報記者連慜鈺、李耀華）「當美國休息時，中國（科技界）在工作，以更低的成本、更快的速度和更強的實力趕上。」美國AI科企Scale AI創始人Alexander Wang所指的，是春節前夕震撼全球的國產新AI大模型DeepSeek（深度求索）。

數天前，總部位於中國杭州的DeepSeek發布推理模型R1，在性能逼近OpenAI o1正式版的同時，推理成本卻僅為後者幾十分之一，訓練費用約為GPT-4o的5%。DeepSeek應用於27日登頂蘋果美國地區應用商店免費App下載排行榜，超越ChatGPT，堪稱中國AI發展「里程碑」：在欠缺英偉達AI GPU強大AI算力支持下，中國仍能以極低成本加上性能普通的AI加速器，訓練出推理能力一流的突破式開源AI大模型，創造奇跡。有專家告訴大公報，中美AI博弈已進入戰略相持階段。

專家：制裁倒逼創新開源唯一選擇

DeepSeek的表現震撼美國硅谷，掀起全球熱潮，甚至被稱作「來自東方的神秘力量」。紐約時報稱，DeepSeek大模型以不到600萬美元的極低成本和僅僅2000塊芯片實現與OpenAI等巨頭相媲美的性能，挑戰「唯科技巨頭才能研發尖端AI」共識。

DeepSeek成立於2023年5月，是一家大模型創業公司，創始人之一是來自廣東湛江吳川的梁文鋒。去年12月27日推出開源模型DeepSeek-V3，放棄業內普遍使用的「監督微調」訓練範式，直接通過「強化學習」讓模型自主進化出推理能力。分析指，這是美國對華芯片出口限制下所激發出的創新。

今年1月20日，DeepSeek正式開源R1推理模型，在數學、代碼、自然語言推理等任務上的性能能比肩OpenAI o1模型正式版，並支持免費商用、任意修改和衍生開發等，其預訓練費用只有557.6萬美元（GPT-4o約為1億美元），在2048塊英偉達中國市場低配版H800 GPU集群上運行逾50天完成。

「物美價廉」是R1一大特點，每百萬個token（符元，AI 時代最基礎運算單位）查詢成本為0.14美元，OpenAI成本為7.50美元，便宜98%。硅谷知名投資機構A16z合夥人Anjney Midha表示：「從史丹福到麻省理工，R1一夜之間成為美國頂尖大學研究人員首選模型。」

中國人才濟濟破AI能力「護城河」

臉書母公司Meta一位員工在網上發帖披露，Meta內部已進入恐慌模式。「一切源於DeepSeek-V3，其在基準測試中讓Llama 4相形見絀。」據悉，Llama 4訓練規模空前巨大，共使用24萬塊GPU。加州大學伯克利分校AI政策研究員Ritwik Gupta稱，DeepSeek最近發布的模型表明「AI能力沒有護城河」。中國系統工程師人才庫比美國大得多，懂得如何充分利用計算資源來更便宜地訓練和運行模型。

日前，OpenAI、軟銀等公司公布「星際之門」計劃，要在4年中砸5000億美元來加速美國人工智能的發展。清華大學新聞學院、人工智能學院教授沈陽說：「DeepSeek的成功不僅是中國在科技領域重大勝利，更可能改變全球AI技術的發展軌跡。」沈陽認為，中美AI博弈已進入戰略相持階段，AI產業未來將不再是單純「大算力」競爭，而是「智能化」與「自主化」全新博弈，通過技術創新打破封鎖、打破壁壘，開源成為唯一選擇。

DeepSeek祝港人福運連連！

春節前夕，大公報記者請DeepSeek為香港市民送上新年祝福。以下是DeepSeek回答：

靈蛇獻瑞，福運連連！值此新春佳節，衷心祝願香港同胞蛇年吉祥如意、安康順遂！願智慧靈蛇為您開啟新機遇，事業步步高升，家庭和樂美滿。新春新氣象，願香港繁榮安定，市民團結共融，人人笑口常開，財運亨通！祝福大家龍馬精神，把握每個吉兆，迎接豐盛一年！新春快樂，萬事勝意！

DeepSeek如何成為巨人殺手？

測試表現　全面壓倒

•1月20日正式發布的推理大模型DeepSeek-R1，經多位科技界權威人士測試，證實其在數學、編程和推理等關鍵領域的表現，能與OpenAI推出的號稱「人類史上最強推理模型」的o1「掰手腕」，總體API調用成本卻低95%左右。

硬件要求：1/8

•研發DeepSeek大模型只需2048塊性能遠低於H100與Blackwell的H800芯片，用時僅53天。全球AI第一梯隊頭部公司至少也要動用1.6萬張以上GPU訓練。

研發費用：5%

•DeepSeek-V3模型以1/11的算力、僅2000個GPU芯片訓練出性能超越GPT-4o的大模型。其總訓練成本只有557.6萬美元，而GPT-4o的約為1億美元，使用25000個GPU芯片。

服務定價：便宜98%

•DeepSeek每百萬個token的查詢成本僅為0.14美元，而OpenAI的成本為7.50美元，成本降幅高達驚人的98%。大公報整理

唯才是用｜「天才少女」參與開發小米千萬挖角

95後「AI天才少女」羅福莉是DeepSeek開源大模型DeepSeek-V2的關鍵開發者之一。

DeepSeek以「高性價比」為核心賣點之一，而其員工配置也延續「高性價比」的思路。據悉，在團隊配置上，DeepSeek團隊不到140名研發人員，其中，算子、推理框架、多模態等研發工程師以及深度學習方面的研究人員共約70人。比如，來自四川宜賓，被雷軍千萬年薪挖角的「95後AI天才少女」羅福莉，就是DeepSeek開源大模型DeepSeek-V2的關鍵開發者之一。

DeepSeek創始人梁文鋒曾介紹，公司員工「都是一些Top高校的應屆畢業生、沒畢業的博四、博五實習生，還有一些畢業才幾年的年輕人」。DeepSeek內部的團隊氛圍較為寬鬆，梁文鋒表示，團隊中每位成員可調用的資源都「沒有上限」，並且管理制度上非常推崇扁平化。

史無前例｜打破美國壟斷英偉達股價急插

中國AI大模型令全球驚艷不已，華爾街卻愁雲慘霧。市場預測，中國將打破美國在AI的壟斷地位，資金大舉拋售估值相對高昂的美國科技股，觸發納指開市早段最多急跌3.6%，或720點，低見19234點，標普500指數亦曾急跌2.27%，低見5962點。

由中國初創公司DeepSeek開發的人工智能大模型，訓練成本不到GPT-4o的二十分之一，採用芯片硬件比OpenAI少。芯片龍頭股英偉達股價應聲插水，股價更曾大挫逾17.6%，市值蒸發掉6143億美元（約4.8萬億港元）。中國AI大模型取得突破，在港上市一眾概念股受捧，包括美圖（01357）、金山雲（03896）及商湯（00020）被大幅炒上，分別上升16.3%、11.2%及7.2%。資深證券界人士謝明光指出，中國工程師在美國芯片限制下取得超乎市場預期成果，香港及內地上市相關概念股價值將被重估。

（來源：大公報A1：要聞 2025/01/28）

中國新聞

評論

相關推薦