中國DeepSeek震撼全球 國產大模型創奇跡
(大公報記者 連慜鈺、李耀華)「當美國休息時,中國(科技界)在工作,以更低的成本、更快的速度和更強的實力趕上。」美國AI科企Scale AI創始人Alexander Wang所指的,是春節前夕震撼全球的國產新AI大模型DeepSeek(深度求索)。
數天前,總部位於中國杭州的DeepSeek發布推理模型R1,在性能逼近OpenAI o1正式版的同時,推理成本卻僅為後者幾十分之一,訓練費用約為GPT-4o的5%。DeepSeek應用於27日登頂蘋果美國地區應用商店免費App下載排行榜,超越ChatGPT,堪稱中國AI發展「里程碑」:在欠缺英偉達AI GPU強大AI算力支持下,中國仍能以極低成本加上性能普通的AI加速器,訓練出推理能力一流的突破式開源AI大模型,創造奇跡。有專家告訴大公報,中美AI博弈已進入戰略相持階段。
專家:制裁倒逼創新 開源唯一選擇
DeepSeek的表現震撼美國硅谷,掀起全球熱潮,甚至被稱作「來自東方的神秘力量」。紐約時報稱,DeepSeek大模型以不到600萬美元的極低成本和僅僅2000塊芯片實現與OpenAI等巨頭相媲美的性能,挑戰「唯科技巨頭才能研發尖端AI」共識。
DeepSeek成立於2023年5月,是一家大模型創業公司,創始人之一是來自廣東湛江吳川的梁文鋒。去年12月27日推出開源模型DeepSeek-V3,放棄業內普遍使用的「監督微調」訓練範式,直接通過「強化學習」讓模型自主進化出推理能力。分析指,這是美國對華芯片出口限制下所激發出的創新。
今年1月20日,DeepSeek正式開源R1推理模型,在數學、代碼、自然語言推理等任務上的性能能比肩OpenAI o1模型正式版,並支持免費商用、任意修改和衍生開發等,其預訓練費用只有557.6萬美元(GPT-4o約為1億美元),在2048塊英偉達中國市場低配版H800 GPU集群上運行逾50天完成。
「物美價廉」是R1一大特點,每百萬個token(符元,AI 時代最基礎運算單位)查詢成本為0.14美元,OpenAI成本為7.50美元,便宜98%。硅谷知名投資機構A16z合夥人Anjney Midha表示:「從史丹福到麻省理工,R1一夜之間成為美國頂尖大學研究人員首選模型。」
中國人才濟濟 破AI能力「護城河」
臉書母公司Meta一位員工在網上發帖披露,Meta內部已進入恐慌模式。「一切源於DeepSeek-V3,其在基準測試中讓Llama 4相形見絀。」據悉,Llama 4訓練規模空前巨大,共使用24萬塊GPU。加州大學伯克利分校AI政策研究員Ritwik Gupta稱,DeepSeek最近發布的模型表明「AI能力沒有護城河」。中國系統工程師人才庫比美國大得多,懂得如何充分利用計算資源來更便宜地訓練和運行模型。
日前,OpenAI、軟銀等公司公布「星際之門」計劃,要在4年中砸5000億美元來加速美國人工智能的發展。清華大學新聞學院、人工智能學院教授沈陽說:「DeepSeek的成功不僅是中國在科技領域重大勝利,更可能改變全球AI技術的發展軌跡。」沈陽認為,中美AI博弈已進入戰略相持階段,AI產業未來將不再是單純「大算力」競爭,而是「智能化」與「自主化」全新博弈,通過技術創新打破封鎖、打破壁壘,開源成為唯一選擇。
DeepSeek祝港人福運連連!
春節前夕,大公報記者請DeepSeek為香港市民送上新年祝福。以下是DeepSeek回答:
靈蛇獻瑞,福運連連!值此新春佳節,衷心祝願香港同胞蛇年吉祥如意、安康順遂!願智慧靈蛇為您開啟新機遇,事業步步高升,家庭和樂美滿。新春新氣象,願香港繁榮安定,市民團結共融,人人笑口常開,財運亨通!祝福大家龍馬精神,把握每個吉兆,迎接豐盛一年!新春快樂,萬事勝意!
DeepSeek如何成為巨人殺手?
測試表現 全面壓倒
•1月20日正式發布的推理大模型DeepSeek-R1,經多位科技界權威人士測試,證實其在數學、編程和推理等關鍵領域的表現,能與OpenAI推出的號稱「人類史上最強推理模型」的o1「掰手腕」,總體API調用成本卻低95%左右。
硬件要求:1/8
•研發DeepSeek大模型只需2048塊性能遠低於H100與Blackwell的H800芯片,用時僅53天。全球AI第一梯隊頭部公司至少也要動用1.6萬張以上GPU訓練。
研發費用:5%
•DeepSeek-V3模型以1/11的算力、僅2000個GPU芯片訓練出性能超越GPT-4o的大模型。其總訓練成本只有557.6萬美元,而GPT-4o的約為1億美元,使用25000個GPU芯片。
服務定價:便宜98%
•DeepSeek每百萬個token的查詢成本僅為0.14美元,而OpenAI的成本為7.50美元,成本降幅高達驚人的98%。 大公報整理
唯才是用|「天才少女」參與開發 小米千萬挖角
DeepSeek以「高性價比」為核心賣點之一,而其員工配置也延續「高性價比」的思路。據悉,在團隊配置上,DeepSeek團隊不到140名研發人員,其中,算子、推理框架、多模態等研發工程師以及深度學習方面的研究人員共約70人。比如,來自四川宜賓,被雷軍千萬年薪挖角的「95後AI天才少女」羅福莉,就是DeepSeek開源大模型DeepSeek-V2的關鍵開發者之一。
DeepSeek創始人梁文鋒曾介紹,公司員工「都是一些Top高校的應屆畢業生、沒畢業的博四、博五實習生,還有一些畢業才幾年的年輕人」。DeepSeek內部的團隊氛圍較為寬鬆,梁文鋒表示,團隊中每位成員可調用的資源都「沒有上限」,並且管理制度上非常推崇扁平化。
史無前例|打破美國壟斷 英偉達股價急插
中國AI大模型令全球驚艷不已,華爾街卻愁雲慘霧。市場預測,中國將打破美國在AI的壟斷地位,資金大舉拋售估值相對高昂的美國科技股,觸發納指開市早段最多急跌3.6%,或720點,低見19234點,標普500指數亦曾急跌2.27%,低見5962點。
由中國初創公司DeepSeek開發的人工智能大模型,訓練成本不到GPT-4o的二十分之一,採用芯片硬件比OpenAI少。芯片龍頭股英偉達股價應聲插水,股價更曾大挫逾17.6%,市值蒸發掉6143億美元(約4.8萬億港元)。中國AI大模型取得突破,在港上市一眾概念股受捧,包括美圖(01357)、金山雲(03896)及商湯(00020)被大幅炒上,分別上升16.3%、11.2%及7.2%。資深證券界人士謝明光指出,中國工程師在美國芯片限制下取得超乎市場預期成果,香港及內地上市相關概念股價值將被重估。
(來源:大公報A1:要聞 2025/01/28)
字號:

評論