陳天橋提出AGI工程標尺:在300步複雜推理後 依然維持99%的正確率

盛大集團創始人陳天橋提出了一個全新的工程度量衡:在300步複雜推理後,依然維持99%的正確率 。

在 AI 領域,我們聽慣了萬億參數、Context Window(上下文窗口)這些指標,但盛大集團創始人陳天橋提出了一個全新的工程度量衡:在300步複雜推理後,依然維持99%的正確率 。

為什麼要死磕「300步」?這背後是殘酷的概率學。陳天橋將推理的最小單位定義為「標準原子步」(SIU),即每一步只執行單一邏輯,且可被工具檢驗 。現狀是,即便大模型單步準確率達到驚人的 98%,在經過 300 步的鏈式反應後,端到端的成功率也會指數級衰減至 0.23% 。這意味着,依靠當前 Transformer 架構的「概率預測」來解決長鏈路科學問題(如新藥研發、工程設計),在數學上是死路一條。

陳天橋的解決方案極具工程思維:將推理過程解耦為「邏輯生成層」與「檢驗層」 。

生成層(想): 負責將大問題遞歸拆解為原子操作;

檢驗層(查): 對每一個原子步進行外部驗證(仿真、工具、數據)。

這種架構要求 AI 必須具備「可累積的長期記憶」和「自我糾錯」能力 。MiroMind 的 BrowseComp 實踐證明了這條路徑的可行性:僅用 235B 參數的小模型,通過反覆的 Agent/環境交互和糾錯,擊敗了依賴一次性生成的更大模型 。

這標誌着 AGI 的研發重點正在發生轉移:從訓練更會「蒙」的大模型,轉向構建一個高可信、可審計的通用推理引擎 。對於開發者而言,未來的核心競爭力或許不在於 Prompt Engineering,而在於構建能夠把每一步推理「釘死」的工具鏈驗證系統。(完)