TradingKey - 在市場擔憂iPhone製造商蘋果(AAPL)在人工智慧發展方面落伍之際,蘋果最新的一篇AI研究揭露了現在流行的AI大模型的「繁榮假象」:AI推理模型遠達不到預期的推理功能——簡單問題復雜化,復雜問題直接陷入崩潰。
6月,蘋果發表了一篇名為《思考的幻覺:從問題復雜性的角度理解推理模型的優點和局限性》的研究報告。文章指出,現有的一些號稱具有「推理能力」或思考能力的AI模型實際上並不具備通用和穩健的推理能力。
無論是OpenAI的o1、再到DeepSeek R1、Claude和Gemini等領先模型,他們已經發展到不是簡單給出答案,而是生成詳盡的「思維鏈」(Chain-of-thought,CoT)、模仿人類解決問題時的思考過程、甚至自我反思和修正的模型。
研究人員稱之為「大型推理模型」(Large Reasoning Models,LRMs)。不少人認為,這種技術的發展將推動人類向理想的通用人工智慧(AGI)邁進。
與常見的強調最終答案準確性的基準測試不同,蘋果公司通過不同的複雜性的問題環境對標準模型LLM和推理模型LRM進行了比較,結果推理模型有一些情況下還不如標準模型。
然而,現實生活中的多數問題都屬於高複雜度模式,這凸顯了推理AI模型在實際應用上的挑戰。
谷歌執行長Sundar Pichai用「人工鋸齒智慧」(Artificial Jagged Intelligenc,AJI)來描述AI不穩定的能力——AI給出的答案時而令人讚歎,時而會犯簡單的數字錯誤,比如連strawberry有多少個r字母都不清楚。