Z.ai 的 GLM-5.2 縮小了與 OpenAI 和 Anthropico 的差距。
Z.ai發佈了 GLM-5.2 ,該公司將其描述爲一款開源的大型語言模型 (LLM)。據報道,GLM-5.2 在人工智能分析領域領先於其他開源 LLM,在全球所有 LLM 中排名前三。這意味着 GLM-5.2 非常接近 Anthropic 和 OpenAI 開發的尖端 LLM。
此次發佈可能會對人工智能市場的競爭格局產生重大影響。在此之前,幾乎所有dent 測試都表明,開放式權重線性模型(LLM)的性能遠遜於封閉式權重模型。GLM-5.2 的測試結果表明,這種差距正在縮小,這對企業應用、定價以及封閉式權重實驗室的商業模式都具有重要的啓示意義。.
基準測試結果對 GLM 5.2 的啓示
根據獨立dent 公司 Vals AI 的評估,GLM-5.2 表現最佳 :Vals Index、Harvey's Legal Agent Benchmark、Finance Agent v2、ProofBench 和 Vibe Code Bench。
Vals AI 報告稱,GLM-5.2 是首個 在 ProofBench 測試中準確率超過 30% 的開源模型,比排名第二的模型高出 11 個百分點。此外,它僅比 Anthropic 的 Claude Opus 4.5 低 1 個百分點,使其性能接近專有模型的前沿水平,這實屬罕見。
隆重推出 GLM-5.2:前沿智能,開放權重
— Z.ai (@Zai_org) 2026年6月16日
——編碼和智能體任務顯著改進
——tron強大的長時域能力,上下文窗口達 100 萬
兩種推理強度:GLM-5.2(最大)突破極限,而 GLM-5.2(高)則展現出tron的…… pic.twitter.com/SjGPSVhePJ
根據人工智能分析,GLM-5.2 是目前最好的開放權重模型,其智能指數得分爲 51,而 GLM-5.1 的得分爲 40。其他模型,包括 MiniMax-M3 和 DeepSeek V4 Pro,得分爲 44,而 Kimi K2.6 的得分爲 43。
GLM-5.2 在 TerminalBench v2.1 測試中得分 78%(比 GLM-5.1 高 16 分),在 SciCode 測試中得分 50%,在 AA-LCR 測試中得分 71%,在 GPQA Diamond 測試中得分 89%。在 GDPval-AA v2 長時域智能體基準測試中, GLM-5.2 的 Elo 得分爲 1524,優於 GPT-5.5 的 1514。
然而,儘管 GLM 5.2 展現出令人矚目的性能,專家指出,理解基準測試結果正變得日益複雜。例如,聚合模型(如 人工智能)雖然降低了單次測試偏差的影響,但卻增加了權重系統的影響,導致結果出現差異,並改變了評估數據集。基準測試污染和優化效應仍然是前沿人工智能測試中持續存在的問題。
GLM-5.2 的架構內部包含哪些內容?
據 Z.ai,GLM-5.2是該公司目前提供的用於長期推理和智能體編碼任務的最強大模型。該模型提供的上下文窗口包含100萬個詞元,而GLM-5.1的上下文窗口僅爲20萬個詞元。
GLM-5.2 採用混合專家架構,包含約 7500 億個總參數和 400 億個活動參數,針對多步驟推理和編碼工作流程進行了優化。.
GLM-5.2 採用 兩種推理形式:一種是用於複雜任務的高投入模式,另一種是旨在提高效率和控制延遲的低成本模式。
根據人工智能分析,GLM-5.2 每次評估操作可產生約 43,000 個輸出令牌,而 GLM-5.1 則爲 26,000 個。雖然這有助於提高性能指標,但實際上可能會增加計算成本。.
Z.ai 博客 指出,編碼代理、調試過程、自動化研究、文檔處理和長篇內容生成方面均有所改進,並將該模型定位爲針對持續的多步驟任務進行優化,而不是針對孤立的提示。
市場環境和生態系統摩擦
GLM-5.2 的發佈正值人們熱議開源權重系統在多大程度上能夠趕上專有前沿模型之際。中國的人工智能公司在開源模型排名中佔據領先地位,而 GLM-5.2 已成爲這一進程中的關鍵一環。.
這場討論因埃隆·馬斯克和唐傑( Z.ai)就中國車型何時才能與世界一流車型比肩而公開化。 馬斯克回應道:“大概明年第一季度吧。”
唐對此表示反對,說道:“不會花那麼長時間。”
可能是 Q1
——埃隆·馬斯克 (@elonmusk) 2026年6月18日
雖然基準測試可能顯示出快速收斂,但從業者的早期反饋表明,在現實世界中,性能存在差異。.
AI 工程師 Da7_Tech 表達 的擔憂與其說是模型本身,不如說是 Z.ai 系統的基礎設施和消費透明度,他說這“違背了人們對開源模型價值觀的所有期望”。
他試用了 Z.ai開發的 Zcode,這是一款使用 GLM 模型製作的應用,他選擇的是 Pro 套餐,該套餐號稱性能是 Claude Code 的 15 倍。他表示,在一次任務會話中,不到一個小時就用完了所有資源——實際上,整個任務允許的五個小時就全部用完了。
他還聲稱,應用程序顯示的代幣使用量與實際計費金額存在差異。應用程序顯示的代幣使用量不足200萬,但他的賬戶卻被收取了約6000萬代幣的費用,無論每日限額還是每週限額都超過了6000萬。這意味着應用程序在計算使用量時,可能使用了緩存的代幣或中間代幣,而不是實際計算的代幣。隨後,他提到 Z.ai 已從其“目標模式”中移除了代幣計數功能,並修改了其專業版套餐的描述。
除此之外, 人工智能開發者Michael Guo 在調試其OpenClaw智能體Trippy的問題時,將GLM-5.2與GPT-5.5 medium進行了比較。以下是他的結論:
“至少在我運行的測試用例中,它的性能不如 GPT-5.5 中等水平。差距非常大。”
GPT-5.5 medium 很快就發現了代理重複回答的問題,而 GLM-5.2 卻沒能發現。.
總而言之,他指出,雖然基準測試結果可能表明性能良好,但實際調試工作可能會揭示出匯總結果所忽略的不一致之處。.
差距正在縮小,但實際應用情況各不相同。
基準測試結果證明,GLM-5.2 是目前可用的頂級開源權重架構之一,有時甚至比其他專有架構更好。.
然而,關於該系統的性能、效率和透明度的評價似乎因使用情況和與其他系統的集成情況而異。.
因此,這個問題有兩個方面:GLM-5.2 是開放權重架構領域發展的重要一步,但其應用需要在基礎設施準備和產品質量方面付出與基準測試結果同樣多的努力。.
目前來看,GLM-5.2 是縮小開放式和封閉式 AI 系統之間差距的重要一步——儘管還沒有達到決定性的融合。.
如果你正在閱讀這篇文章,你已經領先一步了。 訂閱我們的新聞簡報,繼續保持領先優勢。








