阿里巴巴正式推出其迄今爲止規模最大、能力最強的模型Qwen3-Max

老虎資訊2025年9月24日 03:48

9月24日，阿里巴巴美股夜盤、H股均漲超7%！正式推出其迄今爲止規模最大、能力最強的模型 Qwen3-Max。

據通義千問Qwen公衆號消息：繼 Qwen3-2507 系列發佈之後，我們非常高興地推出 Qwen3-Max —— 我們迄今爲止規模最大、能力最強的模型。目前，Qwen3-Max-Instruct 的預覽版在 LMArena 文本排行榜上位列第三，超越了 GPT-5-Chat。正式版本在代碼能力和智能體（agent）能力方面進一步提升，在涵蓋知識、推理、編程、指令遵循、人類偏好對齊、智能體任務和多語言理解的全面基準測試中均達到業界領先水平。

我們誠邀您通過阿里雲 API 體驗 Qwen3-Max-Instruct，或直接在 Qwen Chat 上進行試用。與此同時，仍在訓練中的 Qwen3-Max-Thinking 已展現出非凡潛力。在結合工具使用並增加測試時計算資源的情況下，該“思考”版本已在 AIME 25、HMMT 等高難度推理基準測試中取得 100% 的準確率。我們期待在不久的將來向公衆正式發佈這一版本。

Qwen3-Max-Base

Qwen3-Max模型總參數超過1T，預訓練使用了36T tokens。模型結構沿用了Qwen3系列的模型結構設計範式，使用了我們提出的global-batch load balancing loss。

訓練穩定性：得益於Qwen3的MoE模型結構設計，Qwen3-Max的預訓練loss穩定平滑。訓練過程一氣呵成，沒有任何loss尖刺，也沒有使用訓練回退、改變數據分佈等調整策略。
訓練高效性：在PAI-FlashMoE的高效多級流水並行策略優化下，Qwen3-Max-Base訓練效率顯著提升，其MFU相比Qwen2.5-Max-Base相對提升30%。在長序列訓練場景中，我們進一步使用ChunkFlow策略獲得了相比序列並行方案提升3倍的吞吐收益，支持Qwen3-Max 1M長上下文的訓練。同時，通過SanityCheck、EasyCheckpoint、調度鏈路優化等多種手段，Qwen3-Max在超大規模集羣上因硬件故障造成的時間損失下降爲Qwen2.5-Max的五分之一。

Qwen3-Max-Instruct

Qwen3-Max-Instruct的預覽版已在 LMArena 文本排行榜上穩居全球前三。正式發佈版本進一步提升了其能力，尤其在代碼生成與智能體表現方面表現卓越。在專注於解決現實編程挑戰的基準測試 SWE-Bench Verified 上，Qwen3-Max-Instruct 取得了高達69.6分的優異成績，穩居全球頂尖模型之列。此外，在評估智能體工具調用能力的嚴苛基準 Tau2-Bench 上，Qwen3-Max-Instruct 更是實現了突破性表現，以74.8分超越 Claude Opus 4與 DeepSeek-V3.1。

Qwen3-Max-Thinking（Heavy）

Qwen3-Max 的推理增強版本—— Qwen3-Max-Thinking，通過集成代碼解釋器並運用並行測試時計算技術，展現了前所未有的推理能力，尤其在極具挑戰性的數學推理基準測試 AIME 25 和 HMMT 上，均取得了滿分。目前，我們正在全力推進 Qwen3-Max-Thinking 的訓練，期待儘快能讓用戶體驗。