Investing.com — 阿里巴巴集團控股有限公司 ADR (NYSE:BABA) 週二推出了其新一代大型語言模型系列千問3(Qwen3),擴展了其人工智能產品線,涵蓋多種模型規模和架構。此次發布包括八個開放權重模型,其中六個為密集模型,兩個為混合專家模型(MoE),參數範圍從6億到235億不等。
旗艦模型Qwen3-235B-A22B在編程、數學和一般任務的基準測試中,與DeepSeek-R1、Grok-3和Gemini-2.5-Pro等領先模型相比表現出競爭力。較小的模型如Qwen3-30B-A3B也超越了更多參數密集型模型,顯示其在結構和訓練方面的效率提升。
所有模型(包括預訓練和後訓練變體)均可通過Hugging Face、ModelScope和Kaggle公開訪問。阿里巴巴推薦使用SGLang和vLLM進行部署,而本地用戶可以使用LMStudio、llama.cpp和KTransformers等工具運行Qwen3。
Qwen3提供可擴展和適應性能,讓用戶能夠調整計算推理預算,平衡準確性和資源成本。這種靈活性旨在滿足開發者將人工智能整合到消費者或企業級工作流程中日益多樣化的需求。
這些模型支持119種語言和方言,是其前身千問2.5覆蓋範圍的三倍。這種廣泛的多語言能力使千問3有望在全球市場採用,包括具有豐富語言多樣性的新興地區。
千問3模型在編碼和代理功能方面展現了進步,並通過模型條件提示(MCP)的更深入整合得到增強。這些改進支持複雜應用,如自主代理和更高精度的開發者工具。
該系列經過36萬億個標記的訓練,包括來自STEM、推理、書籍和合成數據集的高質量來源。數據升級有助於在語言理解、編程能力和長上下文記憶方面取得顯著進步。
千問3採用了架構和訓練創新,如MoE模型的qk層歸一化和全局批次負載平衡。這導致了更大的訓練穩定性和各種模型規模的一致性能提升。
其三階段預訓練方法分別針對語言理解、推理和長上下文處理,標記序列延長至32,000。這種模塊化策略增強了千問3處理複雜、多輪交互和更大文檔的能力。
通過根據每種模型類型的擴展法則優化超參數,千問3代表了阿里巴巴迄今為止最精心設計和技術全面的發布。業內觀察人士表示,其開放權重策略和多語言覆蓋範圍可能使其成為全球人工智能競賽中的重要競爭者。
此文章由人工智能協助翻譯。更多資訊,請參閱我們的使用條款。