
文章作者:馬麓
窗外是2026年春節的煙火,但在國產大模型的算力網絡裏,硝煙味卻比年味更濃。
大洋彼岸的AI巨頭們率先掀起迭代熱潮,戰事比國內更早升溫,且動作密集遠超以往。北京時間2月6日凌晨,Anthropic與OpenAI幾乎同步推出基礎大模型新版本,形成正面交鋒——Anthropic發佈Claude Opus 4.6,進一步優化複雜推理與多模態協同能力;OpenAI 則推出GPT-5.3-Codex,作爲GPT-5.2的迭代升級款,聚焦編程與工程化核心場景,實現推理與編程能力的深度融合。
在2月12日,谷歌也緊隨其後官宣發力,對Gemini 3 Deep Think進行重大升級,重點推出專門針對科學、研究與工程場景打造的「推理模式」,旨在推動智能前沿發展。
不同於以往的分散迭代,此次海外三巨頭幾乎同步發力、各有側重,既延續了自身核心優勢,也進一步鞏固了硅谷在大模型技術與場景落地層面的主導地位。
視線轉回國內,這個春節呈現出一種詭異的冰火兩重天。月之暗面、阿里雲如急行軍,趕在節前密集發佈了各項性能指標對標甚至超越GPT-5.2的旗艦模型,試圖在 HLE(人類最後考試)等榜單上搶佔全球第一的認知高地。
字節跳動則宣佈2月14日,正式推出豆包大模型系列重磅升級;另一邊,DeepSeek 的萬億參數旗艦宣告推遲,而智譜GLM-5、MiniMax M2.2已搶先壓軸登場,讓春節AI戰局徹底白熱化。
這似乎折射出中國AI正在分化出兩條截然不同的路徑,是繼續在榜單上通過應試技巧圍獵海外巨頭,還是在架構重構的深水區尋找真正的反身性機會?當下,中國大模型正在經歷一場追隨與自主創新的深刻轉型。
國產大模型的春節圍獵
如果說2025年是中國大模型的百模大戰,那麼2026年春節的這場戰役,已經演變成了行業寡頭對技術定義權的爭奪,以及底層技術路線的劇烈分化。阿里雲在1月26日率先打響了春節檔的第一槍。Qwen3-Max-Thinking 的發佈,不僅是一款旗艦模型的落地,更是阿里試圖構建AI時代安卓式開源生態的宣言。
該模型在HLE評測中拿下 58.3 分,大幅超過GPT-5.2-Thinking(45.5 分)和Gemini 3 Pro(45.8 分),千問衍生模型數量已突破 20 萬,累計下載量破 10 億,試圖用開源築起生態壁壘。
緊隨其後的月之暗面旗下Kimi則走了極致效率的極客路線,以 1% 資源換取極致效率,避開參數堆疊競賽,通過自研Muon優化器專注辦公與代碼場景,其K2.5模型的Agent集羣能力,可調度 100 個分身並行處理 1500 個步驟的複雜任務,走差異化競爭路線。
字節跳動2月14日宣佈,豆包大模型正式進入2.0階段。據介紹,豆包2.0系列包含Pro、Lite、Mini三款通用Agent模型和Code模型:豆包2.0 Pro面向深度推理與長鏈路任務執行場景,全面對標GPT 5.2與Gemini 3 Pro;2.0 Lite兼顧性能與成本,綜合能力超越上一代主力模型豆包1.8;2.0 Mini面向低時延、高併發與成本敏感場景;Code版(Doubao-Seed-2.0-Code)專爲編程場景打造,與TRAE結合使用效果更佳。
音視頻創作模型Seedance 2.0升級全模態交互能力;圖像創作模型Seedream 5.0 Lite 以輕量化架構兼顧效率與商業落地。
對此,杭州久痕科技、remio創始人汪源在採訪中也直言,豆包是國內日常使用中更貼合本土需求的模型,在中國歷史、文化、影視娛樂,以及淘寶等本土電商場景上,憑藉專屬訓練數據表現優於 GPT,能有效避免海外模型的常識性錯誤,但從能力上限來看,與海外頂尖模型仍有明顯差距,而騰訊元寶發力較晚,當前競爭力相對較弱。原 OpenAI 核心成員姚舜禹加盟後,後續表現有望改觀,但仍需時間檢驗。
上海人工智能實驗室也在2月4日晚間重磅發佈書生-S1-Pro——全球首個基於「通專融合」架構的萬億參數科學多模態大模型,僅激活 2% 參數即可應對複雜科學任務,成爲開源社區的重要突破。
2月11-12日,智譜、MiniMax接連發布旗艦模型,徹底點燃春節檔收官戰局。智譜AI於2月11日正式推出GLM-5,此前該系列曾以匿名身份在海外權威榜單登頂,總參數達 744B,在編程評測中拿下開源模型最高分,完成國產芯片全適配。
MiniMax則在2月12日發佈M2.2,定位全球首個原生爲智能體設計的生產級模型,SWE-Bench Verified 得分超越Claude Opus 4.6,成本僅爲GPT-5的 1/20,以極致性價比切入企業級場景。
然而,在六大陣營高歌猛進的喧囂中,最引人注目的仍是DeepSeek的靜默。網傳其將推出 100 萬 Token 上下文新模型,但春節期間僅對V3系列小幅更新,萬億參數旗艦因訓練週期超期推遲。
據汪源回憶,去年DeepSeek上線時,曾是當時國產模型與海外頂尖差距最小的選手。儘管就在這幾天,各大友商正通過春節檔的密集發佈,極力修補過去一年被海外巨頭重新拉大的技術代差,但DeepSeek如今在萬億旗艦上的推遲,依然殘酷地映射出了這道底層鴻溝的真實深度——當競爭維度從千億參數的優化,躍升至萬億參數與原生思考的重構時,即便是曾經最出色的破局者,也不可避免地撞上了艱難的技術深水區。這無疑讓DeepSeek的下一步動作,成了整場春節戰事中最大的懸念。”
從刷榜思維到原生思考的虛實博弈
國內廠商密集發佈新品,行業一度出現“從追趕到圍獵”的論調,但汪源則給出了更清醒的判斷,過去一年,國產大模型與 OpenAI、Anthropic、Google 三大海外巨頭的差距,其實是被拉大了。
他指出,海外以GPT-5.2爲代表的頂尖模型,已經完成了核心範式躍遷——不再嚴格區分思考模式與非思考模式,而是將推理能力內化爲模型本能,且能精準控制推理耗時,簡單問題快速響應,複雜問題的智能性遠超當前國產模型。
反觀國內,現階段的大部分模型仍處於“顯性推理”的工程化探索期”。爲了在邏輯難題上追趕頂尖水平,模型往往需要依賴極長的思維鏈(CoT)來換取準確率。這種“用時間換分數”的策略雖然能顯著提升榜單成績,但在實際應用中,往往伴隨着更高的計算成本和等待時間,導致了高分榜單與流暢體驗之間的一定錯位。
汪源也直言,所謂“國產模型圍獵海外巨頭”的說法言過其實,海外廠商早已聚焦資源打磨編程、實用工具等核心能力,而國內團隊若將大量資源投入到日常極少用到的博士級工科難題等榜單考點,必然會犧牲真實應用能力,這也是中外模型體驗差距的核心根源。
不過,這種技術層面的“錯位”正隨着春節檔後半程的密集發佈迎來快速修正。需要指出的是,汪源的上述觀察更多基於一月底前的行業切面。就在這幾天,隨着智譜 GLM-5、MiniMax M2.2 等壓軸旗艦模型的正式交付,業內引發了新一輪的實測熱議。從目前的行業反饋來看,最新一批的國產模型在推理響應速度、代碼工程能力以及原生思考的流暢度上,已經有了肉眼可見的明顯提升。
這表明,中國AI廠商並未陷入單一“刷榜”的迷思,而是正以極快的迭代速度打磨實際應用能力,努力填平“跑分”與“體感”之間的體驗鴻溝。儘管技術範式上的代差依然存在,但這幾天的密集突破證明,中國大模型正在以驚人的韌性縮短這一距離。
智能體集羣與本地大腦的突圍
當單純的模型參數比拼進入邊際效應遞減的瓶頸期,2026 年全球大模型的競爭重心,已經不可避免地向智能體(Agent)與上下文工程(Context Engineering)轉移。這不僅是技術的演進,更是大模型從雲端玩具走向生產力工具的必經之路。
Kimi的Agent集羣、MiniMax與智譜的企業級智能體模型,都是這一趨勢的印證。但汪源指出,當前智能體仍面臨兩大核心瓶頸:一是上下文記憶缺失,多輪對話後極易“失憶”;二是視覺能力不足,對圖像佈局與精度的理解偏差,制約了AI操作軟件完成複雜任務的能力。這也正是行業下一步的核心攻堅方向。
而汪源所打造的remio,雖然主攻歐美市場,但其技術哲學代表了中國開發者在應用層的另一種差異化突圍:其核心壁壘並非簡單的模型聚合,而是上下文工程+本地預處理,洞察到個人PC日常利用率較低的現狀,通過盤活龐大的閒置算力,提前對本地郵件、文檔解析索引,打造用戶的「本地 Google」,在調用大模型時瞬間匹配歷史信息,從根源解決智能體失憶問題。
這種「本地預處理 + 雲端強模型」的混合架構,被視爲應用層產品在巨頭壟斷的純雲端服務之外,建立獨立護城河的關鍵路徑。而在同一賽道上,DeepSeek 網傳的 100 萬 Token 上下文新模型,則是從模型底層試圖解決這一難題。兩者殊途同歸,都指向了同一個未來——讓AI擁有較長的記憶。
對於中國AI的未來,汪源持長期樂觀態度。在他看來,中國完全有機會在 1-2 年內追平全球頂尖水平,兩大長期優勢不可替代——一是人才,雖然全球頂尖科研人才仍以美國爲主導,但他指出大模型領域的核心主力不乏華人,中國在工程化人才儲備上具備深厚底蘊,追趕勢能強勁;二是基礎設施,中國的電力供給、未來國產GPU的低成本優勢,會在 5 年內逐步釋放,爲長期追趕提供物理底氣。
2026 年的春節,或許正是中國AI從刷榜的應試迷思中醒來,走向技術深水區與產業實戰的關鍵轉折點。無論是阿里構建的開源生態、Kimi 探索的集羣智能、豆包的本土多模態升級、智譜與MiniMax的工程化突破,還是DeepSeek正在醞釀的底層架構重構,都在證明一件事:真正的圍獵不是榜單分數的暫時超越,而是當AI像水和電一樣融入每一臺終端、每一個產業工作流時,誰能掌握那個不可替代的技術與生態開關。