據傳，DeepSeek V4 在長上下文編碼方面將超越 ChatGPT 和 Claude。

Cryptopolitan2026年1月10日 10:00

據傳，DeepSeek V4 在長上下文編碼方面將超越 ChatGPT 和 Claude，目標是完成高階編碼任務。業內人士稱，如果內部測試結果與 2 月中旬正式發佈後的預期表現相符，那麼硅谷的人工智能行業應該對此感到擔憂。.

據報道，總部位於中國的AI初創公司DeepSeek計劃於2月17日發佈其最新的大型語言模型DeepSeek V4。知情人士稱，該模型在處理長上下文代碼提示和任務時，有望超越現有的大型語言模型，例如OpenAI的ChatGPT和Anthropic的Claude。

開發者們對 DeepSeek V4 的發佈充滿期待

截至發稿時，這家中國公司尚未公開披露任何關於即將發佈的產品信息，也未證實相關傳聞。各大社交網絡上的開發者都對此次發佈表達了高度期待。人工智能開發者、Hyperbolic Labs聯合創始人金宇辰發文稱：“據傳DeepSeek V4即將發佈，其tron。”

Reddit 子版塊 r/DeepSeek 也熱鬧起來，一位用戶解釋說，他對 DeepSeek 即將推出的 V4 型號的癡迷並不正常。這位用戶表示，他經常“查看新聞、各種傳聞，甚至會去 DS 官網閱讀文檔，尋找任何可能預示着更新的跡象或變化。”

DeepSeek此前的產品發佈對全球市場產生了重大影響。這家中國人工智能初創公司發佈了R1推理模型，引發了萬億美元的拋售潮。儘管R1模型的成本遠低於OpenAI的01模型，但在數學和推理基準測試中，其性能卻與OpenAI的01模型不相上下。

據報道，這家中國公司僅花費了600萬美元用於該型號產品的發佈。與此同時，全球競爭對手爲獲得相同產品投入的資金幾乎是其70倍。其V3型號在MATH-500基準測試中取得了90.2%的得分，而Claude的得分爲78.3%。DeepSeek最近推出的V3升級版（V3.2 Speciale）進一步提升了其生產力。.

V4 模型的賣點已從 V3 模型側重的純粹推理、形式化證明和邏輯數學演變而來。新版本預計將採用混合模型，結合推理和非推理任務。該模型旨在填補現有市場空白，滿足對高精度和長上下文代碼生成的需求，從而贏得開發者市場。.

Claude Opus 4.5 目前在 SWE 基準測試中佔據主導地位，準確率達到 80.9%。V4 需要超越這一水平才能反超 Claude Opus 4.5。根據以往的成功經驗，即將推出的模型有望突破這一門檻，並在基準測試中佔據主導地位。

DeepSeek率先將mHC應用於LLM培訓。

DeepSeek 的成功令許多專業人士難以置信。這樣一家規模如此小的公司，究竟是如何取得如此里程碑式的成就的？答案或許就隱藏在其 1 月 1 日發佈的dent了一種新的訓練方法，能夠幫助開發者輕鬆擴展大型語言模型。DeepSeek 的創始人兼首席執行官梁文峯在論文中寫道，公司正在使用流形約束超連接 (mHC) 來訓練其人工智能模型。

該高管提議使用 mHC 來解決開發者在訓練大型語言模型時遇到的問題。據文峯介紹，mHC 是 Hyper-Connections (HC) 的升級版，HC 是其他 AI 開發者用來訓練大型語言模型的框架。他解釋說，HC 和其他傳統 AI 架構強制所有數據通過單一的狹窄通道傳輸。而 mHC 則將該通道拓寬爲多個通道，從而促進數據和信息的傳輸，避免訓練崩潰。.

Omdia首席分析師蘇連傑(Lian Jye Su)對DeepSeek首席執行官文峯公開其研究成果表示讚賞。蘇連傑強調，DeepSeek決定公開其訓練方法，重振了人們對中國人工智能行業的信心。DeepSeek在佔據主導地位。微軟週四發佈的一份報告顯示，DeepSeek佔據了中國人工智能市場89%的份額，並在發展中國家也獲得了強勁的增長勢頭。

如果您正在閱讀本文，那麼您已經領先一步了。請持續關注我們的新聞通訊。

免責聲明：本網站提供的資訊僅供教育和參考之用，不應視為財務或投資建議。

Tradingkey