tradingkey.logo

中国DeepSeek发布V3.2实验性模型、提升长文本训推效率、API大幅降价

路透社2025年9月29日 13:42

- 中国人工智能初创公司--深度求索(DeepSeek)周一正式发布名为V3.2-Exp的实验性模型。该公司表示,V3.2-Exp针对长文本训练和推理效率进行了探索性优化和验证,并显著下调官方API(应用程序扩展接口)价格超过50%。

DeepSeek在微信公众号刊登的新闻稿中称,作为迈向新一代架构的中间步骤,V3.2-Exp引入了DeepSeek Sparse Attention(一种稀疏注意力机制)。该公司声称,这能在几乎不影响模型输出效果的前提下,实现长文本训练和推理效率的大幅提升。

同时,得益于新模型服务成本的大幅降低,官方API价格也相应下调,新价格即刻生效。在新的价格政策下,开发者调用DeepSeek API的成本将降低50%以上。

DeepSeek-V3.2-Exp模型现已在Huggingface与魔搭开源。

DeepSeek公布这款模型后,两家国产算力芯片公司--华为HWT.UL昇腾和寒武纪 688256.SS分别表示,已经完成对V3.2-Exp模型的适配。

寒武纪在一篇文章中指出,公司一直重视芯片和算法的联合创新,致力于优化大模型部署性能,降低部署成本。本次适配能够达到“业界领先“的计算效率水平。

中国本土人工智能产业公司态度已经转向更加支持国产软硬件生态。中国工信部9月初发文指出,要加强CPU、高性能人工智能服务器、软硬件协同等攻关力度,开展人工智能芯片与大模型适应性测试。

DeepSeek在8月下旬宣布对V3基座模型进行升级,新发布的DeepSeek-V3.1模型支持混合推理架构。

上周该公司表示,DeepSeek-V3.1现已更新至DeepSeek-V3.1-Terminus版本,该版本缓解了中英文混杂、偶发异常字符等情况;进一步优化了Code Agent与Search Agent的表现。(完)

免责声明:本网站提供的信息仅供教育和参考之用,不应视为财务或投资建议。
Tradingkey

相关文章

KeyAI