TradingKey - AI训练成本和使用费用压缩到极致、模型体验媲美OpenAI的ChatGPT,近日中国团队开发的人工智能模型DeepSeek震惊了美国华尔街和硅谷。
周一(1月20日),量化巨头幻方量化创始人梁文峰团队公布了全新开源模型DeepSeek-R1,该模型以中国团队、开源、便宜20倍的开发成本、优异的测评表现等关键字成为AI界最热门的讨论话题。
DeepSeek被称为「AI界拼多多」一点都不为过:去年5月发布的V2模型将推理成本压缩至每百万Token仅1块钱,GPT-4 Turbo的百分之一;新发布的R1模型每百万Token输入价格1元,输出16元,为OpenAI o1的3%。
DeepSeek是名副其实的「花小钱办大事」,在测试效果上跻身全球大模型排行榜前三。在聊天机器人竞技场综合榜上,DeepSeek-R1与GPT o1并列第三;在风格控制、高难度提示词等测试上均与GPT o1并列第一。
DeepSeek官方直言,「我们可以与开源版的o1打平手。」
同样令人震惊的是,大模型的开发只是DeepSeek公司的「副业」,其主业是运用AI技术进行投资。这一现实打脸美国各大AI巨头。
美国各界纷纷点赞
知名投资机构A16z创始人安德森发文称,DeepSeek-R1是他见过的最令人惊叹、最令人印象深刻的突破之一,而且是开源的,它是给世界的一份礼物。
A16z合伙人Midha表示,从斯坦福到麻省理工,DeepSeek-R1几乎一夜之间成为美国顶尖大学研究人员的首选模型。
Scale AI创办人Alexandr Wang表示,R1模型在其公司最具挑战性的AI测试中已经达到或击败所有表现最好的AI模型。长期以来,美国一直在AI竞争中处于领先地位,而DeepSeek团队发布的惊天动地的模型似乎具有象征意义。
AI巨头颤抖
纽约时报报道称,世界领先的AI公司使用超级计算机来训练它们的聊天机器人,这些计算机需要多达1.6万个晶片,且若没有数亿美元的投资根本无法进行竞争。
然而,DeepSeek团队只用了600万美元的原始计算能力就训练了新模型,不到科技巨头Meta训练其最新模型所耗资金的十分之一;也仅使用了2048个英伟达晶片。
加州大学伯克利分校的专家称,DeepSeek模型表明,人工智能能力不存在「护城河」。
DeepSeek的横空出世还是发生在美国对中国限制高端技术和产品出口的大背景下。有研究人员称,中国进口晶片受到限制,迫使DeepSeek工程师更有效的训练大模型,以让其更具竞争力。
英伟达压力山大
英伟达股价涨幅之所以能持续领先美国其他大型企业,主要原因是科技大厂在AI大模型竞赛中持续攀升的晶片需求。
而DeepSeek-R1模型的惊艳亮相,令投资人不禁怀疑,开发优异的AI产品是否还需要这么多的晶片进行模型训练。
有人将英伟达周五(24日)股价的下跌归咎于DeepSeek-R1带来的冲击,这天英伟达下跌逾3%,日前标普500指数刷新历史新高。
按照DeepSeek-R1模型对有着数十年投资经验的TMT Breakout的评论的解释,X平台上的讨论情绪和英伟达股价下跌共同影响了市场参与者的行为,他们试图通过做空英伟达股票来从中获利。
另一方面,DeepSeek-R1模型诞生后,市场其实并未察觉到其带来多达的威胁,英伟达等科技公司的股价未见异动。其引起轰动的导火索可能是X平台的大量传播、A16z创始人的公开点赞、纽约时报等媒体的报道等。
有分析称,现在还难以判断R1是否会给英伟达前景带来负面影响,英伟达即将发布的财报将至关重要。如果DeepSeek是真正的威胁,那么英伟达的指引,尤其是数据中心部分将会有所体现。