
清华大学和微软亚洲研究院完全使用虚构数据训练了一个完整的AI模型。完全没有使用任何真实世界的样本。.
整个数据集是通过名为 SynthSmith 的全新流程人工生成的,并且该系统从头到尾都在英伟达芯片上运行。该团队并非仅仅完成了一项新颖的测试。他们构建了一个拥有 70 亿个参数的实用模型,其性能甚至超越了基于人类数据训练的规模更大的模型。.
他们于 1 月 11 日在 arXiv 上发表的论文声称,他们训练的 X-Coder 的性能优于拥有 140 亿个参数的编码模型,即使它从未见过真实世界的文本。.
研究人员写道:“深入分析表明,我们的合成数据集符合缩放定律。”该团队成员来自清华大学、微软亚洲研究院和武汉大学。.
训练方案大量依赖英伟达硬件。在监督式微调阶段,他们连续使用了128颗英伟达H20芯片220小时。之后,他们又换用32颗H200芯片,连续运行7天,完成强化学习阶段。这些并非随意之选。H20芯片专为推理而设计,而H200芯片则专为高端训练而打造。由于英伟达积极游说,最终促成特朗普政府批准了出口管制豁免,这些芯片目前是中国企业能够获得的最强大的芯片。
研究人员表示,在扩展性方面,管道本身并不是问题所在,关键在于计算能力。.
论文第一作者、清华大学硕士dent 吴杰表示,他们没有将该流程扩展到 1000 亿或万亿参数模型的真正原因仅仅是“计算限制,而不是流程本身的限制”。
他们希望通过公开代码,让其他人能够在无需支付巨额培训费用的情况下,在此项目基础上进行开发。该论文还指出了人工智能领域的一个发展趋势。.
现在人们期望模型能够“思考”更长的时间跨度并处理复杂的推理,这使得推理过程(而不仅仅是训练过程)需要更多的计算能力。.
此外,中国科学家利用光粒子而非电力制造了一种名为 ACCEL 的新型芯片。该芯片(全称为All-Analogue Chip Combining Electronics and Light,即全模拟电子tron芯片)在实验室测试中达到了 4.6 PFLOPS 的运算速度。
这比英伟达A100快3000倍,能耗却低400万倍。这使其成为迄今为止针对图像识别或自动驾驶等特定任务而设计的芯片
虽然它目前还无法取代 CPU 或智能手机芯片,但该团队认为它可以应用于可穿戴设备、电动汽车或智能工厂。.
这款芯片采用中芯国际半导体制造公司(SMIC)20年前的工艺制造而成。它避免了使用中国至今仍无法获得的高级光刻设备。.
在一篇文章中指出 “由于结构设计复杂且易受噪声和系统错误的影响,光子计算系统的部署曾经是一个挑战。”
该芯片通过将光子电子和模拟电子tron结合在一个全新的框架中来避免这个问题。它虽然不能处理文件压缩等通用计算任务,但非常适合人工智能视觉和弱光传感。.
一个令人惊讶的细节是:现代芯片运行一小时所消耗的能量,足以让 ACCEL 运行 500 年。如此低的功耗也使得解决散热问题变得更加容易,而散热问题限制了芯片尺寸的缩小。.
这款芯片的功能包括交通dent、弱光成像和实时视觉,它直接利用环境光进行传感。研究团队表示,这并非一款通用芯片,而是满足了非常特定的需求。.
该项目获得了国家重点研发计划和国家自然科学基金的资助。北京一家名为MakeSens的芯片公司也参与了该项目,该公司由其中一位研究人员联合创办,并且最近也推出了一款低功耗模拟芯片。.
清华大学的戴琼海是该项目的负责人之一,他表示,构建新的计算架构仅仅是第一步。.
“更重要的挑战是将这种新架构应用于实际,解决重大的国家和公共需求,这是我们的责任。”
该团队尚未透露这款芯片何时上市。.
想让你的项目出现在加密货币领域的顶尖人才面前吗?欢迎在我们的下一份行业报告中进行专题报道,让数据与影响力相遇。