
清華大學和微軟亞洲研究院完全使用虛構數據訓練了一個完整的AI模型。完全沒有使用任何真實世界的樣本。.
整個數據集是通過名爲 SynthSmith 的全新流程人工生成的,並且該系統從頭到尾都在英偉達芯片上運行。該團隊並非僅僅完成了一項新穎的測試。他們構建了一個擁有 70 億個參數的實用模型,其性能甚至超越了基於人類數據訓練的規模更大的模型。.
他們於 1 月 11 日在 arXiv 上發表的論文聲稱,他們訓練的 X-Coder 的性能優於擁有 140 億個參數的編碼模型,即使它從未見過真實世界的文本。.
研究人員寫道:“深入分析表明,我們的合成數據集符合縮放定律。”該團隊成員來自清華大學、微軟亞洲研究院和武漢大學。.
訓練方案大量依賴英偉達硬件。在監督式微調階段,他們連續使用了128顆英偉達H20芯片220小時。之後,他們又換用32顆H200芯片,連續運行7天,完成強化學習階段。這些並非隨意之選。H20芯片專爲推理而設計,而H200芯片則專爲高端訓練而打造。由於英偉達積極遊說,最終促成特朗普政府批准了出口管制豁免,這些芯片目前是中國企業能夠獲得的最強大的芯片。
研究人員表示,在擴展性方面,管道本身並不是問題所在,關鍵在於計算能力。.
論文第一作者、清華大學碩士dent 吳傑表示,他們沒有將該流程擴展到 1000 億或萬億參數模型的真正原因僅僅是“計算限制,而不是流程本身的限制”。
他們希望通過公開代碼,讓其他人能夠在無需支付鉅額培訓費用的情況下,在此項目基礎上進行開發。該論文還指出了人工智能領域的一個發展趨勢。.
現在人們期望模型能夠“思考”更長的時間跨度並處理複雜的推理,這使得推理過程(而不僅僅是訓練過程)需要更多的計算能力。.
此外,中國科學家利用光粒子而非電力製造了一種名爲 ACCEL 的新型芯片。該芯片(全稱爲All-Analogue Chip Combining Electronics and Light,即全模擬電子tron芯片)在實驗室測試中達到了 4.6 PFLOPS 的運算速度。
這比英偉達A100快3000倍,能耗卻低400萬倍。這使其成爲迄今爲止針對圖像識別或自動駕駛等特定任務而設計的芯片
雖然它目前還無法取代 CPU 或智能手機芯片,但該團隊認爲它可以應用於可穿戴設備、電動汽車或智能工廠。.
這款芯片採用中芯國際半導體制造公司(SMIC)20年前的工藝製造而成。它避免了使用中國至今仍無法獲得的高級光刻設備。.
在一篇文章中指出 “由於結構設計複雜且易受噪聲和系統錯誤的影響,光子計算系統的部署曾經是一個挑戰。”
該芯片通過將光子電子和模擬電子tron結合在一個全新的框架中來避免這個問題。它雖然不能處理文件壓縮等通用計算任務,但非常適合人工智能視覺和弱光傳感。.
一個令人驚訝的細節是:現代芯片運行一小時所消耗的能量,足以讓 ACCEL 運行 500 年。如此低的功耗也使得解決散熱問題變得更加容易,而散熱問題限制了芯片尺寸的縮小。.
這款芯片的功能包括交通dent、弱光成像和實時視覺,它直接利用環境光進行傳感。研究團隊表示,這並非一款通用芯片,而是滿足了非常特定的需求。.
該項目獲得了國家重點研發計劃和國家自然科學基金的資助。北京一家名爲MakeSens的芯片公司也參與了該項目,該公司由其中一位研究人員聯合創辦,並且最近也推出了一款低功耗模擬芯片。.
清華大學的戴瓊海是該項目的負責人之一,他表示,構建新的計算架構僅僅是第一步。.
“更重要的挑戰是將這種新架構應用於實際,解決重大的國家和公共需求,這是我們的責任。”
該團隊尚未透露這款芯片何時上市。.
想讓你的項目出現在加密貨幣領域的頂尖人才面前嗎?歡迎在我們的下一份行業報告中進行專題報道,讓數據與影響力相遇。