
數據集中包含的其他書籍包括捷克數學教科書和威爾士袖珍詞典。 該大學在 3 月份嘲笑 IDI,明確表示其計劃創建“人工智能合法數據的可信渠道”。此後,一直沒有太多消息,直到週四正式啓動,科技巨頭微軟和 OpenAI 資助了該項目。 該數據集並不是硅谷獨有的,但 IDI 已向任何人開放,從研究實驗室到想要訓練大型語言模型的人工智能初創公司。 IDI 執行董事格雷格·萊珀特 (Greg Lepert) 表示,通過向任何人開放該數據集,該數據集旨在創造公平的競爭環境,目前訓練人工智能的成本仍然很高,對小公司來說令人望而卻步,並使其保留給那些擁有鉅額預算的公司。 萊珀特補充說,該數據集經過了“嚴格審查”,根據Fudzilla的說法,這可能意味着有人進行了檢查,以確保巴德確實已經離開了。 Lepert 將該數據集的潛力與開源操作系統 Linux 進行了比較,他表示,哈佛數據集的成功將取決於許多變量。萊珀特表示,其成功將需要更多的資源、專業知識,以及該計劃旨在挑戰的那些財力雄厚的公司的“魔法”。 作爲 Google 圖書計劃的一部分,對數據集中包含的數百萬本書進行了掃描。 Fudzilla 將這一舉措描述爲一個數字時間膠囊,從那時起,谷歌掃描每本書的野心似乎很古怪,而不是反烏托邦。 然而,萊珀特對該項目的潛在用途持樂觀態度,並進一步表明它可能是一個寶庫,可以幫助從車庫初創公司到企業集團的每個人訓練人工智能模型。 雖然有些人稱讚這一舉措是人工智能民主化方面的革命性飛躍,但 Fudzilla 認爲,有些人可能會認爲這是一種微妙的手段,可以確保任何擁有幾 TB 服務器空間的雄心勃勃的新貴現在可以參與開發下一個 ChatGPT 的競賽。 然而,他們將需要更多的資源來競爭並在市場上佔據dent。 ChatGPT 於 2022 年 11 月推出,立即獲得成功,刺激了全球生成式 AI 模型的競賽。然而,這些模型的發展產生了對數據的渴望來完善它們,而這種對更多數據的渴望導致了他們在不竊取信息的情況下可以獲得多少信息的問題。 迄今爲止,《華爾街日報》和《紐約時報》等出版商已起訴OpenAI 和 Perplexity 未經許可使用其數據。 從零到 Web3 Pro:您的 90 天職業啓動計劃哈佛數據集將需要更多資源