
数据集中包含的其他书籍包括捷克数学教科书和威尔士袖珍词典。 该大学在 3 月份嘲笑 IDI,明确表示其计划创建“人工智能合法数据的可信渠道”。此后,一直没有太多消息,直到周四正式启动,科技巨头微软和 OpenAI 资助了该项目。 该数据集并不是硅谷独有的,但 IDI 已向任何人开放,从研究实验室到想要训练大型语言模型的人工智能初创公司。 IDI 执行董事格雷格·莱珀特 (Greg Lepert) 表示,通过向任何人开放该数据集,该数据集旨在创造公平的竞争环境,目前训练人工智能的成本仍然很高,对小公司来说令人望而却步,并使其保留给那些拥有巨额预算的公司。 莱珀特补充说,该数据集经过了“严格审查”,根据Fudzilla的说法,这可能意味着有人进行了检查,以确保巴德确实已经离开了。 Lepert 将该数据集的潜力与开源操作系统 Linux 进行了比较,他表示,哈佛数据集的成功将取决于许多变量。莱珀特表示,其成功将需要更多的资源、专业知识,以及该计划旨在挑战的那些财力雄厚的公司的“魔法”。 作为 Google 图书计划的一部分,对数据集中包含的数百万本书进行了扫描。 Fudzilla 将这一举措描述为一个数字时间胶囊,从那时起,谷歌扫描每本书的野心似乎很古怪,而不是反乌托邦。 然而,莱珀特对该项目的潜在用途持乐观态度,并进一步表明它可能是一个宝库,可以帮助从车库初创公司到企业集团的每个人训练人工智能模型。 虽然有些人称赞这一举措是人工智能民主化方面的革命性飞跃,但 Fudzilla 认为,有些人可能会认为这是一种微妙的手段,可以确保任何拥有几 TB 服务器空间的雄心勃勃的新贵现在可以参与开发下一个 ChatGPT 的竞赛。 然而,他们将需要更多的资源来竞争并在市场上占据dent。 ChatGPT 于 2022 年 11 月推出,立即获得成功,刺激了全球生成式 AI 模型的竞赛。然而,这些模型的发展产生了对数据的渴望来完善它们,而这种对更多数据的渴望导致了他们在不窃取信息的情况下可以获得多少信息的问题。 迄今为止,《华尔街日报》和《纽约时报》等出版商已起诉OpenAI 和 Perplexity 未经许可使用其数据。 从零到 Web3 Pro:您的 90 天职业启动计划哈佛数据集将需要更多资源