Otros libros contenidos en el conjunto de datos incluyen libros de texto de matemáticas checos y diccionarios de bolsillo de galés. La universidad se burló de la IDI en marzo indicando claramente sus planes de crear un “conducto confiable para datos legales para la IA”. Desde entonces, no se supo mucho de él hasta el lanzamiento formal el jueves y los gigantes tecnológicos Microsoft y OpenAI financiaron el proyecto. El conjunto de datos no es un dominio exclusivo de Silicon Valley, pero IDI lo ha abierto a cualquiera, desde laboratorios de investigación hasta nuevas empresas de inteligencia artificial que quieran entrenar sus grandes modelos lingüísticos. Al abrir el conjunto de datos a cualquiera, el director ejecutivo de IDI, Greg Leppert , dijo que el conjunto de datos está destinado a nivelar el campo de juego, en un momento en el que el costo de entrenar la IA sigue siendo alto y prohibitivo para las empresas más pequeñas y hacer que esté reservado a aquellas con grandes presupuestos. Leppert agregó que el conjunto de datos es "revisado rigurosamente", lo que, según Fudzilla, presumiblemente significa que alguien verificó para asegurarse de que Bard realmente se hubiera ido y fuera del camino. Según Leppert, que comparó el potencial del conjunto de datos con Linux, el sistema operativo de código abierto, el éxito del conjunto de datos de Harvard dependerá de una serie de variables. Leppert dijo que su éxito requerirá más recursos, experiencia y una “pizca de magia” de esas mismas corporaciones con mucho dinero a las que la iniciativa está diseñada para desafiar. Los millones de libros contenidos en el conjunto de datos fueron escaneados como parte del programa Google Books. Fudzilla describe la iniciativa como una cápsula del tiempo digital de cuando las ambiciones de Google de escanear cada libro parecían más extravagantes que distópicas. Sin embargo, Leppert se muestra optimista sobre los usos potenciales del proyecto y sugiere además que podría ser un tesoro escondido que ayudaría a entrenar modelos de IA para todos, desde nuevas empresas de garaje hasta conglomerados corporativos. Si bien algunos han elogiado la iniciativa como un avance revolucionario en la democratización de la IA, Fudzilla opina que algunos podrían ver esto como un medio sutil para garantizar que cualquier advenedizo ambicioso con unos pocos terabytes de espacio en el servidor pueda ahora competir en una carrera para desarrollar el próximo ChatGPT. . Sin embargo, necesitarán más recursos para competir y hacerse un dent en el mercado. ChatGPT se lanzó en noviembre de 2022 con un éxito inmediato, lo que impulsó la carrera por modelos de IA generativa en todo el mundo. Sin embargo, el desarrollo de estos modelos ha creado una sed de datos para perfeccionarlos y este deseo de más datos ha causado problemas sobre cuánta información pueden obtener sin robarla. Hasta la fecha, editores como el Wall Street Journal y el New York Times han demandado a OpenAI y Perplexity por utilizar sus datos sin permiso. De cero a Web3 Pro: su plan de lanzamiento profesional de 90 días El conjunto de datos de Harvard necesitará más recursos