tradingkey.logo

Google e Harvard estreiam conjunto de dados com 1 milhão de livros de domínio público para treinamento em IA

Cryptopolitan12 de dez de 2024 às 23:45

Outros livros contidos no conjunto de dados incluem livros didáticos de matemática tcheca e dicionários de bolso galeses.

A universidade provocou o IDI em março, afirmando claramente os seus planos para criar um “canal confiável de dados legais para IA”. Desde então, pouco se ouviu falar dele até o lançamento formal na quinta-feira e os gigantes da tecnologia Microsoft e OpenAI financiaram o projeto.

O conjunto de dados não é uma reserva exclusiva do Vale do Silício, mas o IDI o abriu para qualquer pessoa, desde laboratórios de pesquisa até startups de IA que desejam treinar seus grandes modelos de linguagem.

Ao abrir o conjunto de dados a qualquer pessoa, o diretor executivo do IDI, Greg Leppert, disse que o objetivo do conjunto de dados é nivelar o campo de atuação, num momento em que o custo do treinamento em IA permanece alto e proibitivo para empresas menores e tornando-o reservado para aquelas com orçamentos enormes.

Leppert acrescentou que o conjunto de dados é “rigorosamente revisado”, o que, de acordo com Fudzilla, provavelmente significa que alguém verificou para garantir que Bard realmente estava fora do caminho.

O conjunto de dados de Harvard precisará de mais recursos

De acordo com Leppert, que comparou o potencial do conjunto de dados ao Linux, o sistema operacional de código aberto, o sucesso do conjunto de dados de Harvard dependerá de uma série de variáveis. Leppert disse que o seu sucesso exigirá mais recursos, experiência e uma “pitada de magia” das mesmas empresas endinheiradas que a iniciativa foi concebida para desafiar.

Os milhões de livros contidos no conjunto de dados foram digitalizados como parte do programa Google Livros. Fudzilla descreve a iniciativa como uma cápsula do tempo digital de quando as ambições do Google de digitalizar todos os livros pareciam mais peculiares do que distópicas.

No entanto, Leppert está otimista sobre os usos potenciais do projeto, sugerindo ainda que ele poderia ser um tesouro ajudando a treinar modelos de IA para todos, desde startups de garagem até conglomerados corporativos.

Embora alguns tenham elogiado a iniciativa como um salto revolucionário na democratização da IA, Fudzilla opina que alguns podem ver isso como um meio sutil de garantir que qualquer novato ambicioso com alguns terabytes de espaço de servidor possa agora competir em uma corrida para desenvolver o próximo ChatGPT. .

No entanto, precisarão de mais recursos para competir e marcar dent no mercado. O ChatGPT foi lançado em novembro de 2022 com sucesso imediato, o que estimulou a corrida por modelos generativos de IA em todo o mundo. No entanto, o desenvolvimento destes modelos criou uma sede de dados para os aperfeiçoar e este desejo por mais dados causou problemas sobre a quantidade de informação que conseguem obter, sem a roubar.

Até o momento, editores como o Wall Street Journal e o New York Times processaram a OpenAI e a Perplexity por usarem seus dados sem permissão.

Do zero ao Web3 Pro: seu plano de lançamento de carreira de 90 dias

Aviso legal: as informações fornecidas neste site são apenas para fins educacionais e informativos e não devem ser consideradas consultoria financeira ou de investimento.

Artigos relacionados

KeyAI