Harvard e Google liberam um milhão de livros para treinamento de modelos de IA

A Universidade de Harvard surpreendeu o setor de tecnologia ao anunciar a liberação de um extenso dataset com quase um milhão de livros em domínio público.

Desenvolvido pela recém-formada Institutional Data Initiative (IDI) de Harvard, o projeto recebeu financiamento da OpenAI e da Microsoft.

Os livros, originalmente digitalizados pelo projeto Google Books, agora estão disponíveis para serem utilizados no treinamento de modelos de linguagem e outras ferramentas de inteligência artificial.

Greg Leppert, diretor executivo da IDI, destacou que o objetivo é ‘nivelar o campo de atuação’, proporcionando ao público em geral o tipo de conteúdo refinado e curado que antes só estava ao alcance de grandes empresas de tecnologia.

Ele compara o impacto potencial do dataset ao papel que o Linux desempenha como sistema operacional fundamental em todo o mundo.

Burton Davis, vice-presidente e vice-conselheiro geral de propriedade intelectual da Microsoft, reforçou que o apoio ao projeto alinha-se às crenças da empresa sobre o valor de criar ‘pools de dados acessíveis’ para startups de IA, gerenciados no interesse público.

Apesar disso, Davis não indicou que a Microsoft substituirá seus dados de treinamento atuais por alternativas de domínio público como a fornecida pela Harvard.

Com diversas ações judiciais em andamento sobre o uso de dados protegidos por direitos autorais no treinamento de IA, o futuro do desenvolvimento dessas tecnologias está em uma encruzilhada.

Se as empresas de IA perderem esses casos, poderão ser obrigadas a rever completamente seus métodos de obtenção de dados.

Projetos como o da Harvard estão avançando com a premissa de que, independentemente do resultado legal, haverá demanda por datasets de domínio público.

Além dos livros, a IDI está colaborando com a Biblioteca Pública de Boston para digitalizar milhões de artigos de jornais em domínio público, sinalizando abertura para parcerias semelhantes no futuro.

Enquanto isso, outras iniciativas ao redor do mundo também estão trabalhando em datasets públicos.

A startup francesa Pleias lançou recentemente o Common Corpus, contendo entre 3 a 4 milhões de livros e coleções periódicas em domínio público.

Ed Newton-Rex, ex-executivo da Stability AI, observa que o surgimento desses datasets demonstra que é possível desenvolver modelos de IA de alta qualidade sem infringir direitos autorais.

No entanto, ele alerta que o impacto positivo só será real se esses datasets forem usados para substituir, e não apenas complementar, materiais protegidos sem licença.

Em resumo, a liberação desse vasto conjunto de livros pela Harvard representa um passo significativo em direção à democratização do desenvolvimento de inteligência artificial.

Ao fornecer recursos que antes eram exclusivos de gigantes da tecnologia, a iniciativa tem o potencial de impulsionar inovação e competitividade no setor, beneficiando pesquisadores, pequenas empresas e, em última instância, a sociedade como um todo.

Interessado(a) em utilizar o acervo? Acesse https://institutionaldatainitiative.org

Total
0
Shares
Artigo anterior

Evinced levanta US$ 55 milhões e mira expansão na Europa focada em acessibilidade

Próximo artigo

Novo fundo de €200 milhões visa apoiar startups focadas em computação quântica e IA



Artigos relacionados