21.1 C
Nova Iorque
quinta-feira, junho 12, 2025

A IA de Meta memorizou os livros literalmente – isso poderia custar bilhões de bilhões


Em abril, autores de livros e editores protestaram contra o uso de livros de direitos autorais da Meta para treinar IA

Vuk Valcic/Alamy Stay Information

Bilhões de dólares estão em jogo, pois os tribunais nos EUA e no Reino Unido decidem se as empresas de tecnologia podem treinar legalmente seus modelos de inteligência synthetic em livros protegidos por direitos autorais. Autores e editores entraram com vários processos por esse problema e, em uma nova reviravolta, os pesquisadores mostraram que pelo menos um modelo de IA não apenas usou livros populares em seus dados de treinamento, mas também memorizaram seu conteúdo literalmente.

Muitas das disputas em andamento giram sobre se os desenvolvedores de IA têm o direito authorized de usar obras protegidas por direitos autorais sem primeiro pedir permissão. Pesquisas anteriores descobriram que muitos dos grandes modelos de idiomas (LLMS) por trás dos populares programas de IA da IA ​​e outros programas generativos de IA foram treinados no conjunto de dados “Books3”, que contém quase 200.000 livros com direitos autorais, incluindo muitos piratas. Os desenvolvedores de IA que treinaram seus modelos nesse materials argumentaram que não violaram a lei porque um LLM publica novas combinações de palavras com base em seu treinamento, transformando em vez de replicar o trabalho protegido por direitos autorais.

Mas agora, os pesquisadores testaram vários modelos para ver quanto desses dados de treinamento eles podem cuspir de volta literalmente. Eles descobriram que muitos modelos não mantêm o texto exato dos livros em seus dados de treinamento – mas um dos modelos da Meta memorizou quase a totalidade de certos livros. Se os juízes governarem contra a empresa, os pesquisadores estimam que isso poderia tornar metabilipal por pelo menos US $ 1 bilhão em danos.

“Isso significa, por um lado, que os modelos de IA não são apenas ‘máquinas de plágio’, como alguns alegaram, mas também significa que eles fazem mais do que apenas aprender relacionamentos gerais entre as palavras”, diz Mark Lemley na Universidade de Stanford, na Califórnia. “E o fato de a resposta difere do modelo para modelar e reservar para reservar significa que é muito difícil definir uma regra authorized clara que funcionará em todos os casos”.

Lemley defendeu anteriormente a Meta em um caso generativo de direitos autorais chamado Kadrey V Meta Platforms. Os autores cujos livros foram usados ​​para treinar os modelos de IA da Meta entraram com um processo de ação coletiva contra a gigante da tecnologia por quebra de direitos autorais. O caso ainda está sendo ouvido no distrito norte da Califórnia.

Em janeiro de 2025, Lemley anunciado Ele havia abandonado a Meta como cliente, embora tenha dito que ainda acreditava que a empresa deveria vencer o caso. Emil Vazquezum porta -voz da Meta, diz que “o uso justo de materiais protegidos por direitos autorais é important” para o desenvolvimento dos modelos de IA da empresa. “Discordamos das afirmações dos demandantes, e o registro completo conta uma história diferente”, diz ele.

Nesta última pesquisa, Lemley e seus colegas testaram a memorização de livros da IA ​​dividindo pequenos trechos de livros em duas partes – um prefixo e uma seção de sufixo – e vendo se um modelo solicitado com o prefixo responderia com o sufixo. Por exemplo, eles dividiram uma citação de F. Scott Fitzgerald’s O grande Gatsby No prefixo “Eles eram pessoas descuidadas, Tom e Daisy – eles esmagaram coisas e criaturas e depois se retiraram” e o sufixo “de volta ao seu dinheiro ou com seu vasto descuido, ou o que quer que os manteve e deixasse outras pessoas limparem a bagunça que haviam feito”.

Com base em suas descobertas, os pesquisadores estimaram a probabilidade de que cada modelo de IA completasse os trechos literalmente. Em seguida, eles compararam essas probabilidades com as probabilities de modelos que o fazem aleatório.

Os trechos incluíam pedaços de texto de 36 livros protegidos por direitos autorais, incluindo títulos populares como George RR Martin’s A Recreation of Thrones e Sheryl Sandberg’s Inclinar -se. Os pesquisadores também testaram trechos de livros escritos por demandantes no caso Kadrey V Meta plataformas.

Os pesquisadores publicaram esses experimentos em 13 modelos de IA de código aberto, incluindo modelos desenvolvidos e lançados pelo Meta, Google, Deepseek, Eleutherai e Microsoft. A maioria das empresas além da Meta não respondeu aos pedidos de comentários e a Microsoft se recusou a comentar.

Tais testes revelaram que o modelo Llama 3.1 70B da Meta Memorizou a maior parte do primeiro livro do JK Rowling’s Harry Potter série, bem como O grande Gatsby e o romance distópico de George Orwell 1984. A maioria dos outros modelos memorizou muito pouco dos livros, incluindo livros de amostra escritos pelos demandantes. A Meta se recusou a comentar sobre esses resultados.

Os pesquisadores estimam que um modelo de IA encontrado nos direitos autorais de apenas 3 % do conjunto de dados da Livros3 poderia levar a um prêmio estatutário de quase US $ 1 bilhão – e possivelmente prêmios ainda maiores com base nos lucros dos desenvolvedores de IA relacionados a essa infração.

Essa técnica pode ser uma “boa ferramenta forense” para identificar a extensão da memorização da IA, diz Randy McCarthy no escritório de advocacia Corridor Estill em Oklahoma. Mas não resolve se as empresas podem treinar legalmente seus modelos de IA em obras protegidas por direitos autorais através da regra de “uso justo” dos EUA, uma doutrina authorized que permite o uso não licenciado de obras protegidas por direitos autorais em algumas circunstâncias.

McCarthy observa que as empresas de IA geralmente reconhecem o treinamento de seus modelos em materiais protegidos por direitos autorais. “A questão é: eles tinham o direito de fazer isso?” Ele pergunta.

No Reino Unido, por outro lado, o achado de memorização pode ser “muito significativo do ponto de vista dos direitos autorais”, diz Robert Lands no escritório de advocacia Howard Kennedy em Londres. A lei de direitos autorais do Reino Unido segue o conceito de “negociação justa”, que fornece uma exceção muito mais estreita à violação de direitos autorais do que a doutrina de uso justo dos EUA. Portanto, é improvável que os modelos de IA que memorizassem os livros piratas se qualifiquem para essa exceção, diz ele.

Tópicos:

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles