11.1 C
Nova Iorque
sábado, maio 10, 2025

As alucinações da IA ​​estão piorando – e elas estão aqui para ficar


Os erros tendem a surgir em conteúdo gerado pela IA

Paul Taylor/Getty Photographs

A IA Chatbots de empresas de tecnologia como OpenAI e Google tem recebido as chamadas atualizações de raciocínio nos últimos meses-idealmente para torná-las melhores em nos dar respostas em que podemos confiar, mas testes recentes sugerem que eles às vezes estão se saindo pior do que os modelos anteriores. Os erros cometidos por chatbots, conhecidos como “alucinações”, têm sido um problema desde o início, e está ficando claro que nunca podemos nos livrar deles.

A alucinação é um termo geral para certos tipos de erros cometidos pelos grandes modelos de idiomas (LLMS) que sistemas de energia como o OpenAI’s ChatGPT ou o Google’s Gemini. É mais conhecido como uma descrição da maneira como eles às vezes apresentam informações falsas como verdadeiras. Mas também pode se referir a uma resposta gerada pela IA que é factualmente precisa, mas não é realmente relevante para a pergunta que foi feita ou não segue as instruções de alguma outra maneira.

Um Openai Relatório Técnico A avaliação de seus LLMs mais recentes mostrou que seus modelos O3 e O4-Mini, lançados em abril, tinham taxas de alucinação significativamente mais altas do que o modelo O1 anterior da empresa que saiu no ultimate de 2024. Por exemplo, ao resumir fatos disponíveis ao público sobre pessoas, o3 Alucinou 33 % do tempo, enquanto o O4-mii, assim, 48 % da época. Em comparação, o O1 teve uma taxa de alucinação de 16 %.

O problema não se limita ao Openai. Um common tabela de classificação Da empresa Vectara que avalia as taxas de alucinação indica alguns modelos de “raciocínio” – incluindo o Modelo Deepseek-R1 Do desenvolvedor Deepseek-viu dígitos em dois dígitos em taxas de alucinação comparado com modelos anteriores de seus desenvolvedores. Esse tipo de modelo passa por várias etapas para demonstrar uma linha de raciocínio antes de responder.

Openai diz que o processo de raciocínio não é o culpado. “As alucinações não são inerentemente mais prevalentes nos modelos de raciocínio, embora estejamos trabalhando ativamente para reduzir as taxas mais altas de alucinação que vimos em O3 e O4-mini”, diz um porta-voz do Openai. “Continuaremos nossa pesquisa sobre alucinações em todos os modelos para melhorar a precisão e a confiabilidade”.

Algumas aplicações em potencial para LLMs podem ser descarriladas pela alucinação. Um modelo que declara consistentemente falsidades e requer verificação de fatos não será um assistente de pesquisa útil; Um BOT paralegal que cita casos imaginários colocará os advogados em problemas; Um agente de atendimento ao cliente que afirma que as políticas desatualizadas ainda estão ativas criará dores de cabeça para a empresa.

No entanto, as empresas de IA alegaram inicialmente que esse problema esclareceria com o tempo. De fato, depois que eles foram lançados, os modelos tendiam a alucinar menos a cada atualização. Mas as altas taxas de alucinação das versões recentes estão complicando essa narrativa – se o raciocínio está ou não.

A tabela de classificação de Vectara classifica os modelos com base em sua consistência factual em resumir os documentos que recebem. Isso mostrou que “as taxas de alucinação são quase as mesmas para o raciocínio versus modelos que não são raciocínio”, pelo menos para sistemas do OpenAi e do Google, diz Forrest Sheng Bao em Vectara. O Google não forneceu comentários adicionais. Para os propósitos da tabela de classificação, os números específicos da taxa de alucinação são menos importantes que o rating geral de cada modelo, diz Bao.

Mas essa classificação pode não ser a melhor maneira de comparar os modelos de IA.

Por um lado, confunde diferentes tipos de alucinações. A equipe de Vectara apontou que, embora o modelo Deepseek-R1 alucinou 14,3 % das vezes, a maioria deles period “benigna”: respostas que são factualmente apoiadas pelo raciocínio lógico ou pelo conhecimento mundial, mas não estão presentes no texto authentic, o bot foi solicitado a resumir. Deepseek não forneceu comentários adicionais.

Outro problema com esse tipo de classificação é que teste Com base na resumo do texto “não diz nada sobre a taxa de saídas incorretas quando (LLMS) são usados ​​para outras tarefas”, diz Emily Bender na Universidade de Washington. Ela diz que os resultados da tabela de classificação podem não ser a melhor maneira de julgar essa tecnologia porque os LLMs não foram projetados especificamente para resumir textos.

Esses modelos Trabalhe respondendo repetidamente à pergunta de “o que é uma próxima palavra provável” para formular respostas aos avisos e, portanto, eles não estão processando informações no sentido regular de tentar entender quais informações estão disponíveis em um corpo de texto, diz Bender. Mas muitas empresas de tecnologia ainda usam frequentemente o termo “alucinações” ao descrever erros de saída.

“‘Hallucination’ como termo é duplamente problemático”, diz Bender. “Por um lado, sugere que saídas incorretas são uma aberração, talvez uma que possa ser atenuada, enquanto o restante do tempo em que os sistemas são fundamentados, confiáveis ​​e confiáveis. Por outro lado, ele funciona para a antropomorfise as máquinas – a alucinação refere -se a perceber algo que não existe (e), grandes modelos de linguagem não.

Arvind Narayanan Na Universidade de Princeton, diz que a questão vai além da alucinação. Os modelos também cometem outros erros, como basear -se em fontes não confiáveis ​​ou usar informações desatualizadas. E simplesmente jogar Mais dados de treinamento e poder de computação na IA não ajudou necessariamente.

O resultado é que podemos ter que viver com IA propensa a erros. Narayanan disse em uma mídia social publicar Em alguns casos, pode ser melhor usar apenas esses modelos para tarefas quando a verificação de fatos da resposta da IA ​​ainda seria mais rápida do que fazer a pesquisa. Mas a melhor jogada pode ser evitar completamente confiar nos chatbots da IA ​​para fornecer informações factuais, diz Bender.

Tópicos:

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles