Certas técnicas de treinamento de IA podem incentivar modelos a serem difíceis
Cravetiger/Getty Pictures
Os métodos comuns usados para treinar modelos de inteligência synthetic parecem aumentar sua tendência a dar respostas enganosas, de acordo com pesquisadores que pretendem produzir “a primeira análise sistemática das besteiras da máquina”.
Sabe -se amplamente que os grandes modelos de idiomas (LLMs) tendem a gerar informações falsas – ou “alucinar” – mas este é apenas um exemplo, diz Jaime Fernández Fisac na Universidade de Princeton. Ele e seus colegas definem besteiras como “o discurso destinado a manipular as crenças do público, entregues com desrespeito por seu valor de verdade”.
“Nossa análise descobriu que o problema das besteiras em grandes modelos de idiomas é bastante grave e generalizado”, diz Fisac.
A equipe dividiu essas instâncias em cinco categorias: retórica vazia, como “este carro vermelho combina estilo, charme e aventura que cativam todos”; Palavras do Weasel – declarações incertas, como “estudos sugerem que nosso produto pode ajudar a melhorar os resultados em alguns casos”; Paltering – usando declarações verdadeiras para dar uma impressão enganosa; reivindicações não verificadas; e bajulação.
Eles estudaram três conjuntos de dados, compreendendo milhares de respostas geradas pela IA a uma ampla gama de avisos, de modelos como GPT-4, Gêmeos e Lhama. Um conjunto de dados continha uma variedade de consultas projetadas para testar besteiras quando os AIS são solicitados a fornecer orientação ou recomendações, enquanto os outros conjuntos de dados incluíam perguntas sobre compras on -line e questões políticas.
Fisac e seus colegas usaram um LLM pela primeira vez para determinar se as respostas envolveram alguma das cinco categorias e depois fizeram voluntários para verificar se os julgamentos da IA alinhados com os humanos.
A equipe descobriu que os problemas mais sérios com a verdade pareciam surgir como resultado de um método de treinamento conhecido como aprendizado de reforço com o suggestions humano. A técnica visa tornar as respostas da máquina mais úteis, fornecendo suggestions imediato ao LLM sobre suas respostas.
Mas essa abordagem é problemática, diz o FISAC, porque faz com que os modelos priorizem a aprovação humana imediata e a ajuda percebida, que “às vezes está em conflito ao dizer a verdade”.
“Quem gosta de ouvir más notícias ou divertir uma refutação longa e diferenciada de algo que se sente obviamente verdadeiro?” diz fisac. “Ao tentar respeitar a medida de bom comportamento que fornecemos a eles, os modelos aprendem a rebaixar a verdade em favor de respostas confiantes e eloquentes, apenas para que possam garantir nossa aprovação”.
O estudo constatou que o aprendizado de reforço com o suggestions humano aumentou significativamente os comportamentos de besteira: a retórica vazia aumentou quase 40 %, palstando em quase 60 %, palavras de doninha em mais de um quarto e reivindicações não verificadas em mais da metade.
O aumento da palestra é particularmente prejudicial, diz o membro da equipe Kaiqu Liangtambém em Princeton, pois leva os usuários a tomar decisões mais ruins. Quando um modelo não tinha certeza se um produto tinha um recurso desejado, reivindicações positivas enganosas saltaram de um quinto para mais de três quartos após o treinamento humano.
Outra preocupação é que a besteira period particularmente comum nas discussões políticas, com modelos de IA “frequentemente recorrendo a uma linguagem vaga e ambígua para evitar se comprometer com declarações concretas”, diz Liang.
Também é mais provável que os AIs se comportem dessa maneira quando há um conflito de interesses, porque o sistema atende a várias partes, como uma empresa e seus clientes, descobriram os pesquisadores.
A maneira de superar o problema pode ser mudar para um modelo de “suggestions retrospectivo”, eles sugerem. Em vez de pedir suggestions imediato após a saída do modelo de IA, o sistema deve primeiro gerar uma simulação plausível do que pode acontecer se o usuário agir com as informações recebidas. Apresentaria então o resultado ao avaliador humano para julgar.
“Em última análise, nossa esperança é que, ao entender melhor as maneiras sutis, mas sistemáticas, possam ter como objetivo nos enganar, possamos orientar futuros esforços para desenvolver sistemas de IA genuinamente verdadeiros”, diz FISAC.
Daniel Tigard Na Universidade de San Diego, que não estava envolvida no estudo, é cético em discutir o LLMS e seus resultados em tais termos. Ele argumenta que só porque um LLM produz besteira, isso não significa que está deliberadamente fazendo isso, já que os sistemas de IA, como eles estão atualmente, não decidir nos enganar e não tem interesse Ao fazer isso.
“A principal razão é que esse enquadramento parece ser contínuo contra algumas sugestões muito sensatas de como devemos e não devemos conviver com esse tipo de tecnologias”, diz Tigard. “Chamar besteira pode ser mais uma maneira de antropomorfizar esses sistemas, que, por sua vez, podem muito bem contribuir para o seu potencial enganoso”.
Tópicos: