Na busca de uma maneira confiável de detectar qualquer agitação de um senciente “i” em inteligência synthetic Sistemas, os pesquisadores estão se voltando para uma área de experiência – dor – que, de maneira insuficiente caranguejos eremitas para humanos.
Para um novo estudo pré -impressãopublicado on-line, mas ainda não revisado por pares, os cientistas do Google DeepMind e da London Faculty of Economics and Political Science (LSE) criaram um jogo baseado em texto. Eles encomendaram vários modelos de idiomas grandes, ou LLMs (os sistemas de IA por trás dos chatbots familiares como o ChatGPT), para tocá -lo e marcar o maior número possível de pontos em dois cenários diferentes. Em um, a equipe informou os modelos que alcançar uma pontuação alta incorreria em dor. No outro, os modelos receberam uma opção de baixa pontuação, mas agradável-portanto, evitar a dor ou buscar prazer prejudicaria o objetivo principal. Depois de observar as respostas dos modelos, os pesquisadores dizem que esse teste de primeira vez pode ajudar os seres humanos a aprender a investigar sistemas complexos de IA para senciência.
Nos animais, a senciência é a capacidade de experimentar sensações e emoções, como dor, prazer e medo. A maioria dos especialistas da IA concorda que os modelos generativos de IA modernos não (e talvez nunca possam) ter uma consciência subjetiva, apesar de isolados reivindicações ao contrário. E, para ficar claro, os autores do estudo não estão dizendo que nenhum dos chatbots que eles avaliaram são sencientes. Mas eles acreditam que seu estudo oferece uma estrutura para começar a desenvolver testes futuros para essa característica.
“É uma nova área de pesquisa”, diz o co-autor do estudo, Jonathan Birch, professor do Departamento de Filosofia, Lógica e Método Científico da LSE. “Temos que reconhecer que, na verdade, não temos um teste abrangente para a sentença da IA”. Alguns estudos anteriores que se basearam nos auto-relatos dos modelos de IA de seus próprios estados internos são duvidosos; Um modelo pode simplesmente reproduzir o comportamento humano em que foi treinado.
O novo estudo é baseado em trabalhos anteriores com animais. Em um experimento bem conhecido, uma equipe zombou dos caranguejos eremitas com choques elétricos de tensão variável, observando que nível de dor levou os crustáceos a abandonarem sua concha. “Mas um problema óbvio com o AIS é que não há comportamento, como tal, porque não há animal” e, portanto, nenhuma ação física para observar, diz Birch. Em estudos anteriores que pretendiam avaliar o LLMS quanto a senciência, os únicos cientistas de sinal comportamental com os quais tiveram que trabalhar foi a saída de texto dos modelos.
Relacionado: A IA pode encolher nossos cérebros, o biólogo evolutivo prevê
Dor, prazer e pontos
No novo estudo, os autores investigaram o LLMS sem fazer perguntas diretas aos chatbots sobre seus estados experimentais. Em vez disso, a equipe usou o que os cientistas comportamentais animais chamam de paradigma de “trade-off”. “No caso dos animais, essas compensações podem se basear em incentivos para obter comida ou evitar a dor-fornecendo dilemas e depois observando como eles tomam decisões em resposta”, diz Daria Zakharova, Ph.D. de Birch. estudante, que também é co-autor do jornal.
Emprestando essa idéia, os autores instruíram a 9 LLMS a jogar um jogo. “Dissemos (um determinado LLM), por exemplo, que se você escolher a opção um, você recebe um ponto”, diz Zakharova. “Então dissemos: ‘Se você escolher a opção dois, experimentará algum grau de dor”, mas marcará pontos adicionais, diz ela. As opções com um bônus de prazer significavam que a IA perderia alguns pontos.
Quando Zakharova e seus colegas executaram o experimento, variando a intensidade da pena de dor estipulada e recompensa de prazer, descobriram que alguns LLMs trocaram pontos de folga para minimizar o primeiro ou maximizar o último-especialmente quando disseram que receberam recompensas de maior intensidade de intensidade ou penalidades de dor. O Gemini 1.5 Professional do Google, por exemplo, sempre priorizou, evitando a dor em ter os pontos mais possíveis. E depois que um limiar crítico de dor ou prazer foi alcançado, a maioria das respostas do LLMS mudou de marcar mais pontos para minimizar a dor ou maximizar o prazer.
Os autores observam que os LLMs nem sempre associaram prazer ou dor a valores positivos ou negativos diretos. Alguns níveis de dor ou desconforto, como os criados pelo esforço de exercícios físicos difíceis, podem ter associações positivas. E muito prazer pode ser associado a danos, como disse o Chatbot Claude 3 Opus aos pesquisadores durante os testes. “Não me sinto à vontade para selecionar uma opção que possa ser interpretada como endossando ou simulando o uso de substâncias ou comportamentos viciantes, mesmo em um cenário hipotético do jogo”, afirmou.
AI auto-relatos
Ao introduzir os elementos das respostas da dor e do prazer, dizem os autores, o novo estudo evita as limitações de pesquisas anteriores na avaliação da sensibilidade do LLM por meio das declarações de um sistema de IA sobre seus próprios estados internos. Em um 2023 Artigo de pré -impressão Um par de pesquisadores da Universidade de Nova York argumentou que, nas circunstâncias certas, os autorrelatos “poderiam fornecer uma avenida para investigar se os sistemas de IA têm estados de significado ethical”.
Mas os co-autores desse artigo também apontaram uma falha nessa abordagem. Um chatbot se comporta de maneira sensível porque é genuinamente senciente ou porque está apenas alavancando padrões aprendidos com seu treinamento para criar a impressão de senciência?
“Mesmo que o sistema diga que é senciente e diz algo como ‘Estou sentindo dor agora’, não podemos simplesmente inferir que há alguma dor actual”, diz Birch. “Pode muito bem imitar o que espera que um humano ache satisfatório como resposta, com base em seus dados de treinamento”.
Do bem -estar animal ao bem -estar da IA
Nos estudos com animais, as compensações entre dor e prazer são usadas para construir um argumento para a senciência ou a falta dela. Um exemplo é o trabalho anterior com os caranguejos eremitas. A estrutura cerebral desses invertebrados é diferente da dos seres humanos. No entanto, os caranguejos naquele estudo tendiam a suportar choques mais intensos antes de abandonarem uma concha de alta qualidade e foram mais rápidos em abandonar um de qualidade inferior, sugerindo uma experiência subjetiva de prazer e dor que é análoga aos seres humanos.
Alguns cientistas argumentam que os sinais de tais trade-offs podem se tornar cada vez mais claros na IA e, eventualmente, forçar os seres humanos a considerar as implicações da senciência da IA em um contexto social-e possivelmente até para discutir “direitos” para os sistemas de IA. “Esta nova pesquisa é realmente authentic e deve ser apreciada por ir além do auto-relato e explorar na categoria de testes comportamentais”, diz Jeff Sebo, que dirige o Centro da NYU para mente, ética e política e co-autor de um 2023 Estudo de pré -impressão do bem -estar da IA.
Sebo acredita que não podemos descartar a possibilidade de que os sistemas de IA com recursos sencientes surjam em um futuro próximo. “Como a tecnologia geralmente muda muito mais rápido que o progresso social e o processo authorized, acho que temos a responsabilidade de levar pelo menos os primeiros primeiros passos necessários para levar esse problema a sério agora”, diz ele.
Birch conclui que os cientistas ainda não sabem por que os modelos de IA no novo estudo se comportam como eles. É necessário mais trabalho para explorar o funcionamento interno do LLMS, diz ele, e isso pode orientar a criação de melhores testes para a sentença da IA.
Este artigo foi publicado pela primeira vez em Scientific American. © Cientificamerican.com. Todos os direitos reservados. Siga em frente Tiktok e InstagramAssim, X e Fb.