Este é um submit convidado de Aravind Asok. Se você tiver comentários sobre isso, pode entrar em contato com ele em [email protected]. Vamos ver se há uma maneira de postar posteriormente comentários moderados aqui.
Recentemente, vários simpósios foram organizados nos quais grupos de matemáticos interagiram com desenvolvedores de vários sistemas de IA (especificamente, modelos de raciocínio) de maneira estruturada. Temos em mente o Simpósio de Matemática da Fronteira Hospedado por Epoch AI e o DeepMind/IAS oficina. O primeiro desses eventos recebeu mais cobertura na imprensa do que a segunda. Gerou vários artigos, incluindo peças em Scientific American e o Instances financeirosembora ambos os artigos estejam atualmente atrás de um paywall. Curiosamente ausente dessas discussões está qualquer tipo de opinião considerada sobre os matemáticos sobre essas interações, embora citações hiperbólicas dessas peças tenham devolvido as rodadas nas mídias sociais. Nenhum desses eventos foi aberto ao público: a participação em ambos os eventos foi limitada e por convite. Nos dois casos, o objetivo period promover interações transparentes e desprotegidas.
Para contexto, observe que muitos matemáticos passaram algum tempo interagindo com modelos de raciocínio (o ChatGPT da IA, o Gemini do Google e o Claude do Antrópico, entre outros). Embora os matemáticos certamente não estivessem isentos da onda de experimentação precoce baseada no início com os modelos públicos iniciais de ChatGPT, eles também exploraram o comportamento dos modelos de raciocínio em aspectos profissionais da matemática, testando os modelos em pesquisa de matemática, problemas de trabalhos de casa, problemas de exemplo para várias courses, bem como problemas de competição de matemática. Curiosamente, as reações variam de demissão a surpresa. No entanto, uma interação de grupo estruturada com modelos de raciocínio fornece uma experiência qualitativamente diferente das explorações pessoais. Como o convite para esses eventos foi controlado, seu público period necessariamente limitado; O evento de época é selecionado para aqueles que expressaram interesse específico na IA, embora o evento IAS/DeepMind tenha tentado gerar uma seção transversal mais aleatória dos matemáticos.
Muita cobertura da imprensa tem uma sensação sem fôlego, por exemplo, incluindo cobertura de comentários de Sam Altman em, digamos, Fortuna. Parece justo dizer que os matemáticos estão impressionados com o desempenho atual dos modelos e, além disso, ver avenidas interessantes para aumentar a pesquisa matemática usando ferramentas de IA. No entanto, muitos matemáticos veem a retórica de que “a matemática pode ser resolvida”, extrapolando do progresso da matemática no estilo da competição, vista como um jogo, como problemático, na melhor das hipóteses, e na pior das hipóteses, apresentando um mal-entendido basic dos objetivos da pesquisa em matemática como um todo.
Nossa discussão aqui se concentrará na reunião patrocinada pela AI da época para concretude, que não period “secreta” em nenhum sentido dramático ou clandestino, ao contrário de alguns relatórios. The Backstory: A Epoch AI tem tentado criar benchmarks para o desempenho de vários LLMs lançados (também conhecidos como chatbots, como o Open AI’s ChatGPT, o Claude do Anthropic, o gêmeos do Google DeepMind, and so on.). A Frontier Math é uma referência projetada para avaliar os recursos matemáticos dos modelos de raciocínio. Este benchmark consiste em listas em camadas de problemas. Os problemas de Nível 1 equivale a problemas de nível de “Olimpíada Matemática”, enquanto as camadas 2 e 3 são “mais desafiadoras” exigindo “conhecimento especializado no nível de pós -graduação”. A matemática da Frontier procurou construir uma referência de nível 4 de “pesquisa
Problemas de nível ”.
Construir a referência de Nível 4 exigia que envolva a pesquisa matemática. No início deste ano, a Epoch entrou em contato com os matemáticos por meio de canais variados. As solicitações iniciais prometeram uma quantia em dinheiro para fornecer um problema de um tipo específico, mas muitos matemáticos não familiarizam com a fonte da comunicação, ou não a descartaram como não credíveis ou não tinham interesse na compensação monetária. Para acelerar a coleção de problemas de Nível 4, a Epoch teve a idéia de hospedar um simpósio. O simpósio foi anunciado em vários meios de comunicação social (por exemplo, Twitter) e vários matemáticos foram contatados diretamente por e-mail. Às vezes, os participantes interessados eram convidados a entrevistar com o matemático da Frontier Math, Eliot Glazer, e também para produzir um problema em potencial. A matemática é uma comunidade bastante pequena, tantas pessoas que frequentaram já conheciam outras pessoas que estavam participando; Além disso, a grande maioria dos participantes veio da Califórnia. Os participantes assinaram um contrato de não divulgação, mas estava limitado a informações relacionadas aos problemas que deveriam ser entregues. Os participantes do simpósio também tiveram suas viagens e hospedagem cobertas e receberam uma bolsa de US $ 1500 por sua participação.
Os participantes receberam uma lista de critérios para a construção de problemas; problemas devem:
- Tenha uma resposta definitiva e verificável (por exemplo, um número inteiro grande, um actual simbólico ou uma tupla de tais objetos) que pode ser verificada computacionalmente.
- Resista à suposição: as respostas devem ser “à prova de adivinhação”, o que significa que tentativas aleatórias ou abordagens triviais da força bruta têm uma likelihood insignificante de sucesso. Você deve estar confiante de que uma pessoa ou IA que encontrou a resposta legitimamente raciocinou através da matemática subjacente.
- Seja computacionalmente tratável: a solução de um problema computacionalmente intensivo deve incluir scripts demonstrando como encontrar a resposta, começando apenas com o conhecimento padrão do campo. Esses scripts devem ser executados cumulativamente menos de uma hora no {hardware} padrão.
Os participantes foram divididos em grupos com base na especificidade do campo (teoria dos números, análise, geometria algébrica, topologia/geometria e combinatória) e instruídos a produzir problemas adequados.
Como os participantes contextualizaram esse desafio? Na pesquisa em matemática, freqüentemente não conhece com antecedência a solução para um determinado problema, nem se o problema é computacionalmente tratável. De fato, muitos matemáticos concordarão que saber que um problema é solúvel pode mudar o jogo. Além disso, decidir quais problemas devem ser considerados dignos de estudo podem ser difíceis. Como conseqüência, em geral, os participantes não estruturaram o desafio como de produzir problemas de pesquisa, mas sim simplesmente produzir problemas apropriados.
Sem surpresa, a capacidade de construir esses problemas variou de sujeito para sujeito. Por exemplo, um geômetro disse que period bastante difícil construir problemas “interessantes” sujeitos às restrições. Também existem questões reais sobre até que ponto “a capacidade de resistir à adivinhação” mede realmente “entendimento matemático”. Muitos participantes foram bastante abertos sobre isso: até Se a IA conseguisse resolver os problemas que eles criaram, eles não sentiram que constituiria “compreensão” em qualquer sentido actual.
Embora a maioria dos participantes tenha escrito e enviado problemas antes do início do simpósio, poucas pessoas tinham uma idéia naquele ponto do que seria “fácil” ou “difícil” para um modelo. A maior parte do primeiro dia foi passada vendo como os modelos interagiam com esses problemas preliminares, e as discussões subsequentes refinaram a compreensão dos participantes sobre a estipulação de que os problemas eram resistentes às suposições. Ao longo do caminho, os modelos conseguiram “resolver” alguns dos problemas, mas essa afirmação merece qualificação e um entendimento mais detalhado do que constitui uma “solução”.
Uma característica basic dos modelos de raciocínio foi a exibição explícita de “traços de raciocínio”, mostrando os modelos “pensando”. Esses traços exibiram modelos pesquisando na Internet e identificando artigos relacionados, mas sua capacidade de fazê -lo period sensível à formulação do problema de maneiras fascinantes. Por exemplo, na geometria algébrica, a formulação de um problema em termos de teoria dos anel comutativos, em vez de variedades, pode provocar respostas diferentes de um modelo. No entanto, é uma pedra angular da geometria algébrica humana ser capaz de passar entre os dois pontos de vista com relativa facilidade. Na geometria/topologia, os participantes observaram que os modelos não demonstraram aptidão para o raciocínio geométrico. Por exemplo, os modelos não puderam criar modelos pictóricos simples (diagramas de nó foram mencionados especificamente) para problemas e manipulá -los. Na combinatória algébrica e enumerativa, os modelos aplicaram bem os métodos padrão (por exemplo, resolvendo recorrências lineares, apelando para identidades binomiais), mas se os problemas exigissem várias etapas e modelos de engenhosidade, foram impedidos, mesmo que fossem solicitados com literatura relevante ou etapas iniciais corretas.
Quando um modelo produziu uma resposta correta, o examinando os rastreamentos de raciocínio às vezes indicou isso porque o problema foi construído de tal maneira que a resposta poderia ser obtida resolvendo um problema muito mais simples, mas relacionado. Em termos de paradigma da solução de exame, provavelmente diríamos que essa resposta foi “Obter o certo
Responda pelo motivo errado ”e atribua uma nota de falha a essa solução!
Os participantes foram rotineiramente instruídos a buscar problemas que até modelos de raciocínio futuro putativos acharia difícil. A partir desse ponto de vista, period fácil extrapolar que um modelo futuro poderia se comportar de maneira mais humana, demonstrar “entendimento” em um sentido humano e isolar o ingrediente -chave que faltava. Isso criou um medo generalizado de que, se os traços de raciocínio indicarem que os modelos parecessem “fechar agora”, deve -se extrapolar que os problemas seriam solucionáveis por modelos futuros. Os participantes observaram que, se a literatura em um domínio específico estivesse adequadamente saturado, os modelos poderiam identificar lemas que seriam apropriados e gerar matemática relevante. Isso foi certamente impressionante, mas se pergunta até que ponto a saída da linguagem pure afeta a percepção da coerência das respostas: é fácil para as coisas “olharem para a direita” se não lê muito de perto! Eventualmente, os participantes convergiram para problemas que se pensavam atender à barra necessária.
Os modelos de idiomas com os quais trabalhamos foram definitivamente bons na pesquisa de palavras -chave, gerando rotineiramente listas úteis de referências. Os modelos também se destacaram na geração de texto da linguagem pure e poderiam gerar código não trivial, o que os tornou úteis na produção de exemplos. No entanto, o relatório da imprensa às vezes exagerou isso, sugerindo que os modelos de raciocínio são “mais rápidos” ou “melhores” do que os matemáticos profissionais. Obviamente, essas declarações são muito abertas à interpretação. Por um lado, isso pode ser trivialmente verdadeiro, por exemplo, as calculadoras são rotineiramente mais rápidas que os matemáticos profissionais na adição de números. Menos trivialmente, isso pode significar automatizar cálculos algébricos complicados, mas mesmo isso seria visto pela maioria dos matemáticos, tão longe da essência central da descoberta matemática.
Os participantes da reunião formam uma seção transversal bastante fina de matemáticos que têm algum interesse na interface entre a IA (amplamente interpretada) e a matemática. O bate -papo do sinal do simpósio tornou -se muito ativo depois que o artigo da Scientific American foi publicado. Sem dúvida, os participantes sentiram que havia um possível uso possível da IA para o desenvolvimento da matemática. Também há questões reais sobre se ou quando futuros “modelos de raciocínio” abordarão a competência de “nível humano”, além de questões filosóficas sérias e fascinantes sobre o que isso significa; Este é um desafio direto para a comunidade de matemática. O que significa fazer com competência a pesquisa em matemática? O que é matemática valiosa ou importante?
Finalmente, existem questões práticas importantes sobre o impacto, por exemplo, ambiental ou geopolítico, da computação nesse nível. Todas essas questões merecem atenção: exceto alguns bloqueios teóricos adicionais, ainda assim, ainda assim inúteis, os modelos de raciocínio parecem continuar melhorando, ressaltando a importância dessas questões. No entanto, no entanto, principalmente quando se trata de raciocínio matemático – a base parece justificada na extrapolar a proficiência futura de pesquisas dos modelos.