O programa de estágio de Cientista de Pesquisa Aplicada (ARS) da Grammarly cultiva a próxima geração de talentos em pesquisa de IA. No programa, os alunos de doutorado trabalham em projetos de pesquisa que contribuem significativamente para a missão da Grammarly, informando decisões críticas sobre produtos ou abrindo caminho para novos recursos alimentados por IA. Nesta postagem do weblog, destacaremos Wealthy Stureborg, candidato a doutorado em ciência da computação na Duke College e estagiário da ARS, que aproveitou o programa para publicar quatro artigos e defender seu doutorado antes do previsto.
Além do estágio tradicional
Wealthy ingressou no programa de estágio ARS no verão de 2023 para estudar avaliadores LLM (modelos que automatizam a avaliação LLM). Dado o forte alinhamento entre a sua dissertação e uma variedade de projetos relacionados na Grammarly, ele rapidamente viu a oportunidade para uma parceria de longo prazo. Isso levou a uma colaboração estendida de 1,5 ano, onde Wealthy impulsionou sua pesquisa de avaliador LLM enquanto contribuía para projetos adjacentes, como a construção de pipelines para geração de dados sintéticos.
“Provavelmente não tomei decisão mais produtiva para meu doutorado do que ingressar na equipe de pesquisa da Grammarly”, disse ele. “O trabalho que fiz na Grammarly foi direto para a minha dissertação. Até me ajudou a defender meu doutorado cedo.”
Construindo confiança nos avaliadores LLM
A contribuição de maior orgulho de Wealthy foi seu trabalho para compreender a confiança estatística nos resultados dos avaliadores do LLM. Usar LLMs para avaliar outros LLMs é uma estratégia comum, mas tem desvantagens, pois LLMs têm preconceitos e inconsistências como juízes. Além disso, determinar a confiança estatística dos avaliadores do LLM é um problema em aberto. Isso pode dificultar se você quiser lançar um novo modelo de linguagem em produção, por exemplo, mas quiser ter pelo menos 95% de certeza de que o novo modelo é melhor que o antigo (e você não espera sinais fortes de A/ teste B).
Wealthy e a equipe criaram uma nova metodologia: uma simulação de Monte Carlo configurável (uma técnica matemática que depende de amostragem aleatória) que calcula a confiança dos avaliadores do LLM ao comparar dois modelos candidatos. Eles validaram empiricamente o método comparando-o com conjuntos de dados de referência existentes. Esta estrutura forneceu novos insights sobre como características como o tamanho do conjunto de avaliação podem impactar a confiança na avaliação do LLM. Rico publicou as descobertas da equipe e os apresentou na conferência de 2024 do Capítulo Europeu da Affiliation for Computational Linguistics (EACL).
Wealthy atribui ao estilo coletivo de trabalho da equipe de pesquisa o sucesso do projeto: “O ambiente de pesquisa é extremamente colaborativo, pois a equipe é pequena e unida. Algumas pessoas estão aqui há mais de sete anos e me ajudaram conectar-se dentro da empresa quando necessário.”
Olhando para frente
Estamos entusiasmados em dar as boas-vindas a Wealthy na Grammarly como um cientista pesquisador em tempo integral. Sua jornada mostra o compromisso da Grammarly com a pesquisa aplicada, estimulando talentos interessados em agendas de pesquisa ambiciosas que terão impacto no mundo actual.
Interessado em estágios na Grammarly? Nós encorajamos você a visitar nosso página de carreiras para ver nossas últimas vagas.