&bala; Física 18, 67
Modelos de idiomas como o ChatGPT podem ajudar os educadores universitários a fornecer notas mais consistentes e transparentes para exames de física de nível introdutório.
Andreaobzerova/inventory.adobe.com
Muito foi discutido sobre os alunos que usam chatbots com inteligência synthetic (IA) para ajudar a escrever tarefas. Mas os educadores de física acreditam que resultados mais positivos de aprendizagem podem ser alcançados usando esses poderosos modelos de idiomas para melhorar a avaliação do trabalho dos alunos. Alguns estudos já mostraram que as ferramentas de linguagem baseadas em IA podem fornecer soluções de classificação rápidas e precisas, principalmente para respostas curtas a perguntas de componentes únicos. Agora, Zhongzhou Chen e Tong Wan, na Universidade da Flórida Central, mostraram que o ChatGPT pode ajudar os instrutores da universidade a avaliar respostas mais complexas para problemas de física de nível introdutório, resultando em classificação mais consistente e suggestions mais personalizado para os alunos (1).
Modelos que podem processar e gerar linguagem pure são particularmente adequados para as tarefas de classificação. Esses modelos podem gerar um resultado a partir de um immediate baseado em texto que descreve o problema definido, os critérios e os requisitos de classificação e a resposta do aluno. Vários estudos de prova de conceito aplicaram esses modelos a diferentes cenários de avaliação, variando de respostas simples sim-sem respostas mais complexas e em várias etapas, e mostraram que os graus gerados por máquina podem ser tão precisos quanto os fornecidos pelos instrutores humanos. Estratégias comuns para melhorar os resultados têm instruído o modelo a “pensar” nas etapas de raciocínio antes de produzir a nota, fornecendo alguns exemplos de respostas e as notas que obtiveram e selecionando o resultado mais frequente de várias tentativas de classificação.
Em seu novo estudo, Chen e Wan testaram várias dessas estratégias para classificar problemas de vários etapas que foram realizados em dois exames para um curso universitário de nível introdutório sobre mecânica newtoniana. Os alunos foram convidados a explicar o raciocínio que levou à sua solução last, fornecendo uma resposta por escrito que incluía expressões baseadas em texto de fórmulas científicas.
Embora estudos anteriores tenham obtido respostas tão de formato longo em uma escala contínua, Chen e Wan procuraram capturar mais detalhes, definindo vários critérios de classificação que cada um avaliou um componente específico da resposta. Cada um desses critérios recebeu 0 ou 1 pontos, que foram adicionados para produzir a nota para esse problema. Os pesquisadores também decidiram não fornecer ao modelo nenhum exemplo de referência, que alguns trabalhos anteriores sugeriram que podem reduzir a precisão da classificação para respostas mais complicadas. Eles executaram o processo de classificação cinco vezes para obter o resultado mais comum, que encontraram entregou uma clara melhoria nos resultados.
Chen e Wan compararam os graus gerados por máquina de quase 100 respostas dos alunos àquelas produzidas por dois instrutores experientes. Os resultados iniciais sugeriram que os critérios de classificação não foram específicos o suficiente para o modelo reconhecer a variabilidade nas respostas, como diferentes maneiras de escrever expressões matemáticas. Depois que os descritores de classificação foram atualizados para refletir essa variabilidade, cerca de 70% a 80% dos graus gerados pelo modelo acordados com os fornecidos pelos dois instrutores – semelhantes ao nível de acordo entre os dois alunos humanos.
A variação nos graus produzidos nas cinco corridas do modelo também foi usada para gerar um índice de confiança. Notas geradas por máquina com uma classificação de baixa confiança, responsável por cerca de 10% a 15% do whole, foram revisadas por instrutores especializados. Enquanto a maioria das notas retornadas pelo modelo period precisa, Chen e Wan descobriram que esse processo de verificação identificou cerca de 40% daqueles que estavam potencialmente incorretos. Com os instrutores humanos normalmente levando 2 ou 3 horas para as respostas dos alunos da série 100, essa abordagem reduziria o esforço prático para cerca de 15 ou 20 minutos.
Finalmente, o modelo de grande língua foi encarregado de fornecer suggestions sobre cada resposta do aluno, explicando como a resposta abordou cada elemento do esquema de classificação. Os instrutores especializados classificaram a qualidade das mensagens de suggestions, que em mais de 87% dos casos eram bons o suficiente para fornecer diretamente aos alunos apenas pequenas modificações. “Seria impossível para uma série humana fornecer esse suggestions direcionado a cada aluno, mas ficamos surpresos com a facilidade da ferramenta de IA para fornecer mensagens personalizadas que melhoram a transparência do processo de classificação”, diz Chen.
Com um custo de cerca de US $ 5 para classificar e fornecer suggestions para 100 respostas dos alunos, Chen e Wan concluem que a classificação assistida pela AI pode economizar tempo e dinheiro, mantendo a mesma qualidade de classificação. Gerd Kordeyer, especialista no uso da IA em educação no Instituto Federal de Tecnologia Suíça (ETH) Zurique, concorda que o estudo “oferece mais provas de que modelos de grande língua podem ser usados para ajudar os alunos a gestas humanas a dar pontos e suggestions a soluções de problemas físicos abertos”. A longo prazo, o objetivo seria explorar as eficiências possibilitadas pela classificação assistida pela AI para introduzir diferentes tipos de perguntas ou tarefas que poderiam melhorar os resultados da aprendizagem para os estudantes de física. “Trabalho como esse tem uma grande promessa de fornecer uma avaliação significativa em escala”, diz Kormeyer.
–Susan Curtis
Susan Curtis é uma escritora de ciências freelancers sediada em Bristol, Reino Unido.
Referências
- Z. Chen e T. Wan, “Classificando explicações do processo de solução de problemas e geração de suggestions usando grandes modelos de linguagem com precisão no nível do homem”. Phys. Rev. Phys. Educ. Res. 21010126 (2025).