New Grok 4 assume o ‘último exame da humanidade’ à medida que a corrida da IA esquenta
Elon Musk lançou o Grok 4 de Xai-chamando-o de “IA mais inteligente do mundo” e alegando que ele pode aceitar os exames de nível Ph.D.
Elon Musk lançou o mais novo modelo de inteligência synthetic de sua empresa Xai na quarta -feira à noite. Em uma sessão de revelação pública de uma hora, ele chamou o modelo, Grok 4, “a IA mais inteligente do mundo” e afirmou que period capaz de obter pontuações perfeitas no SAT e o GRE quase perfeito resulta em todos os assuntos, desde as humanidades até as ciências.
Durante o lançamento on -line, Musk e membros de sua equipe descreveram testar Grok 4 em uma métrica chamada Último exame da humanidade (HLE) – A Benchmark de 2.500 perguntas projetadas para avaliar o conhecimento acadêmico de uma IA e a habilidade de raciocínio. Criado por quase 1.000 especialistas humanos em mais de 100 disciplinas e lançado em janeiro de 2025, o teste abrange tópicos dos clássicos à química quântica e mistura texto com imagens. Grok 4 teria obtido 25,4 % por conta própria. Mas, dado o acesso a ferramentas (como auxílios externos para execução de código ou pesquisas na Net), ele atingiu 38,6 %. Isso saltou para 44,4 % com uma versão chamada Grok 4 Heavy, que usa vários agentes de IA para resolver problemas. Os dois próximos modelos de IA com melhor desempenho são o Gemini-Professional do Google (que alcançaram 26,9 % com as ferramentas) e o modelo O3 do OpenAI (que obteve 24,9 %, também com as ferramentas). Os resultados dos testes internos de Xai ainda não apareceram no Tabela de classificação para HLEno entanto, e ainda não está claro se isso ocorre porque Xai ainda não enviou os resultados ou porque esses resultados estão pendentes de revisão. Coletoruma plataforma de mercado de previsão social em que os usuários apostam em dinheiro (chamado “mana”) em eventos futuros em política, tecnologia e outros assuntos, previam uma likelihood de 1 %, na manhã de sexta -feira, que Grok 4 estrearia na tabela de classificação da HLE com uma pontuação de 45 % ou superior no exame dentro de um mês após seu lançamento. (Enquanto isso, Xai conquistou uma pontuação de apenas 44,4.)
Durante o lançamento, a equipe XAI também realizou demonstrações ao vivo mostrando as probabilidades de beisebol Grok 4 Crunching, determinando qual funcionário XAI tem a imagem de perfil “mais estranha” em X e gerando uma visualização simulada de um buraco negro. Musk sugeriu que o sistema pudesse descobrir tecnologias inteiramente novas até o last deste ano – e possivelmente “nova física” até o last do próximo ano. Jogos e filmes também estão no horizonte, com Musk prevendo que Grok 4 poderá fazer títulos jogáveis e filmes assistíveis até 2026. O GROK 4 também possui novos recursos de áudio, incluindo uma voz que cantou durante o lançamento, e Musk disse que novas ferramentas de geração de imagens e codificação serão lançadas em breve. A versão common do GROK 4 custa US $ 30 por mês; Supergrok Heavy – o pacote Deluxe com vários agentes e ferramentas de pesquisa – a RUNS por US $ 300.
Sobre apoiar o jornalismo científico
Se você está gostando deste artigo, considere apoiar nosso jornalismo premiado por assinando. Ao comprar uma assinatura, você está ajudando a garantir o futuro das histórias impactantes sobre as descobertas e idéias que moldam nosso mundo hoje.
Análise syntheticuma plataforma de benchmarking independente que classifica os modelos de IA, agora lista o Grok 4 como o mais alto em seu índice de inteligência de análise synthetic, um pouco à frente do Alto-Alto do O4-Mini-Mini do Gemini 2.5 Professional e do Openai. E Grok 4 aparece como o modelo de melhor desempenho publicamente disponível no Tabias de classificação para o corpus de abstração e raciocínio, ou ARC-AGI-1, e sua segunda edição, Arc-agi-2—Canchmarks que medem o progresso em direção à inteligência geral “humana”. Greg Kamradt, presidente da ARC Prêmio Basis, uma organização sem fins lucrativos que mantém as duas tabelas de classificação, diz que quando a equipe da XAI entrou em contato com a fundação com os resultados da GROK 4, a organização testou independentemente o GROK 4 em um conjunto de dados em que a equipe XAI não teve acesso e confirmou os resultados. “Antes de relatarmos o desempenho de qualquer laboratório, ele não é verificado, a menos que o verifiquemos”, diz Kamradt. “Aprovamos o deslizamento (resultados de testes) que (a equipe XAI) apareceu no lançamento”.
De acordo com Xai, Grok 4 também ultrapassa outros sistemas de IA em vários benchmarks adicionais que sugerem sua força nos sujeitos do STEM (leia um detalhamento completo dos benchmarks aqui). Alex Olteanu, editor sênior de ciência de dados da AI Training Platform Datacamptestou. “Grok tem sido forte em matemática e programação em meus testes, e fiquei impressionado com a qualidade de seu raciocínio de cadeia de pensamentos, que mostra uma abordagem engenhosa e logicamente sólida para a solução de problemas”, diz Olteanu. “Sua janela de contexto, no entanto, não é muito competitiva e pode lutar com grandes bases de código como as que você encontra na produção. Também ficou aquém quando pedi para analisar um PDF de 170 páginas, provavelmente devido à sua janela de contexto limitada e às habilidades multimodais fracas”. (As habilidades multimodais se referem à capacidade de um modelo de analisar mais de um tipo de dados ao mesmo tempo, como uma combinação de texto, imagens, áudio e vídeo.)
Em uma frente mais sutil, surgiram problemas com o GROK 4 desde o seu lançamento. Diversos Cartazes em x-propriedade do próprio Musk-assim como a indústria da tecnologia notícias tomadas relataram que, quando Grok 4 recebeu perguntas sobre o conflito israelense-palestino, o aborto e a lei de imigração dos EUA, ele frequentemente procurava a posição de Musk sobre essas questões, referenciando seus X Posts and Artigos escritos sobre ele. E o lançamento do GROK 4 ocorre após várias controvérsias com o Grok 3, o modelo anterior, que emitiu resultados que incluíam comentários anti -semitas, elogios a Hitler e reivindicações de “genocídio branco” – incidentes que Xai reconheceu publicamente, atribuindo -os a manipulações não autorizadas e afirmando que a empresa period implementando medidas corretivas.
Em um ponto durante o lançamento, Musk comentou como tornar uma IA mais inteligente que os humanos é assustadora, embora ele tenha dito que acredita que o resultado last será bom – provavelmente. “Eu me reconciliei um pouco com o fato de que, mesmo que não fosse bom, eu pelo menos gostaria de estar vivo para ver isso acontecer”, disse ele.