Exame com 2.500 perguntas mostra que IA ainda está longe do conhecimento humano

Novo exame global mostra lacunas no conhecimento da IA (Imagem: Alemedia.id via Canva)
Novo exame global mostra lacunas no conhecimento da IA (Imagem: Alemedia.id via Canva)

Nos últimos anos, os sistemas de inteligência artificial (IA) avançaram rapidamente e começaram a obter pontuações elevadas em avaliações acadêmicas tradicionais. Muitos desses testes, originalmente criados para medir habilidades humanas, passaram a ser resolvidos com relativa facilidade pelos modelos mais modernos. Diante desse cenário, pesquisadores decidiram criar um desafio muito mais rigoroso.

O resultado foi o “Último Exame da Humanidade” (Humanity’s Last Exam – HLE), uma avaliação massiva composta por 2.500 perguntas altamente especializadas. O projeto foi desenvolvido por quase mil especialistas de diversas áreas e teve detalhes publicados na revista científica Nature.

O objetivo do exame não era competir com humanos, mas identificar até onde os sistemas de IA realmente conseguem ir quando enfrentam problemas complexos que exigem conhecimento profundo. Entre as características do novo teste estão:

  • 2.500 questões avançadas distribuídas em várias áreas do conhecimento;
  • Participação de especialistas de múltiplas disciplinas;
  • Perguntas projetadas para evitar respostas simples por busca online;
  • Problemas com resposta única e verificável.

Esse esforço coletivo buscou criar um benchmark mais realista para avaliar a evolução da inteligência artificial.

Um desafio que atravessa diversas áreas do conhecimento

O “Último Exame da Humanidade” foi desenvolvido para abranger uma enorme variedade de campos do conhecimento humano. A prova reúne perguntas que exploram desde matemática avançada e ciência da computação até áreas como história, linguística e biologia. Entre as tarefas propostas estão desafios bastante específicos, como a tradução de inscrições antigas em idiomas raros, a identificação de estruturas anatômicas microscópicas em aves e a análise detalhada de características fonéticas do hebraico bíblico.

Esses problemas exigem não apenas memorização de dados, mas também interpretação, contexto e conhecimento altamente especializado, capacidades que ainda representam obstáculos importantes para os sistemas atuais de inteligência artificial

Para garantir o nível de dificuldade, cada pergunta foi previamente testada em diversos modelos de IA. Sempre que algum sistema conseguia resolver uma questão com facilidade, ela era removida da versão final da prova, mantendo o exame constantemente além das capacidades conhecidas das máquinas.

Resultados mostram que a IA ainda enfrenta grandes desafios

Os primeiros testes realizados com o exame revelaram um cenário bastante revelador. Mesmo os sistemas de IA mais avançados disponíveis atualmente apresentaram dificuldades significativas ao enfrentar as questões da avaliação. Em alguns casos, modelos avançados registraram cerca de 2,7% de acertos, enquanto outros sistemas populares atingiram aproximadamente 4,1%. Modelos com maior capacidade de raciocínio alcançaram por volta de 8%, enquanto os sistemas mais recentes e sofisticados conseguiram atingir níveis de precisão entre 40% e 50%.

Embora esses números indiquem um progresso tecnológico importante, eles também deixam evidente que ainda existe uma diferença considerável entre o desempenho da inteligência artificial e o conhecimento humano especializado. Em outras palavras, mesmo com os avanços rápidos da tecnologia, compreender profundamente temas complexos de diferentes áreas continua sendo uma habilidade em que os especialistas humanos mantêm clara vantagem.

Movos testes de IA são necessários

A criação de avaliações mais exigentes é considerada essencial para acompanhar o rápido desenvolvimento da tecnologia. Muitos benchmarks antigos foram projetados para medir habilidades humanas e não refletem totalmente a complexidade da inteligência.

Sem métricas adequadas, existe o risco de superestimar as capacidades dos sistemas de IA, interpretando seu desempenho como sinal de compreensão profunda.

Nesse contexto, o “Último Exame da Humanidade” surge como uma ferramenta importante para medir o progresso real da tecnologia e identificar suas limitações.Ao mesmo tempo, o projeto também destaca algo fundamental: apesar dos avanços impressionantes da inteligência artificial, o conhecimento humano especializado ainda desempenha um papel central no desenvolvimento científico e tecnológico.

*Texto produzido pelo Fala Ciência com autoria e revisão técnica de Leandro C. Sinis, Biólogo (UFRJ).

Leandro C. Sinis é biólogo formado pela UFRJ e divulgador científico. Com experiência em pesquisa acadêmica, é coautor de um estudo sobre neuroproteção publicado no Journal of Biological Chemistry (DOI: 10.1074/jbc.m117.807180). Sua missão no Fala Ciência é traduzir descobertas complexas em conhecimento acessível e seguro para todos. Ver perfil no LinkedIn | Ver Currículo Lattes