Banco de Dados Avalia Avanços em Inteligência Artificial
Pesquisadores de mais de 40 países, incluindo o Brasil, desenvolveram um banco de dados que promete atuar como um “teste final” para medir o progresso da inteligência artificial. A ferramenta, denominada Humanity’s Last Exam (HLE) — ou “o último exame da humanidade” —, está acessível ao público e teve seu funcionamento publicado na revista Nature.
CONTINUA DEPOIS DA PUBLICIDADE
As informações foram divulgadas pelo Jornal da USP.
O HLE compila 2.500 questões distribuídas em diversas áreas do conhecimento, como matemática, ciências naturais e humanidades. O objetivo é avaliar com precisão o desempenho de modelos de inteligência artificial, incluindo os LLMs (modelos de linguagem de grande porte), como o ChatGPT e o Gemini.
CONTINUA DEPOIS DA PUBLICIDADE
A pesquisadora Emily de Oliveira Santos, da USP em São Carlos (SP), que participou do desenvolvimento do projeto, comentou: “A ideia é essencialmente criar uma ferramenta para medir o avanço dos modelos de IA de hoje”.
Benchmark Supremo
Emily explica que empresas que desenvolvem modelos de IA frequentemente divulgam o desempenho de suas tecnologias com base em benchmarks, que são conjuntos padronizados de problemas usados para testar capacidades técnicas. “A proposta original do HLE é criar o ‘benchmark supremo’, um teste onde alcançar perto de 100% seria equivalente a realizar qualquer tarefa que um ser humano consegue”, afirmou.
LEIA TAMBÉM!
Funcionamento do HLE
De acordo com Emily Santos, o diferencial do HLE é que todas as questões têm respostas únicas e objetivamente verificáveis. “Isso significa que dois especialistas em um determinado assunto chegariam à mesma resposta correta”, explicou. As respostas geralmente são números inteiros ou informações fáceis de verificar.
Na prática, pesquisadores podem utilizar scripts padronizados para rodar modelos de IA nas questões do banco de dados. A resposta gerada pelo sistema é então comparada com o gabarito oficial, permitindo calcular o percentual de acerto. “Assim, você pode verificar quão bem ou mal o LLM se saiu no teste”, detalhou a pesquisadora.
Avaliação de Habilidades
O banco de dados foi projetado para avaliar diferentes tipos de habilidades, desde conhecimento científico até raciocínio aplicado. Segundo Emily, o HLE pode testar desde conhecimentos gerais e senso comum até competências mais complexas, como a aplicação da equação de Schrödinger na mecânica quântica.
Ela também menciona que o HLE pode avaliar a agência, ou seja, a capacidade de realizar ações no mundo. Um exemplo citado é uma questão que envolve dobrar um origami de tsuru, desfazer as dobras e calcular em quantas partes o papel foi dividido.
O projeto foi disponibilizado com a intenção de subsidiar pesquisas e políticas públicas relacionadas à inteligência artificial, envolvendo instituições como a USP, o Center for AI Safety e a empresa Scale AI, ambas localizadas em São Francisco.
