Quem nunca? Foto: Depositphotos.
Os chamados bechmarks, testes que as empresas de inteligência artificial divulgam para embasar o aumento da capacidade analítica dos seus modelos não tem valor científico, na maior parte dos casos.
Um estudo de pesquisadores do Oxford Internet Institute (OII) e de várias outras universidades e organizações constatou que apenas 16% dos 445 benchmarks de modelos de linguagem (LLMs, na sigla em inglês) para processamento de linguagem natural e aprendizado de máquina utilizam métodos científicos rigorosos para comparar o desempenho dos modelos.
Além disso, cerca de metade dos benchmarks afirmam medir conceitos abstratos como “raciocínio” ou “inofensividade”, sem oferecer uma definição clara desses termos nem explicar como medi-los.
“Os benchmarks sustentam praticamente todas as alegações sobre avanços em IA. Mas sem definições compartilhadas e medições sólidas, torna-se difícil saber se os modelos estão realmente melhorando ou apenas parecendo melhorar”, resume Andrew Bean, autor principal do estudo.
Quando a OpenAI lançou o GPT-5 no início deste ano, o discurso da empresa baseou-se em resultados de benchmarks como AIME 2025, SWE-bench Verified, Aider Polyglot, MMMU e HealthBench Hard.
Esses testes apresentam aos modelos de IA uma série de perguntas, e os desenvolvedores buscam que seus bots respondam o maior número possível.
Mas, conforme observado no estudo do OII, “Measuring what Matters: Construct Validity in Large Language Model Benchmarks”, 27% dos benchmarks analisados dependem de amostragem por conveniência, ou seja, os dados são escolhidos pela facilidade de uso, e não por métodos científicos como amostragem aleatória ou estratificada.
Os autores do estudo do OII criaram uma lista de verificação com oito recomendações para melhorar os benchmarks.
Entre elas estão: definir claramente o fenômeno a ser medido, preparar-se contra contaminação de dados e usar métodos estatísticos para comparar modelos.
Além do OII, os coautores estão afiliados à EPFL, Universidade Stanford, Universidade Técnica de Munique, UC Berkeley, Instituto de Segurança em IA do Reino Unido, Instituto Weizenbaum e Universidade Yale.
