OpenZeppelin aponta falhas metodológicas em benchmark de IA para segurança em blockchain
Auditoria da OpenZeppelin identifica contaminação de dados e erros de classificação no EVMbench, criado por OpenAI e Paradigm
A empresa de segurança em blockchain OpenZeppelin afirmou ter encontrado falhas metodológicas e possíveis contaminações de dados no EVMbench, novo benchmark de inteligência artificial voltado à segurança de contratos inteligentes.
O EVMbench foi lançado em meados de fevereiro em parceria entre a OpenAI e a Paradigm. A ferramenta foi projetada para avaliar a capacidade de modelos de IA em identificar, corrigir e explorar vulnerabilidades em smart contracts na Ethereum Virtual Machine (EVM).
Contaminação de dados e vulnerabilidades questionáveis
Segundo a OpenZeppelin, dois problemas principais foram identificados na auditoria:
Contaminação de dados de treinamento
Classificação incorreta de vulnerabilidades consideradas de alta severidade
A empresa afirmou que os modelos com melhor desempenho no EVMbench provavelmente já haviam sido expostos aos relatórios de vulnerabilidades utilizados no benchmark durante o pré-treinamento.
O dataset do EVMbench foi construído com base em vulnerabilidades selecionadas de 120 auditorias realizadas entre 2024 e meados de 2025 — período que coincide com o corte de conhecimento de muitos dos modelos avaliados. Embora o acesso à internet tenha sido bloqueado durante os testes, existe o risco de que os modelos já “conhecessem” os problemas apresentados.
“Isso reduz a qualidade do teste”, destacou a OpenZeppelin, ressaltando que a capacidade mais relevante em segurança com IA é encontrar vulnerabilidades inéditas — não apenas reconhecer padrões já conhecidos.
Além disso, a empresa afirmou ter identificado pelo menos quatro vulnerabilidades classificadas como de alta severidade que, na prática, não seriam exploráveis. Mesmo assim, os modelos estavam sendo pontuados positivamente por identificá-las.
“Não se trata de divergências subjetivas sobre severidade; são casos em que o exploit descrito simplesmente não funciona”, afirmou a companhia.
Ranking e impacto no setor
Na avaliação original do EVMbench, o modelo Claude Open 4.6, da Anthropic, liderou o ranking, seguido pelo OC-GPT-5.2 da OpenAI e pelo Gemini 3 Pro da Google.
Apesar das críticas, a OpenZeppelin reforçou que acredita no potencial transformador da inteligência artificial para reforçar a segurança em blockchain. No entanto, destacou que benchmarks e datasets precisam seguir padrões tão rigorosos quanto os próprios contratos que pretendem proteger.
“O debate não é se a IA vai transformar a segurança de smart contracts — ela vai. A questão é se os dados e benchmarks usados para treinar e avaliar essas ferramentas estão à altura do desafio.”
O episódio reforça a importância da qualidade metodológica na interseção entre IA e cripto — um campo em rápida expansão, mas que exige precisão técnica para evitar conclusões equivocadas.
Fonte: Declarações públicas da OpenZeppelin; informações sobre o EVMbench.
Se você quer acompanhar de perto os movimentos que estão reposicionando o Paraguai como polo estratégico de tecnologia, inovação e ativos digitais, faça parte da nossa comunidade. Ali você recebe análises aprofundadas, bastidores de mercado, oportunidades reais e conexões com quem está tomando decisões de alto nível.
👉 Acesse agora: www.oandrecosta.com.br
Antecipação é vantagem competitiva. Quem entra antes, lidera.



