OpenZeppelin aponta falhas metodológicas em benchmark de IA para segurança em blockchain

Auditoria da OpenZeppelin identifica contaminação de dados e erros de classificação no EVMbench, criado por OpenAI e Paradigm

mar 03, 2026

A empresa de segurança em blockchain OpenZeppelin afirmou ter encontrado falhas metodológicas e possíveis contaminações de dados no EVMbench, novo benchmark de inteligência artificial voltado à segurança de contratos inteligentes.

O EVMbench foi lançado em meados de fevereiro em parceria entre a OpenAI e a Paradigm. A ferramenta foi projetada para avaliar a capacidade de modelos de IA em identificar, corrigir e explorar vulnerabilidades em smart contracts na Ethereum Virtual Machine (EVM).

Contaminação de dados e vulnerabilidades questionáveis

Segundo a OpenZeppelin, dois problemas principais foram identificados na auditoria:

Contaminação de dados de treinamento
Classificação incorreta de vulnerabilidades consideradas de alta severidade

A empresa afirmou que os modelos com melhor desempenho no EVMbench provavelmente já haviam sido expostos aos relatórios de vulnerabilidades utilizados no benchmark durante o pré-treinamento.

O dataset do EVMbench foi construído com base em vulnerabilidades selecionadas de 120 auditorias realizadas entre 2024 e meados de 2025 — período que coincide com o corte de conhecimento de muitos dos modelos avaliados. Embora o acesso à internet tenha sido bloqueado durante os testes, existe o risco de que os modelos já “conhecessem” os problemas apresentados.

“Isso reduz a qualidade do teste”, destacou a OpenZeppelin, ressaltando que a capacidade mais relevante em segurança com IA é encontrar vulnerabilidades inéditas — não apenas reconhecer padrões já conhecidos.

Além disso, a empresa afirmou ter identificado pelo menos quatro vulnerabilidades classificadas como de alta severidade que, na prática, não seriam exploráveis. Mesmo assim, os modelos estavam sendo pontuados positivamente por identificá-las.

“Não se trata de divergências subjetivas sobre severidade; são casos em que o exploit descrito simplesmente não funciona”, afirmou a companhia.

Ranking e impacto no setor

Na avaliação original do EVMbench, o modelo Claude Open 4.6, da Anthropic, liderou o ranking, seguido pelo OC-GPT-5.2 da OpenAI e pelo Gemini 3 Pro da Google.

Apesar das críticas, a OpenZeppelin reforçou que acredita no potencial transformador da inteligência artificial para reforçar a segurança em blockchain. No entanto, destacou que benchmarks e datasets precisam seguir padrões tão rigorosos quanto os próprios contratos que pretendem proteger.

“O debate não é se a IA vai transformar a segurança de smart contracts — ela vai. A questão é se os dados e benchmarks usados para treinar e avaliar essas ferramentas estão à altura do desafio.”

O episódio reforça a importância da qualidade metodológica na interseção entre IA e cripto — um campo em rápida expansão, mas que exige precisão técnica para evitar conclusões equivocadas.

Fonte: Declarações públicas da OpenZeppelin; informações sobre o EVMbench.

Se você quer acompanhar de perto os movimentos que estão reposicionando o Paraguai como polo estratégico de tecnologia, inovação e ativos digitais, faça parte da nossa comunidade. Ali você recebe análises aprofundadas, bastidores de mercado, oportunidades reais e conexões com quem está tomando decisões de alto nível.

👉 Acesse agora: www.oandrecosta.com.br

Antecipação é vantagem competitiva. Quem entra antes, lidera.

Discussão sobre este post

Pronto para mais?