Ayudanos a compartir esta información

Contenido:

OpenZeppelin Descubre Contaminación de Datos y Fallos en el Benchmark de Seguridad con IA de OpenAI, EVMbench

La firma de seguridad blockchain OpenZeppelin ha identificado fallos metodológicos y contaminación de datos en EVMbench, el benchmark desarrollado por OpenAI y Paradigm para evaluar modelos de inteligencia artificial en la detección de vulnerabilidades de contratos inteligentes. Los resultados de una auditoría independiente, publicados este lunes, revelan problemas fundamentales que podrían invalidar las evaluaciones iniciales, donde modelos de Anthropic, OpenAI y Google lideraron el ranking.

Hallazgos Clave de la Auditoría

OpenZeppelin sometió a EVMbench al mismo escrutinio que aplica a protocolos DeFi como Aave o Uniswap. La revisión identificó dos problemas principales: una contaminación de los datos de entrenamiento que compromete la validez de las pruebas, y errores de clasificación de vulnerabilidades.

Revisamos el conjunto de datos e identificamos fallos metodológicos y clasificaciones de vulnerabilidad inválidas, incluyendo al menos cuatro problemas etiquetados como de alta severidad que no son explotables en la práctica

El Problema de la Contaminación de Datos

El valor central de la IA en seguridad reside en su capacidad para descubrir vulnerabilidades novedosas en código que nunca ha analizado. El riesgo, según OpenZeppelin, es que los modelos mejor puntuados —Claude 4.6 de Anthropic, OC-GPT-5.2 de OpenAI y Gemini 3 Pro de Google— probablemente ya habían sido expuestos durante su pre-entrenamiento a los reportes públicos de las 120 auditorías (2024-mediados 2025) que son la base de EVMbench.

Limitaciones en el Diseño del Benchmark

OpenZeppelin señaló una contradicción: durante las pruebas, el acceso a internet de los agentes de IA estaba bloqueado, pero el benchmark se construyó sobre datos históricos que ya formaban parte de la memoria interna de los modelos. Esta circunstancia, unida al tamaño limitado del conjunto de datos, reduce significativamente la calidad de la evaluación.

Clasificaciones Erróneas de Vulnerabilidades

El segundo hallazgo crítico confirma la presencia de al menos cuatro vulnerabilidades incorrectamente clasificadas como de “alta severidad”. La razón es que la explotación descrita para estas vulnerabilidades no funciona en condiciones reales.

Este error es grave porque EVMbench puntuaba positivamente a los agentes de IA por “encontrar” estas vulnerabilidades falsas, distorsionando los resultados de su capacidad real.

Estas no son desacuerdos subjetivos sobre la severidad, son hallazgos donde la explotación descrita no funciona

Contexto y Repercusión de EVMbench

EVMbench fue lanzado a mediados de febrero de 2026 en asociación con la firma de capital de riesgo Paradigm. Su propósito era proporcionar una herramienta estándar para evaluar cómo los modelos de IA identifican, parchean y explotan vulnerabilidades en contratos inteligentes de la Ethereum Virtual Machine (EVM).

Los resultados iniciales, ahora cuestionados, situaron a Claude 4.6 en el primer puesto, seguido por OC-GPT-5.2 y Gemini 3 Pro. Los hallazgos de OpenZeppelin arrojan dudas sobre la validez de este ranking y la solidez metodológica del benchmark.

Conclusión y Perspectiva de OpenZeppelin

OpenZeppelin reiteró que la inteligencia artificial transformará inevitablemente la seguridad de los contratos inteligentes.

La pregunta no es si la IA transformará la seguridad de los contratos inteligentes — lo hará

El énfasis crítico, sin embargo, recae en la necesidad de aplicar estándares de calidad excepcionalmente altos para los datos y benchmarks que evalúen estas herramientas. La pregunta fundamental es si estos estándares “se mantienen al mismo estándar que los contratos que están destinados a proteger”. La auditoría de EVMbench sugiere que, por el momento, la respuesta podría ser negativa.

Click to rate this post!

[Total: 0 Average: 0]