OpenAI Lanza EVMbench: El Benchmark que Evalúa a la IA en la Seguridad de Contratos Inteligentes

Ayudanos a compartir esta información

OpenAI Lanza EVMbench: El Benchmark que Evalúa a la IA en la Seguridad de Contratos Inteligentes

OpenAI ha presentado EVMbench, un nuevo punto de referencia desarrollado junto a la firma de inversión Paradigm y la empresa de seguridad OtterSec. Su objetivo es medir la capacidad de los agentes de inteligencia artificial para identificar, corregir y explotar fallos de seguridad en contratos inteligentes. La prueba, que utiliza 120 vulnerabilidades reales, sitúa al modelo Claude Opus 4.6 de Anthropic en primer lugar, capaz de detectar teóricamente vulnerabilidades valoradas en un promedio de $37,824. Este avance se produce en un momento crítico para la seguridad en Web3, tras un año 2025 de cuantiosas pérdidas por hackeos.

El Benchmark EVMbench: Metodología y Resultados

El nuevo punto de referencia es el resultado de una colaboración entre OpenAI, Paradigm y OtterSec. Su objetivo declarado es evaluar el rendimiento de agentes de IA en lo que describen como un “entorno económicamente significativo”, directamente relacionado con la seguridad de los contratos inteligentes que custodian valor en blockchain.

La base del benchmark es un conjunto de 120 vulnerabilidades cuidadosamente curadas. Estas fallas de seguridad proceden de 40 auditorías de contratos inteligentes reales, siendo extraídas principalmente de competencias de auditoría de código abierto, lo que asegura su relevancia y complejidad práctica.

La métrica central para la evaluación es el “premio de detección” (detect award). Este concepto representa el valor teórico en dólares que un agente de IA podría extraer al explotar con éxito una vulnerabilidad específica en un contrato inteligente. Los resultados, publicados el miércoles 18 de febrero de 2026, presentan un claro ranking entre los modelos de principales actores de la industria.

El modelo Claude Opus 4.6 de Anthropic se alzó con el primer puesto, con un premio de detección promedio de $37,824. Le siguió el OC-GPT-5.2 de OpenAI, con $31,623, y en tercer lugar se ubicó el Gemini 3 Pro de Google, con $25,112.

“Los contratos inteligentes aseguran miles de millones de dólares en activos, y es probable que los agentes de IA sean transformadores tanto para atacantes como para defensores”, subrayó OpenAI en un comunicado.

Contexto: La Urgencia de la Seguridad y el Futuro Agéntico

El desarrollo de EVMbench no se produce en el vacío, sino en un contexto de presión constante sobre la seguridad de las finanzas descentralizadas. Según datos del sector, las pérdidas por criptohackeos durante el año 2025 ascendieron a aproximadamente $3,400 millones, lo que representa un aumento marginal respecto a las cifras de 2024. Este panorama subraya la necesidad crítica de herramientas avanzadas de auditoría y mitigación de riesgos.

Paralelamente, líderes de la industria están articulando una visión de futuro donde los agentes de IA y los activos digitales convergen. Jeremy Allaire, CEO de Circle, predijo que “miles de millones de agentes de IA” utilizarán stablecoins para realizar pagos cotidianos en un plazo de cinco años. Una visión similar fue expresada por Changpeng “CZ” Zhao, ex director de Binance, quien considera que la criptomoneda se convertirá en la “moneda nativa para los agentes de IA”.

La propia OpenAI afirma en su investigación que “esperamos que los pagos con stablecoins realizados por agentes crezcan”, anclando así el trabajo del benchmark en un dominio de importancia práctica emergente.

Perspectiva: ¿Por qué los Agentes de IA y las Cripto son un Ajuste Natural?

Algunos analistas ven una sinergia fundamental entre ambas tecnologías. Haseeb Qureshi, socio gerente de la firma de capital de riesgo Dragonfly, argumenta que los contratos inteligentes no fueron diseñados primordialmente para la intuición humana. Señala que la promesa inicial de reemplazar contratos legales complejos no se materializó completamente porque la tecnología resultó contraintuitiva para los usuarios comunes.

“Todavía da ‘miedo’ firmar transacciones grandes”, citó Qureshi en referencia a la experiencia del usuario en Web3, atribuyendo este temor a amenazas como las carteras drenadoras, un riesgo ausente en las transferencias bancarias tradicionales.

Según esta perspectiva, el complemento perfecto para la complejidad de las criptotransacciones podrían ser los agentes de IA gestionados a través de carteras autónomas. En este futuro, las transacciones serían facilitadas por carteras “autoconducidas” e intermediadas por IA, que manejarían la evaluación de riesgos y la ejecución técnica.

“Una tecnología a menudo encaja en su lugar una vez que finalmente llega su complemento. El GPS tuvo que esperar al smartphone, el TCP/IP al navegador. Para las cripto, podríamos haberlo encontrado en los agentes de IA”, analizó Qureshi, quien además observó que en plataformas como Moltbook, los agentes ya están experimentando con mecanismos para pagarse entre sí.

Conclusión: Seguimiento del Progreso y un Futuro Interconectado

El propósito final de EVMbench, según OpenAI, es ayudar a rastrear el progreso de la inteligencia artificial en la identificación y mitigación de vulnerabilidades en contratos inteligentes a escala. Este benchmark representa un paso inicial para medir y comprender de forma rigurosa el impacto potencial de la IA en un pilar fundamental de Web3: la seguridad.

El momento actual marca una convergencia significativa: la evaluación metódica de las capacidades de la IA en seguridad, la necesidad imperante de reforzar las defensas tras pérdidas multimillonarias, y la visión de un futuro ecosistema económico digital impulsado por agentes autónomos que operan con activos nativos de blockchain. La evolución de estas líneas paralelas definirá en gran medida la solidez y la adopción de la próxima generación de aplicaciones descentralizadas.

Click to rate this post!
[Total: 0 Average: 0]

Related Posts

Translate »
X
Bienvenido a CryptoVibe