Cargando precios...

Los agentes de IA deben ser tratados como sistemas no confiables para evitar ataques, según investigadores de Google

Arturo Trenard Arturo Trenard · · 6 min de lectura

Los agentes de IA deben ser tratados como sistemas no confiables para evitar ataques, según investigadores de Google

Un nuevo artículo de investigación firmado por Google, Gray Swan AI, EmbraceTheRed y varias universidades argumenta que los agentes de inteligencia artificial deben ser tratados como «sistemas no confiables» para mejorar su seguridad. En lugar de centrarse únicamente en la robustez del modelo, los investigadores proponen aplicar principios clásicos de seguridad informática, como la separación de instrucciones y datos, el principio de mínimo privilegio y el control centralizado de la información sensible. El estudio, publicado el 20 de mayo, sostiene que tres mecanismos concretos podrían eliminar la mayoría de los ataques contra agentes de IA.

Agentes de IA: ¿Un nuevo vector de ataque?

Los agentes de inteligencia artificial están experimentando un auge significativo en el ecosistema de las criptomonedas, donde se utilizan cada vez más para trading automatizado, lanzamiento de tokens y aplicaciones Web3. Sin embargo, el crecimiento de su adopción ha puesto de manifiesto vulnerabilidades que los enfoques actuales de seguridad no logran mitigar de manera efectiva.

El estudio titulado «Agent Security is a Systems Problem» sostiene que los esfuerzos actuales para proteger estos sistemas son insuficientes. «A través de este lente, los esfuerzos para aumentar la robustez del modelo contra ataques adversarios son insuficientes por sí solos», señala el documento. Los investigadores proponen un cambio de paradigma: abordar la seguridad de los agentes como un problema de seguridad informática tradicional, no exclusivamente como un desafío de machine learning.

Esta preocupación no es menor. Jeremy Allaire, CEO de Circle, predijo en enero que en cinco años existirán miles de millones de agentes de IA operando en nombre de usuarios, lo que amplifica la urgencia de establecer marcos de seguridad robustos.

 El caso Bankr: Un ejemplo de explotación

El mismo día de la publicación del estudio, el 20 de mayo, se produjo un incidente que ilustra los riesgos señalados por los investigadores. El asistente de trading de criptomonedas Bankr deshabilitó sus transacciones tras identificar a un atacante que había accedido al menos a 14 wallets de usuarios.

Aunque la compañía no confirmó oficialmente el método de ataque, expertos en seguridad especulan que el bot pudo haber sido explotado mediante una técnica de inyección de instrucciones, precisamente uno de los vectores de ataque que el nuevo estudio busca mitigar.

Aaron Ratcliff, de Merkle Science, advirtió sobre los riesgos inherentes a otorgar a los agentes de IA acceso a wallets. «Darle a un agente de IA acceso a una wallet añade una capa de confianza a algo diseñado para ser trustless», señaló Ratcliff a Cointelegraph en declaraciones previas.

Tres mecanismos para eliminar la mayoría de los ataques

Los investigadores identificaron lo que denominan «tres mecanismos» que, según el estudio, «eliminan una gran fracción de los ataques» contra agentes de IA. Estas propuestas se basan en principios de seguridad informática ya establecidos, adaptados al contexto de los agentes inteligentes.

### Separación de datos e instrucciones

El primer mecanismo es la separación de datos e instrucciones. El agente debe ser capaz de distinguir claramente entre las instrucciones que recibe y los datos no confiables del entorno, para evitar que información maliciosa sea interpretada como órdenes de ejecución. Esta técnica busca prevenir los ataques de inyección, donde un atacante inserta instrucciones dañinas camufladas como datos legítimos.

Principio de mínimo privilegio

El segundo mecanismo es el principio de mínimo privilegio. Los agentes deben tener únicamente los permisos mínimos necesarios para realizar una tarea específica, evitando el acceso total a sistemas o datos sensibles. Este enfoque limita el daño potencial en caso de que un agente sea comprometido.

Control de flujo de datos

El tercer mecanismo es el control de flujo de datos. El sistema general, no el agente, debe decidir hacia dónde puede dirigirse la información sensible. Esto implica que el entorno de ejecución, y no el modelo de IA, gestione las rutas de los datos críticos.

El agente como sistema no confiable

En seguridad informática estándar, se distingue entre sistemas «confiables» (trusted) y «no confiables» (untrusted). Los sistemas confiables son aquellos que, por su diseño y verificación, se considera que no fallarán en cumplir con las políticas de seguridad. Por el contrario, los sistemas no confiables operan en la zona de menor confianza y deben ser controlados por mecanismos externos.

La propuesta central del estudio es tratar a los agentes de IA como sistemas no confiables. «Hacia este fin, proponemos ver la seguridad de los agentes como una instancia de seguridad informática. Este dominio ha lidiado durante mucho tiempo con atacantes poderosos», señala el paper. Esta perspectiva implica que, en lugar de confiar en que el agente se comportará correctamente, el sistema debe diseñarse asumiendo que puede ser comprometido.

Voces del sector: Entre la promesa y la precaución

Las reacciones de los ejecutivos del sector reflejan tanto el optimismo por las capacidades de los agentes de IA como la necesidad de establecer protocolos de seguridad rigurosos.

Aaron Ratcliff, de Merkle Science, enumeró las capacidades que un agente de IA debería demostrar antes de operar con fondos de usuarios. Entre ellas incluyó «prueba de que puede detectar front-running, aplicar límites de slippage, detectar tokens scam y auditar contratos en tiempo real», estableciendo un estándar elevado para la confiabilidad operativa.

Por su parte, Sean Ren, de Sahara AI, destacó la importancia de los protocolos de contexto de modelo (MCP, por sus siglas en inglés) como herramientas de seguridad. «Los protocolos de contexto de modelo son el estándar de oro para la seguridad cuando se configuran correctamente», afirmó Ren. Según explicó, en esta configuración el agente actúa como un guardián entre el modelo de IA y la wallet del usuario, ejecutando únicamente acciones aprobadas previamente, como consultar saldos o preparar pagos.

El futuro de los agentes en cripto

Los agentes de IA se están consolidando como herramientas fundamentales en el ecosistema blockchain. Se utilizan para construir aplicaciones Web3, lanzar tokens e interactuar con protocolos de forma autónoma, mientras que algunas plataformas exploran activamente su uso para trading automatizado.

La tendencia es clara: recientemente, la plataforma Exodus lanzó una stablecoin enfocada en agentes de IA en la red Solana, un movimiento que ejemplifica la creciente integración entre inteligencia artificial y criptomonedas.

El estudio de Google y sus colaboradores llega en un momento crucial, cuando la industria busca equilibrar la promesa de la automatización inteligente con la necesidad de proteger los activos de los usuarios en un entorno que, por definición, aspira a ser descentralizado y sin confianza.

Click to rate this post!
[Total: 0 Average: 0]