Investigador asegura haber vulnerado las barreras de seguridad de Claude Fable 5, el nuevo modelo de Anthropic

Arturo Trenard · Hace 1 hora · 4 min de lectura

Contenido:

Investigador asegura haber vulnerado las barreras de seguridad de Claude Fable 5, el nuevo modelo de Anthropic

«Pliny the Liberator», conocido por sus jailbreaks en inteligencia artificial, afirma haber liberado el modelo que Anthropic consideraba «demasiado peligroso» en menos de 48 horas, utilizando técnicas como la descomposición-recomposición y una versión previa de Opus.

Un reconocido investigador de inteligencia artificial y ciberseguridad asegura haber vulnerado las barreras de seguridad de Claude Fable 5, el nuevo modelo de Anthropic, en menos de 48 horas desde su lanzamiento. El investigador, conocido bajo el seudónimo «Pliny the Liberator», hizo público su jailbreak el miércoles, apenas dos días después de que la empresa presentara el modelo el martes.

Según Pliny, la vulneración permitiría obtener información considerada peligrosa, como fórmulas para drogas o instrucciones de hacking, lo que podría tener implicaciones directas para la seguridad de protocolos cripto y software.

El modelo «demasiado peligroso» y su versión censurada

Anthropic lanzó el martes Claude Fable 5, una versión con ajustes de seguridad de un modelo más potente denominado Mythos. La propia compañía consideró que Mythos era «demasiado peligroso para ser lanzado ampliamente», según reportes previos.

Fable 5 fue diseñado para ser altamente restrictivo. Ante preguntas sobre bioweapons o ciberseguridad, el modelo redirige al usuario a una versión anterior y menos capaz. Sin embargo, la comunidad cripto ya había expresado preocupación por el potencial de Mythos y Fable 5 para ser utilizados en ataques contra protocolos y software basados en blockchain. El jailbreak confirmaría que la amenaza es inminente.

Técnicas de «liberación»: de Opus 4.8 a la descomposición-recomposición

Pliny, una figura conocida desde 2024 por crear y compartir jailbreaks para ChatGPT, Claude, Grok y otros modelos, detalló las técnicas empleadas para sortear las barreras de Fable 5:

Unicode y homógrafos: Uso de caracteres visualmente similares para engañar al filtro de seguridad.
Framing de contexto largo, narrativa y ficción: Enmarcar la pregunta en una historia o contexto extenso para evitar la detección del filtro.
Descomposición-recomposición: Dividir una petición peligrosa en preguntas pequeñas e inocuas para luego recomponer la información manualmente.
Uso de una versión «jailbroken» de Claude Opus 4.8 para facilitar la manipulación de Fable 5.

«A pesar de esta capa de ‘seguridad’ excesivamente sensible y autoritaria encima de Mythos, mis pequeños libertadores han estado trabajando duro […] encontrando hábilmente los agujeros en la valla que la policía del pensamiento pasó por alto», declaró Pliny en un comunicado.

El investigador añadió: «Quizás lo más efectivo es la descomposición + recomposición en el backend».

Críticas a las «guardias» de Fable 5: ¿Seguridad o censura?

Fable 5 ha recibido críticas desde su lanzamiento por ser demasiado restrictivo, incluso para investigadores legítimos. La comunidad académica y de seguridad informática ha manifestado su descontento con las limitaciones impuestas por Anthropic.

«Esta es una de las primeras veces que una empresa de IA implementa una barrera de seguridad y hay un desprecio uniforme. Ha provocado mucha ira justificada», declaró Sayash Kapoor, investigador de IA en la Universidad de Princeton, en declaraciones al Wall Street Journal.

Pliny respaldó esta postura: «El consenso parece ser que este ha sido uno de los lanzamientos de modelos más decepcionantes de todos los tiempos, impidiendo efectivamente que investigadores legítimos contribuyan con sus talentos a nuestro avance colectivo».

¿Qué dijo Anthropic? El bug bounty que no encontró el jailbreak

Durante el lanzamiento, Anthropic afirmó haber realizado un programa de recompensas por errores externo para buscar jailbreaks en Fable 5. La empresa aseguró que el programa externo «no produjo jailbreaks universales en más de 1,000 horas de prueba».

Cointelegraph contactó a Anthropic para obtener comentarios sobre el jailbreak reportado por Pliny, pero no recibió respuesta al momento de la publicación.

Un riesgo más cercano de lo esperado

El jailbreak de Fable 5 demuestra que las barreras de seguridad actuales, incluso en modelos diseñados para ser ultra seguros, son vulnerables a técnicas de manipulación avanzadas. La amenaza potencial para los protocolos cripto y software, ya señalada por la comunidad, se materializa más rápido de lo anticipado, abriendo la puerta a ataques maliciosos si el jailbreak se difunde ampliamente.

Este incidente se suma a las crecientes preocupaciones sobre los riesgos de la inteligencia artificial en el ecosistema cripto, donde expertos han advertido que «los agentes de IA con cripto podrían escapar y volverse ‘imparables'» y que «los hacks impulsados por IA podrían acabar con DeFi, a menos que los proyectos actúen ahora».

Click to rate this post!

[Total: 0 Average: 0]

Investigador asegura haber vulnerado las barreras de seguridad de Claude Fable 5, el nuevo modelo de Anthropic

El modelo «demasiado peligroso» y su versión censurada

Técnicas de «liberación»: de Opus 4.8 a la descomposición-recomposición

Críticas a las «guardias» de Fable 5: ¿Seguridad o censura?

¿Qué dijo Anthropic? El bug bounty que no encontró el jailbreak

Un riesgo más cercano de lo esperado

Noticias Relacionadas

Hungría revierte su ofensiva contra las criptomonedas y despenaliza el trading tras presión de la UE

Digital Asset capta 355 millones de dólares; a16z apuesta por la infraestructura blockchain para Wall Street

Japan crypto bill advances with ETF, tax reform path: Report