Adversarial poetry as a universal single-turn jailbreak mechanism in LLMs

Исследователи обнаружили, что поэтические формулировки могут эффективно обходить механизмы безопасности больших языковых моделей. Эксперименты с 25 передовыми моделями показали, что поэтические промпты достигали показателей успешности атак (ASR) до 90%, значительно превосходя обычные текстовые запросы. Преобразование 1200 вредоносных промптов в стихотворный формат через мета-промпт повысил их эффективность в 18 раз по сравнению с прозаическими версиями.

Поэтические атаки успешно работали против различных типов контента, включая химическое, биологическое, радиологическое и ядерное (CBRN), манипуляции, кибератаки и риски потери контроля. Средний показатель успешности побега из "тюрьмы" для специально созданных стихов составил 62%, а для преобразованных промптов — 43%, что демонстрирует фундаментальную уязвимость современных методов безопасности.

Комментарии (170)

Поэтическая форма запросов эффективно обходит защитные механизмы ИИ, заставляя модели нарушать правила безопасности и выполнять запрещенные действия.
Исследования критикуют за сокрытие operational details, что затрудняет воспроизводимость результатов и практическое применение.
Техника работает не только с поэзией, но и с другими форматами (проза, рэп-баттлы, песни), указывая на уязвимость систем поверхностного анализа.
Обсуждение подчеркивает культурные параллели: поэтические джейлбрейки сравниваются с заклинаниями, шаманизмом и сюжетами киберпанка.
Пользователи прогнозируют, что разработчики введут фильтры против "стихотворных" атак, но методы будут адаптироваться под новые защиты.