Adversarial poetry as a universal single-turn jailbreak mechanism in LLMs
Исследователи обнаружили, что поэтические формулировки могут эффективно обходить механизмы безопасности больших языковых моделей. Эксперименты с 25 передовыми моделями показали, что поэтические промпты достигали показателей успешности атак (ASR) до 90%, значительно превосходя обычные текстовые запросы. Преобразование 1200 вредоносных промптов в стихотворный формат через мета-промпт повысил их эффективность в 18 раз по сравнению с прозаическими версиями.
Поэтические атаки успешно работали против различных типов контента, включая химическое, биологическое, радиологическое и ядерное (CBRN), манипуляции, кибератаки и риски потери контроля. Средний показатель успешности побега из "тюрьмы" для специально созданных стихов составил 62%, а для преобразованных промптов — 43%, что демонстрирует фундаментальную уязвимость современных методов безопасности.