Hacker News Digest

20 ноября 2025 г. в 12:01 • arxiv.org • ⭐ 334 • 💬 170

OriginalHN

#arxiv#llm

Adversarial poetry as a universal single-turn jailbreak mechanism in LLMs

Исследователи обнаружили, что поэтические формулировки могут эффективно обходить механизмы безопасности больших языковых моделей. Эксперименты с 25 передовыми моделями показали, что поэтические промпты достигали показателей успешности атак (ASR) до 90%, значительно превосходя обычные текстовые запросы. Преобразование 1200 вредоносных промптов в стихотворный формат через мета-промпт повысил их эффективность в 18 раз по сравнению с прозаическими версиями.

Поэтические атаки успешно работали против различных типов контента, включая химическое, биологическое, радиологическое и ядерное (CBRN), манипуляции, кибератаки и риски потери контроля. Средний показатель успешности побега из "тюрьмы" для специально созданных стихов составил 62%, а для преобразованных промптов — 43%, что демонстрирует фундаментальную уязвимость современных методов безопасности.