New prompt injection papers: Agents rule of two and the attacker moves second
Представлены две новые работы по безопасности LLM и инъекциям промптов. В статье "Agents Rule of Two" от Meta предлагается принцип, согласно которому ИИ-агенты могут одновременно обладать не более чем двумя из трёх свойств: обработкой ненадёжных входных данных, доступом к чувствительным системам или возможность изменять состояние или внешне взаимодействовать. Если требуются все три, агент должен находиться под контролем. Этот подход расширяет концепцию "смертельного трио", добавляя риски изменения состояния, а не только кражи данных.
Второй документ "The Attacker Moves Second" от исследователей OpenAI, Anthropic и Google DeepMind демонстрирует, что 12 опубликованных систем защиты от инъекций и побега из "тюрьмы" модели успешно обойдены в 90% случаев с помощью адаптивных атак. Особенно впечатляет результат "красной команды" из 500 человек, достигший 100% успеха. Авторы подчёркивают, что статичные примеры атак практически бесполезны для оценки защиты — эффективны лишь адаптивные методы с многократной итерацией для поиска уязвимостей.