New prompt injection papers: Agents rule of two and the attacker moves second

Представлены две новые работы по безопасности LLM и инъекциям промптов. В статье "Agents Rule of Two" от Meta предлагается принцип, согласно которому ИИ-агенты могут одновременно обладать не более чем двумя из трёх свойств: обработкой ненадёжных входных данных, доступом к чувствительным системам или возможность изменять состояние или внешне взаимодействовать. Если требуются все три, агент должен находиться под контролем. Этот подход расширяет концепцию "смертельного трио", добавляя риски изменения состояния, а не только кражи данных.

Второй документ "The Attacker Moves Second" от исследователей OpenAI, Anthropic и Google DeepMind демонстрирует, что 12 опубликованных систем защиты от инъекций и побега из "тюрьмы" модели успешно обойдены в 90% случаев с помощью адаптивных атак. Особенно впечатляет результат "красной команды" из 500 человек, достигший 100% успеха. Авторы подчёркивают, что статичные примеры атак практически бесполезны для оценки защиты — эффективны лишь адаптивные методы с многократной итерацией для поиска уязвимостей.

Комментарии (30)

Продолжается обсуждение безопасности LLM: отсутствие трекинга загрязнённых данных, отсутствие моделей в продакшене, и отсутствие трекинга токенов в промпте и т.д.
Участники обсуждают, что LLM не могут быть безопасными, если они не могут отличить вредоносный ввод от обычного, и что это делает невозможным для пользователей проверять, что именно они делают.
Поднимается вопрос, что если LLM не может быть безопасным, то как они могут быть использованы в критичных системах, и что это значит для будущем развитии ИИ.
Обсуждается, что вместо того, чтобы пытаться сделать LLM безопасным, было бы лучше сосредоточиться на создании инструментов и практик, которые позволяют LLM быть использован безопасно.