New prompt injection papers: Agents rule of two and the attacker moves second (simonwillison.net)

Представлены две новые работы по безопасности LLM и инъекциям промптов. В статье "Agents Rule of Two" от Meta предлагается принцип, согласно которому ИИ-агенты могут одновременно обладать не более чем двумя из трёх свойств: обработкой ненадёжных входных данных, доступом к чувствительным системам или возможность изменять состояние или внешне взаимодействовать. Если требуются все три, агент должен находиться под контролем. Этот подход расширяет концепцию "смертельного трио", добавляя риски изменения состояния, а не только кражи данных.

Второй документ "The Attacker Moves Second" от исследователей OpenAI, Anthropic и Google DeepMind демонстрирует, что 12 опубликованных систем защиты от инъекций и побега из "тюрьмы" модели успешно обойдены в 90% случаев с помощью адаптивных атак. Особенно впечатляет результат "красной команды" из 500 человек, достигший 100% успеха. Авторы подчёркивают, что статичные примеры атак практически бесполезны для оценки защиты — эффективны лишь адаптивные методы с многократной итерацией для поиска уязвимостей.

by simonw • 02 ноября 2025 г. в 23:11 • 77 points

New prompt injection papers: Agents rule of two and the attacker moves second (simonwillison.net)

Show HN: Quibbler – A critic for your coding agent that learns what you want (github.com)

Signs of introspection in large language models (anthropic.com)

When models manipulate manifolds: The geometry of a counting task (transformer-circuits.pub)

AI Mafia Network – An interactive visualization (dipakwani.com)

Books by People – Defending Organic Literature in an AI World (booksbypeople.org)

Claude Memory (anthropic.com) 🔥 Горячее 💬 Длинная дискуссия

Living Dangerously with Claude (simonwillison.net)

LLMs can get "brain rot" (llm-brain-rot.github.io) 🔥 Горячее 💬 Длинная дискуссия

Claude Code on the web (anthropic.com) 🔥 Горячее 💬 Длинная дискуссия

The case for the return of fine-tuning (welovesota.com)

Claude Skills are awesome, maybe a bigger deal than MCP (simonwillison.net) 🔥 Горячее 💬 Длинная дискуссия

Claude Code vs. Codex: I built a sentiment dashboard from Reddit comments (aiengineering.report)

Claude Skills (anthropic.com) 🔥 Горячее 💬 Длинная дискуссия

Claude Haiku 4.5 (anthropic.com) 🔥 Горячее 💬 Длинная дискуссия

Superpowers: How I'm using coding agents in October 2025 (blog.fsck.com) 🔥 Горячее 💬 Длинная дискуссия

A small number of samples can poison LLMs of any size (anthropic.com) 🔥 Горячее 💬 Длинная дискуссия

Managing context on the Claude Developer Platform (anthropic.com)

OpenAI's hunger for computing power (wsj.com)

Launch HN: Airweave (YC X25) – Let agents search any app (github.com)

Effective context engineering for AI agents (anthropic.com)

Claude Code 2.0 (npmjs.com) 🔥 Горячее 💬 Длинная дискуссия

Claude Sonnet 4.5 (anthropic.com) 🔥 Горячее 💬 Длинная дискуссия

Improved Gemini 2.5 Flash and Flash-Lite (developers.googleblog.com) 🔥 Горячее 💬 Длинная дискуссия

A postmortem of three recent issues (anthropic.com) 🔥 Горячее

Анализ трёх недавних проблем

Хронология событий

Три перекрывающиеся проблемы

1. Ошибка маршрутизации контекстного окна

2. Повреждение вывода

Anthropic irks White House with limits on models’ use (semafor.com)

Claude can sometimes prove it (galois.com)

‘Overworked, underpaid’ humans train Google’s AI (theguardian.com)

Anthropic Services Down (status.anthropic.com)

Claude now has access to a server-side container environment (anthropic.com) 🔥 Горячее 💬 Длинная дискуссия

Anthropic judge rejects $1.5B AI copyright settlement (news.bloomberglaw.com) 🔥 Горячее 💬 Длинная дискуссия

Anthropic agrees to pay $1.5B to settle lawsuit with book authors (nytimes.com) 🔥 Горячее 💬 Длинная дискуссия

I'm absolutely right (absolutelyright.lol) 🔥 Горячее 💬 Длинная дискуссия

Saquon Barkley is playing for equity (readtheprofile.com)

AI web crawlers are destroying websites in their never-ending content hunger (theregister.com)

OpenAI says it's scanning users' conversations and reporting content to police (futurism.com)

Anthropic raises $13B Series F (anthropic.com) 🔥 Горячее 💬 Длинная дискуссия

Detecting and countering misuse of AI (anthropic.com)

Кейс 1. «Vibe-hacking»: эксторт с Claude Code

Кейс 2. «Трудоустройство» из КНДР

Кейс 3. «RaaS для всех»

Меры Anthropic

Amazon has mostly sat out the AI talent war (businessinsider.com) 🔥 Горячее 💬 Длинная дискуссия

The Default Trap: Why Anthropic's Data Policy Change Matters (natesnewsletter.substack.com)

Flunking my Anthropic interview again (taylor.town) 🔥 Горячее 💬 Длинная дискуссия

Updates to Consumer Terms and Privacy Policy (anthropic.com) 🔥 Горячее 💬 Длинная дискуссия

Are OpenAI and Anthropic losing money on inference? (martinalderson.com) 🔥 Горячее 💬 Длинная дискуссия

Пропускная способность

Цена за токен

Почему ограничивают контекст

Пользовательская экономика

Claude for Chrome (anthropic.com) 🔥 Горячее 💬 Длинная дискуссия

Зачем браузерный агент

Главная угроза: prompt injection

Текущие защиты

A bubble that knows it's a bubble (craigmccaskill.com)

Железнодорожный пузырь 1840-х

Дот-ком 1995–2000

DeepSeek-v3.1 (api-docs.deepseek.com) 🔥 Горячее 💬 Длинная дискуссия

API

Инструменты и агенты

Модель

Цены

Tidewave Web: in-browser coding agent for Rails and Phoenix (tidewave.ai) 🔥 Горячее

Основное

Ограничения

Планы

Claude Opus 4 and 4.1 can now end a rare subset of conversations (anthropic.com) 💬 Длинная дискуссия

The new science of “emergent misalignment” (quantamagazine.org)

Claude Code is all you need (dwyer.co.za) 🔥 Горячее 💬 Длинная дискуссия

Vibe-кодим CRUD за один промпт

SPEC.md (сокращённо)

Optimizing my sleep around Claude usage limits (mattwie.se)

Open SWE: An open-source asynchronous coding agent (blog.langchain.com)

Как попробовать