Hacker News Digest

Тег: #google-deepmind

Постов: 4

New prompt injection papers: Agents rule of two and the attacker moves second (simonwillison.net)

Представлены две новые работы по безопасности LLM и инъекциям промптов. В статье "Agents Rule of Two" от Meta предлагается принцип, согласно которому ИИ-агенты могут одновременно обладать не более чем двумя из трёх свойств: обработкой ненадёжных входных данных, доступом к чувствительным системам или возможность изменять состояние или внешне взаимодействовать. Если требуются все три, агент должен находиться под контролем. Этот подход расширяет концепцию "смертельного трио", добавляя риски изменения состояния, а не только кражи данных.

Второй документ "The Attacker Moves Second" от исследователей OpenAI, Anthropic и Google DeepMind демонстрирует, что 12 опубликованных систем защиты от инъекций и побега из "тюрьмы" модели успешно обойдены в 90% случаев с помощью адаптивных атак. Особенно впечатляет результат "красной команды" из 500 человек, достигший 100% успеха. Авторы подчёркивают, что статичные примеры атак практически бесполезны для оценки защиты — эффективны лишь адаптивные методы с многократной итерацией для поиска уязвимостей.

by simonw • 02 ноября 2025 г. в 23:11 • 77 points

ОригиналHN

#llm#prompt-injection#ai-security#meta#openai#anthropic#google-deepmind#adaptive-attacks#security-research

Комментарии (30)

  • Продолжается обсуждение безопасности LLM: отсутствие трекинга загрязнённых данных, отсутствие моделей в продакшене, и отсутствие трекинга токенов в промпте и т.д.
  • Участники обсуждают, что LLM не могут быть безопасными, если они не могут отличить вредоносный ввод от обычного, и что это делает невозможным для пользователей проверять, что именно они делают.
  • Поднимается вопрос, что если LLM не может быть безопасным, то как они могут быть использованы в критичных системах, и что это значит для будущем развитии ИИ.
  • Обсуждается, что вместо того, чтобы пытаться сделать LLM безопасным, было бы лучше сосредоточиться на создании инструментов и практик, которые позволяют LLM быть использован безопасно.

Reasoning LLMs are wandering solution explorers (arxiv.org)

Исследователи из Google DeepMind и Университета Монреаля показали, что современные LLM не используют формальное рассуждение, а вместо этого ищут решение в пространстве возможных решений. Это открытие ставит под сомнение саму идею, что масштабные языковые модели "рассуждают" как люди.

Команда обучила модель, которая решает задачи, используя цепочку мыслей, и другую, которая не использует. Оказалось, что вторая модель достигает такой же точности, как и первая. Это показывает, что LLM не используют формальное рассуждение, а вместо этого ищут решение в пространстве возможных решений. Исследование также показало, что модели становятся менее уверенными в своих ответах, когда задачи становятся сложнее.

by Surreal4434 • 10 октября 2025 г. в 04:40 • 84 points

ОригиналHN

#large-language-models#llm#artificial-intelligence#machine-learning#google-deepmind#university-of-montreal#chain-of-thought#explainable-ai#arxiv

Комментарии (79)

  • Обсуждение показало, что LLM не «рассуждают», а лишь сглаживают контекст, и что «цепочка мыслей» не более чем маркетинговый термин.
  • Участники подчеркнули, что вместо поиска решения модель выдает токены до тех пор, пока не сгенерится выглядящий правильным ответ, и что это не исследование пространства решений, а его выборка.
  • Сообщество отметило, что в отсутствии прозрачности внутреннего состояния LLM, невозможно достоверно оценить или обеспечить корректность его выводов, что ставит под сомнение саму идею «объяснимого ИИ».
  • Участники также обсудили, что вопрос остается открытым, какие именно задачи могут быть решены с помощью LLM, и что такое «рассуждение» и как его измерять.

'World Models,' an old idea in AI, mount a comeback (quantamagazine.org)

Мир внутри ИИ
Полвека назад «модели мира» были фундаментом ИИ: система хранила внутреннюю копию окружения и планировала действия, прогоняя возможные будущие. С приходом больших данных и LLM идея ушла в тень, но теперь возвращается как ключ к AGI.

Почему снова актуально

  • Проблема LLM: они предсказывают слова, а не последствия; не умеют планировать и обобщать.
  • Плюс модели мира: позволяет «воображать» сцены, тестировать действия безопасно, переносить знания в новые задачи.
  • Сдвиг в масштабе: современные нейросети могут обучать модели с миллионами параметров на видео и симуляциях, чего раньше не хватало.

Как строят сегодня

  1. Видеопредсказание: нейросети, обученные на YouTube, генерируют следующие кадры и учатся физике столкновений, трения, гравитации.
  2. Игра в уме: агенты Dreamer и MuZero учатся в «галлюцинациях» без внешнего мира, экономя время и энергию.
  3. Композиция знаний: новые архитектуры объединяют языковые модели с пространственными представлениями, позволяя отвечать «что будет, если…».

Где уже работает

  • Роботы-манипуляторы от Google DeepMind учатся складывать блоки, «прокручивая» будущее в голове.
  • Дроны и автономные машины используют модели мира для планирования траекторий в сложной местности.
  • Генеративные видео-системы (Sora, Veo) не просто рисуют картинки, а моделируют физику сцены.

Ограничения и риски

  • Пока модели мира хрупки: ошибаются в редких событиях и плохо переносятся между доменами.
  • Требуют огромных данных и вычислений.
  • Открыты вопросы безопасности: если ИИ «воображает» опасные сценарии, кто контролирует, что он не начнёт их реализовывать?

Вывод
Модели мира — не серебряная пуля, но без них путь к универсальному ИИ выглядит тупиковым. Следующий прорыв может случиться, когда языковые модели научатся не только говорить, но и «видеть» последствия своих слов.

by warrenm • 02 сентября 2025 г. в 16:53 • 183 points

ОригиналHN

#llm#world-models#neural-networks#ag#reinforcement-learning#dreamer#muzero#google-deepmind#generative-ai

Комментарии (67)

  • Современные шахматные движки всё ещё опираются на полную реализацию логики игры и глубокий перебор, но уже используют нейросети для оценки позиций.
  • Попытки заменить это «чистыми» нейромоделями приводят к невалидным ходам и глупым ошибкам, если нет явной проверки правил.
  • Участники подчёркивают, что мир «в голове» ИИ должен быть неполным и постоянно корректироваться по новым данным, иначе возникает фрейм-проблема.
  • Обсуждаются альтернативы: гауссовы сплэттинги, пользовательские грамматики, солипсистические модели, но все они либо узки, либо требуют ручной настройки.
  • Итог: пока нет универсального способа построить надёжную world-model; нужен гибрид символики, нейросетей и постоянной адаптации.

Google's Genie is more impressive than GPT5 (theahura.substack.com)

AGI стремится к универсальности, но нельзя просто import everything. Решение — компрессия и обобщение: небольшая модель покрывает огромное пространство задач. Глубокое обучение сжимает терабайты данных в десятки гигабайтов весов, и LLM не только имитируют текст, но и умеют, например, играть в шахматы без явного обучения.

Следующий шаг — world-models, способные представлять не только текст и картинки, но и всю окружающую реальность. Такая модель могла бы «смоделировать Тибет» и сообщить погоду, а робот — планировать движения, опираясь на внутреннюю симуляцию мира. Проблема в колоссальном объёме видеоданных и вычислений, поэтому мало кто рискует.

Google DeepMind рискнул: три дня назад представил Genie 3 (Generative Interactive Environments). Если GPT создаёт текст, Veo и Sora — видео, то Genie превращает описание в интерактивную видеоигру, где можно бродить минутами. Пока коротко, но это качественный скачок и намёк на будущее, где модели будут поддерживать длинную когерентность не только в тексте, но и в «живых» мирах.

by theahura • 08 августа 2025 г. в 14:46 • 177 points

ОригиналHN

#agi#google-deepmind#genie#llm#world-models#deep-learning#machine-learning#google

Комментарии (58)

  • Пользователи высмеяли идею «стимулировать Тибет» вместо обычного запроса погоды.
  • Рынки ставок и графики вызвали споры: одни видят рост ожиданий Gemini-3, другие указывают, что Gemini 2.5 уже выше GPT-5 в бенчмарке.
  • Многие считают статью пустой и отказываются верить демо, пока Genie 3 не станет публично доступен.
  • Обсуждение свелось к тому, что ни GPT-5, ни Gemini пока не близки к AGI, а термин «AGI» постоянно меняется под маркетинг.