Тег: #google-deepmind — Hacker News Digest

Nano Banana Pro (blog.google) 🔥 Горячее 💬 Длинная дискуссия

Google представила Nano Banana Pro — новую модель генерации и редактирования изображений от Google DeepMind. Эта модель относится к семейству Gemini 3 Pro и предназначена для работы с визуальным контентом. Несмотря на необычное название, Nano Banana Pro позиционируется как продвинутый инструмент для создания и модификации изображений с использованием ИИ.

Модель разработана командой Google DeepMind, которая активно работает над улучшением возможностей генеративного ИИ. Nano Banana Pro дополняет существующие продукты Google в области искусственного интеллекта, предлагая пользователям новые способы работы с визуальными данными. Хотя подробности о технических характеристиках пока ограничены, сам факт анонса указывает на расширение функционала экосистемы Gemini.

by meetpateltech • 20 ноября 2025 г. в 15:04 • 1214 points

Оригинал • HN

#gemini #google-deepmind #llm #image-generation #synthid

Комментарии (645)

Google выпустил Nano Banana Pro, но не смог обеспечить доступ к API, что вызвало недовольство разработчиков.
Модель демонстрирует улучшенную точность текста и способность к генерации инфографик, но остаётся неясным, как именно она обрабатывает изображения.
SynthID, как и ожидалось, не решает проблему идентификации ИИ-контента, а лишь маркирует изображения, что вызывает вопросы о возможности его обхода.
Несмотря на то, что Google продолжает доминировать в качестве изображений, его стратегия ведения бизнеса вызывает всё большее раздражение.

WeatherNext 2: Our most advanced weather forecasting model (blog.google) 🔥 Горячее

Google DeepMind представила WeatherNext 2, свою самую передовую модель прогнозирования погоды. Новая ИИ-система обеспечивает более эффективные, точные и высокоразрешающие глобальные прогнозы по сравнению с предыдущими методами. Модель способна обрабатывать огромные объемы метеорологических данных и предсказывать погодные условия с повышенной точностью в различных регионах мира.

WeatherNext 2 использует передовые нейросетевые архитектуры для анализа исторических и текущих данных о погоде, что позволяет делать прогнозы на более длительные периоды с меньшими вычислительными затратами. По словам разработчиков, модель превосходит традиционные методы точности прогнозирования экстремальных погодных явлений, таких как ураганы и сильные дожди, что может помочь в принятии решений в области сельского хозяйства, энергетики и управления чрезвычайными ситуациями.

by meetpateltech • 17 ноября 2025 г. в 15:04 • 273 points

Оригинал • HN

#google #google-deepmind #artificial-intelligence #neural-networks #machine-learning #weather-forecasting #data-analysis

Комментарии (123)

Google представил WeatherNext 2 — модель для прогнозирования погоды, генерирующую сценарии в 8 раз быстрее с повышенным разрешением.
Пользователи отмечают низкую точность стандартных приложений (Google, Apple), особенно в прогнозах осадков и температуры.
Ключевая особенность ведущих моделей (включая WeatherNext) — обучение с CRPS-функцией потерь и добавлением случайного шума для улучшения прогнозов.
Исторически прогнозы часто были неточными, но оставались необходимыми для планирования (аналогия с военными временами).
Альтернативные сервисы (Windy, Dark Sky) и сравнение моделей (ECMWF, GFS) предлагаются для более точных данных.

New prompt injection papers: Agents rule of two and the attacker moves second (simonwillison.net)

Представлены две новые работы по безопасности LLM и инъекциям промптов. В статье "Agents Rule of Two" от Meta предлагается принцип, согласно которому ИИ-агенты могут одновременно обладать не более чем двумя из трёх свойств: обработкой ненадёжных входных данных, доступом к чувствительным системам или возможность изменять состояние или внешне взаимодействовать. Если требуются все три, агент должен находиться под контролем. Этот подход расширяет концепцию "смертельного трио", добавляя риски изменения состояния, а не только кражи данных.

Второй документ "The Attacker Moves Second" от исследователей OpenAI, Anthropic и Google DeepMind демонстрирует, что 12 опубликованных систем защиты от инъекций и побега из "тюрьмы" модели успешно обойдены в 90% случаев с помощью адаптивных атак. Особенно впечатляет результат "красной команды" из 500 человек, достигший 100% успеха. Авторы подчёркивают, что статичные примеры атак практически бесполезны для оценки защиты — эффективны лишь адаптивные методы с многократной итерацией для поиска уязвимостей.

by simonw • 02 ноября 2025 г. в 23:11 • 77 points

Оригинал • HN

#llm #prompt-injection #ai-security #meta #openai #anthropic #google-deepmind #adaptive-attacks #security-research

Комментарии (30)

Продолжается обсуждение безопасности LLM: отсутствие трекинга загрязнённых данных, отсутствие моделей в продакшене, и отсутствие трекинга токенов в промпте и т.д.
Участники обсуждают, что LLM не могут быть безопасными, если они не могут отличить вредоносный ввод от обычного, и что это делает невозможным для пользователей проверять, что именно они делают.
Поднимается вопрос, что если LLM не может быть безопасным, то как они могут быть использованы в критичных системах, и что это значит для будущем развитии ИИ.
Обсуждается, что вместо того, чтобы пытаться сделать LLM безопасным, было бы лучше сосредоточиться на создании инструментов и практик, которые позволяют LLM быть использован безопасно.

Reasoning LLMs are wandering solution explorers (arxiv.org)

Исследователи из Google DeepMind и Университета Монреаля показали, что современные LLM не используют формальное рассуждение, а вместо этого ищут решение в пространстве возможных решений. Это открытие ставит под сомнение саму идею, что масштабные языковые модели "рассуждают" как люди.

Команда обучила модель, которая решает задачи, используя цепочку мыслей, и другую, которая не использует. Оказалось, что вторая модель достигает такой же точности, как и первая. Это показывает, что LLM не используют формальное рассуждение, а вместо этого ищут решение в пространстве возможных решений. Исследование также показало, что модели становятся менее уверенными в своих ответах, когда задачи становятся сложнее.

by Surreal4434 • 10 октября 2025 г. в 04:40 • 84 points

Оригинал • HN

#large-language-models #llm #artificial-intelligence #machine-learning #google-deepmind #university-of-montreal #chain-of-thought #explainable-ai #arxiv

Комментарии (79)

Обсуждение показало, что LLM не «рассуждают», а лишь сглаживают контекст, и что «цепочка мыслей» не более чем маркетинговый термин.
Участники подчеркнули, что вместо поиска решения модель выдает токены до тех пор, пока не сгенерится выглядящий правильным ответ, и что это не исследование пространства решений, а его выборка.
Сообщество отметило, что в отсутствии прозрачности внутреннего состояния LLM, невозможно достоверно оценить или обеспечить корректность его выводов, что ставит под сомнение саму идею «объяснимого ИИ».
Участники также обсудили, что вопрос остается открытым, какие именно задачи могут быть решены с помощью LLM, и что такое «рассуждение» и как его измерять.

'World Models,' an old idea in AI, mount a comeback (quantamagazine.org)

Мир внутри ИИ
Полвека назад «модели мира» были фундаментом ИИ: система хранила внутреннюю копию окружения и планировала действия, прогоняя возможные будущие. С приходом больших данных и LLM идея ушла в тень, но теперь возвращается как ключ к AGI.

Почему снова актуально

Проблема LLM: они предсказывают слова, а не последствия; не умеют планировать и обобщать.
Плюс модели мира: позволяет «воображать» сцены, тестировать действия безопасно, переносить знания в новые задачи.
Сдвиг в масштабе: современные нейросети могут обучать модели с миллионами параметров на видео и симуляциях, чего раньше не хватало.

Как строят сегодня

Видеопредсказание: нейросети, обученные на YouTube, генерируют следующие кадры и учатся физике столкновений, трения, гравитации.
Игра в уме: агенты Dreamer и MuZero учатся в «галлюцинациях» без внешнего мира, экономя время и энергию.
Композиция знаний: новые архитектуры объединяют языковые модели с пространственными представлениями, позволяя отвечать «что будет, если…».

Где уже работает

Роботы-манипуляторы от Google DeepMind учатся складывать блоки, «прокручивая» будущее в голове.
Дроны и автономные машины используют модели мира для планирования траекторий в сложной местности.
Генеративные видео-системы (Sora, Veo) не просто рисуют картинки, а моделируют физику сцены.

Ограничения и риски

Пока модели мира хрупки: ошибаются в редких событиях и плохо переносятся между доменами.
Требуют огромных данных и вычислений.
Открыты вопросы безопасности: если ИИ «воображает» опасные сценарии, кто контролирует, что он не начнёт их реализовывать?

Вывод
Модели мира — не серебряная пуля, но без них путь к универсальному ИИ выглядит тупиковым. Следующий прорыв может случиться, когда языковые модели научатся не только говорить, но и «видеть» последствия своих слов.

by warrenm • 02 сентября 2025 г. в 16:53 • 183 points

Оригинал • HN

#llm #world-models #neural-networks #ag #reinforcement-learning #dreamer #muzero #google-deepmind #generative-ai

Комментарии (67)

Современные шахматные движки всё ещё опираются на полную реализацию логики игры и глубокий перебор, но уже используют нейросети для оценки позиций.
Попытки заменить это «чистыми» нейромоделями приводят к невалидным ходам и глупым ошибкам, если нет явной проверки правил.
Участники подчёркивают, что мир «в голове» ИИ должен быть неполным и постоянно корректироваться по новым данным, иначе возникает фрейм-проблема.
Обсуждаются альтернативы: гауссовы сплэттинги, пользовательские грамматики, солипсистические модели, но все они либо узки, либо требуют ручной настройки.
Итог: пока нет универсального способа построить надёжную world-model; нужен гибрид символики, нейросетей и постоянной адаптации.

Google's Genie is more impressive than GPT5 (theahura.substack.com)

AGI стремится к универсальности, но нельзя просто import everything. Решение — компрессия и обобщение: небольшая модель покрывает огромное пространство задач. Глубокое обучение сжимает терабайты данных в десятки гигабайтов весов, и LLM не только имитируют текст, но и умеют, например, играть в шахматы без явного обучения.

Следующий шаг — world-models, способные представлять не только текст и картинки, но и всю окружающую реальность. Такая модель могла бы «смоделировать Тибет» и сообщить погоду, а робот — планировать движения, опираясь на внутреннюю симуляцию мира. Проблема в колоссальном объёме видеоданных и вычислений, поэтому мало кто рискует.

Google DeepMind рискнул: три дня назад представил Genie 3 (Generative Interactive Environments). Если GPT создаёт текст, Veo и Sora — видео, то Genie превращает описание в интерактивную видеоигру, где можно бродить минутами. Пока коротко, но это качественный скачок и намёк на будущее, где модели будут поддерживать длинную когерентность не только в тексте, но и в «живых» мирах.

by theahura • 08 августа 2025 г. в 14:46 • 177 points

Оригинал • HN

#agi #google-deepmind #genie #llm #world-models #deep-learning #machine-learning #google

Комментарии (58)

Пользователи высмеяли идею «стимулировать Тибет» вместо обычного запроса погоды.
Рынки ставок и графики вызвали споры: одни видят рост ожиданий Gemini-3, другие указывают, что Gemini 2.5 уже выше GPT-5 в бенчмарке.
Многие считают статью пустой и отказываются верить демо, пока Genie 3 не станет публично доступен.
Обсуждение свелось к тому, что ни GPT-5, ни Gemini пока не близки к AGI, а термин «AGI» постоянно меняется под маркетинг.