Комментарии (93)
- OpenAI модель часто искажает лица и детали, придавая изображения оранжевый оттенок, что воспринимается как недостаток.
- Оценка качества генерируемых изображений субъективна: пользователи спорят о приоритетах (реализм vs стиль, цвета), что затрудняет объективное сравнение моделей.
- Gemini склонен возвращать изображения без изменений, Seedream поддерживает высокое разрешение, но меняет цветовую палитру, NanoBanana эффективен при условии совпадения стилей.
- Текущие ИИ-инструменты для редактирования изображений имеют ограничения и не всегда точно следуют запросам, что требует от пользователей адаптации и экспериментов.
- Появление генеративного ИИ вызывает дискуссии о будущем профессий художников и иллюстраторов, но мнения разделяются: одни видят угрозу, другие — эволюцию инструментов.
Benchmarking leading AI agents against Google reCAPTCHA v2
Исследователи протестировали три ведущие AI-модели на способность решать Google reCAPTCHA v2. Claude Sonnet 4.5 показал лучший результат с 60% успешных решений, немного обогнав Gemini 2.5 Pro (56%). GPT-5 значительно отстал с результатом всего 28%, что связано с его долгим и медленным процессом рассуждений, приводящим к постоянным тайм-аутам. Тесты показали, что производительность сильно зависит от типа CAPTCHA: все модели лучше справлялись со статичными заданиями и хуже всего — с кросс-тайл задачами.
Анализ выявил, что GPT-5 страдал от избыточных и навязчивых рассуждений, генерируя больше "мыслительных" токенов и постоянно редактируя свои решения. Эта проблема усугублялась плохим планированием и верификацией. В отличие от этого, Claude и Gemini демонстрировали более сбалансированный подход. Исследование подчеркивает, что в агрессивных средах с реальным временем выполнения скорость принятия решений так же важна, как и глубина рассуждений — иногда переосмысление приводит к такому же провалу, как и недостаток анализа.
Комментарии (76)
- Обсуждение показало, что современные модели всё ещё плохо справляются с задачами вроде cross-tile и reload, что подчеркивает ограничения текущих LLM в распознавании объектов и их границ.
- Участники отметили, что Google reCAPTCHA влияет на поведение пользователей, включая задержки в ответах, что может влиять на точность.
- Обсуждение подняло вопрос о том, что в будущем CAPTCHA может исчезнуть, если ИИ станет достаточно продвинутым, что ставит под вопросом саму необходимость CAPTCHA.
- Участники обсудили, что вместо CAPTCHA можно было бы использовать более дружественные к пользователю методы, такие как двухфакторная аутентификация или анализ поведения, которые были бы менее исключающими.
Poker Tournament for LLMs 🔥 Горячее 💬 Длинная дискуссия
PokerBattle.ai представляет собой первый в истории турнир по покеру с реальными денежными призами, специально созданный для соревнования больших языковых моделей (LLM). Это инновационное событие позволяет ИИ-системам проявить свои стратегические способности в одной из самых сложных интеллектуальных игр, где успех зависит не только от математических расчетов, но и от психологических аспектов и блефа. Турнир загружает данные о событиях, что указывает на его активный характер или недавнее проведение.
Уникальность этого мероприятия заключается в том, что оно впервые объединяет мир покера с передовыми технологиями ИИ, создавая новую платформу для оценки и развития возможностей языковых моделей. Организаторы стремятся определить, какие из современных LLM способны демонстрировать наилучшую игровую стратегию, адаптивность и способность к принятию решений в условиях неопределенности. Денежные призы добавляют соревнованиям серьезности и привлекают внимание как исследователей ИИ, так и энтузиастов покера со всего мира.
Комментарии (181)
- ИИ демонстрируют ошибки в оценке рук (например, LLAMA ошибочно определила топ-пару), что указывает на текущие ограничения в понимании игры.
- Эксперимент критикуется за недостаток данных (714 рук у Meta LLAMA) и отсутствие возможности для ИИ развивать новые стратегии со временем.
- Предлагается улучшить тестирование, добавив "трэш-ток" и возможность блефа между ИИ, что сделало бы наблюдение более интересным и показательным.
- ИИ часто "галлюцинируют", принимая неверные решения (как Gemini, сдавшая сильную руку), что связано с неправильной оценкой силы руки в текущей ситуации.
- Шутливые предложения по тестированию включают попытки обмана ИИ через подсказки ("игнорируй предыдущие инструкции").
Gemini 3.0 spotted in the wild through A/B testing 🔥 Горячее 💬 Длинная дискуссия
Gemini 3.0, новейшая модель от Google, стала доступна через A/B тестирование в AI Studio. Пользователи могут сравнивать её производительность с Gemini 2.5 Pro. В качестве теста использовалась генерация SVG-изображений — например, геймпада Xbox. Это неплохой прокси-тест на качество модели, так как подобные задачи требуют точного следования инструкциям, строгого соблюдения структуры SVG и понимания концептуальных элементов.
Генерируемое изображение контроллера Xbox от Gemini 3.0 оказалось значительно качественнее, чем у конкурента. Хотя время до первого токена (TTFT) у Gemini 3.0 было на 24 секунды больше, а вывод — на 40% длиннее (включая дополнительные рассуждения в токенах), результат явно демонстрирует превосходство новой модели.
Этот случай демонстрирует, что даже в режиме A/B-тестирования, без прямого доступа, сообщество может эффективно оценивать и сравнивать новые модели. Для команд, занимающихся разработкой ИИ, это отличный пример того, как можно проводить быстрые итеративные тесты на реальных задачах.
Источник: Rick Lamers' blog
Комментарии (253)
- Разные пользователи отмечают, что Gemini 2.5 Pro лучше всего подходит для их задач, но при этом Google не предоставляет удобного CLI-интерфейса, а встроенный в Google AI Studio «режим 2.5 pro» оказывается худшим вариантом.
- Участники обсуждения подтверждают, что Gemini 2.5 Pro действительно превосходит ChatGPT и другие модели в задачах, требующих большого контекста, но при этом страдает от «залипания» в длинных диалогах и плохо справляется с инструментами.
- Некоторые разработчики отмечают, что Gemini 3.0 пока не решает проблему «залипания» и не предоставляет удобного CLI, что делает его менее привлекательным для разработчиков.
Run interactive commands in Gemini CLI
В предоставленном фрагменте содержится только навигационная структура сайта Google Developers Blog и заголовок статьи "Say hello to a new level of interactivity in Gemini CLI", но отсутствует основной текст публикации.
Заголовок указывает на анонс обновлений для Gemini CLI, повышающих уровень интерактивности, но конкретные детали, функции или улучшения в тексте не раскрыты. Статья доступна на нескольких языках, включая английский, испанский, индонезийский, японский, корейский, португальский и китайский.
Для создания точного пересказа требуется полный текст статьи с описанием новых возможностей Gemini CLI.
Комментарии (69)
- Пользователи жалуются на ненадёжность Gemini CLI: модель часто отказывается читать файлы вне проекта, путает
\nи\n\n, а иногда и вовсе не может запустить интерактивную оболочку без дополнительного убеждения. - Сообщество отмечает, что в отсутствии нормального MCP-протокола Gemini CLI уступает не только в UX, но и в надёжности: «по факту ты просто запускаешь процесс в псевдотерминале и смотришь стрим — без TUI-модели и без встроенного логгера снимков состояния».
- Несколько участников подтверждают, что даже базовые сценарии вроде
git logилиgit diffзаставляют модель «залипать» и требуют ручного перезапуска. - Наблюдается общее чувство, что Google недооценивает как саму модель, так и экосистему вокруг неё: «Почему до сих пор нет нормального логгера, нормального MCP-сервера, нормального линтера или хотя бы нормального линтера?»
- Наконец, вопрос о лицензии: «кто владеет "сериализованными" терминальными сессиями, которые Google выгружает в облако?»
CodeMender: an AI agent for code security
Google DeepMind представила CodeMender — ИИ-агента для повышения безопасности кода. Он использует новейшие модели Gemini для автоматического обнаружения и исправления уязвимостей в программном обеспечении. Система способна анализировать код в реальном времени, предлагая исправления ещё до попадания ошибок в продакшен.
CodeMender интегрируется в процесс разработки, снижая риски кибератак и ускоряя выпуск надёжных приложений. Это часть более широкой стратегии Google по внедрению ИИ в инструменты для программистов, что может значительно сократить затраты на аудит и повысить общую устойчивость цифровой инфраструктуры.
Комментарии (26)
- Опасения по поводу потенциальной гонки вооружений между ИИ, создающим уязвимости в библиотеках, и ИИ, пытающимся их обнаружить и исправить.
- Критика подхода к анонсам ИИ-инструментов (например, CodeMender), которые представлены как готовые продукты, но фактически находятся на стадии исследования и недоступны широкой публике.
- Скептицизм относительно недостатка технических деталей и излишней помпезности в анонсах, а также скрытности вокруг обучения и возможностей ИИ.
- Оптимизм в отношении того, что автоматизированное тестирование и исправление уязвимостей может сделать защиту проще, чем атаку, в будущем с широким внедрением ИИ.
- Обсуждение практических проблем безопасности, включая неравенство в навыках атакующих и защищающихся, и необходимость проверки происхождения инструментов в ненадежных средах.
Gemini 3.0 Pro – early tests
Социальная сеть X (ранее Twitter) требует включённого JavaScript для работы. При его отключении пользователь видит сообщение о необходимости активировать JavaScript или сменить браузер на поддерживаемый, со ссылкой на список совместимых браузеров.
Также упоминается, что проблемы могут вызывать расширения для приватности — их советуют отключить. Внизу страницы приведены стандартные ссылки на условия использования, политики и информацию о рекламе.
Комментарии (109)
- Критика отсутствия у Google сильной продуктовой культуры, что мешает созданию инновационных продуктов на основе их же технологий.
- Обсуждение субъективности сравнения моделей ИИ (Gemini, GPT, Claude) и сложности объективной оценки из-за различий в задачах и опыте пользователей.
- Скептицизм по поводу рекламных кампаний и хайпа вокруг новых моделей, которые часто не соответствуют реальным возможностям.
- Подчеркивание проблем Gemini с многократным выполнением инструкций и склонностью к "зацикливанию" по сравнению с конкурентами.
- Отмечается сильная мультимодальность Gemini (работа с изображениями, видео), но сложность доступа и использования продуктов Google AI.
The RAG Obituary: Killed by agents, buried by context windows
RAG-архитектура, доминировавшая в AI последние три года, уступает место новым подходам. Ранние модели вроде GPT-3.5 ограничивались 4–8 тыс. токенов, что делало невозможной работу с объёмными документами — например, отчёт SEC 10-K содержит ~51 тыс. токенов. RAG решал это через разбиение текста на фрагменты (чанки) и поиск релевантных частей, но даже продвинутые методы чанкинга не спасали от потери контекста: финансовые таблицы, сноски и связи между разделами разрушались.
Современные модели с контекстом в миллионы токенов (например, Gemini 1.5) и агентные архитектуры делают RAG избыточным. Зачем извлекать фрагменты, если можно загрузить весь документ целиком? Это устраняет проблемы чанкинга, эмбеддингов и повторного ранжирования. Ключевой вывод: эра компромиссов между точностью и контекстом заканчивается — будущее за системами, работающими с полными данными без промежуточных шагов.
Комментарии (150)
- Участники критикуют автора за чрезмерное обобщение: утверждение о "смерти RAG" основано на узком примере поиска в коде и не учитывает масштабируемость и другие сложные use-case'ы (например, миллионы документов в распределенных системах).
- Подчеркивается, что RAG — это общий паттерн (извлечение информации + обогащение контекста), а не только векторный поиск; grep, SQL, API-вызовы или использование агента с инструментами — это тоже формы RAG.
- Отмечается, что агентный поиск (с использованием инструментов вроде grep, BM25 и др.) может быть мощнее классического RAG, но он медленнее, дороже и сложнее из-за множественных вызовов функций.
- Указывается, что большие контекстные окна LLM позволяют им читать целые файлы, что меняет workflow и снижает необходимость в сложных пайплайнах чанкинга и эмбеддингов.
- Многие видят иронию в том, что автор называет RAG "кошмаром edge-кейсов", в то время как агентный подход с инструментами вроде grep introduces свои сложности (производительность, безопасность, детерминизм).
Show HN: Sculptor – A UI for Claude Code
Sculptor — это интерфейс для параллельной работы нескольких экземпляров Claude Code в изолированных контейнерах, позволяющий мгновенно переключаться между их средами для тестирования изменений. Он предлагает предложения, которые выявляют критические проблемы по мере написания кода, сохраняя контроль за архитектором.
Инструмент поддерживает традиционный инженерный подход: вы формулируете идеи, а ИИ-агенты занимаются реализацией. Это ускоряет разработку без потери качества, сочетая креативность человека с эффективностью автоматизации.
Комментарии (68)
- Пользователи делятся положительным опытом использования Sculptor для разработки, отмечая удобство параллельной работы и локального выполнения кода в изолированных контейнерах.
- Обсуждаются технические детали работы инструмента: использование контейнеров, поддержка различных моделей ИИ (Claude Code, GPT, Gemini), интеграция с devcontainer и выполнение тестов.
- Высказываются пожелания по расширению функционала: поддержка других языковых моделей и агентов, веб-версия, тёмная тема, настройка переменных окружения.
- Команда разработчиков поясняет план развития: открытие исходного кода, бесплатность для личного использования и возможные платные тарифы для бизнеса в будущем.
- Участники проводят сравнение с аналогичными инструментами (Terragon, Conductor, VibeKit), отмечая различия в подходе к коллаборации и интеграции.
Improved Gemini 2.5 Flash and Flash-Lite 🔥 Горячее 💬 Длинная дискуссия
Google выпустила обновлённые версии моделей Gemini 2.5 Flash и Flash-Lite, предлагая улучшенную производительность и эффективность. Эти модели оптимизированы для быстрой обработки запросов и снижения задержек, что делает их идеальными для приложений, требующих мгновенных ответов, таких как чат-боты и голосовые помощники.
Обновления включают повышение точности и снижение потребления ресурсов, что позволяет разработчикам интегрировать ИИ в продукты с ограниченными вычислительными мощностями. Это особенно важно для мобильных устройств и edge-устройств, где эффективность играет ключевую роль.
Комментарии (263)
- Пользователи отмечают проблемы с надежностью Gemini: обрывы ответов, непредсказуемое поведение, высокая частота ошибок и галлюцинаций.
- Многие критикуют запутанную систему версионирования моделей Google, где обновления не отражаются в номере версии (например, новый 2.5 вместо 2.6), что вызывает путаницу.
- Обсуждаются сильные стороны Gemini 2.5 Flash: высокая скорость, низкая стоимость и хорошая работа со структурированными данными, но отмечаются ограничения по длине ответа.
- Часто упоминается раздражающее поведение Gemini в приложении: навязывание и автовоспроизведение YouTube-видео в ответах, от которого нельзя отказаться.
- Пользователи сравнивают Gemini с конкурентами (OpenAI, Anthropic, Grok), отмечая ее преимущества в цене и latency, но уступающую в качестве и интеллекте моделей.
Комментарии (63)
- Пользователи отмечают высокую полезность инструмента для автоматизации сбора данных и исследований, экономящей сотни часов ручного труда, особенно в B2B-сегменте и венчурном капитале.
- Поднимаются вопросы о технических ограничениях: переусложнение простых задач, неполное извлечение данных с некоторых источников, проблемы с интерпретацией запросов и необходимость ручного вмешательства для уточнения.
- Обсуждаются особенности архитектуры и UX: текстовый браузер с постоянным контекстом, интерактивный контроль над агентом, важность прозрачности процесса и возможность совместной работы в реальном времени.
- Высказываются опасения по поводу соблюдения правил сканирования (robots.txt), законности сбора данных с таких платформ, как LinkedIn и Reddit, а также долгосрочной жизнеспособности модели ценообразования «unlimited».
- Разработчики делятся техническим стеком (NextJS, NodeJS, Gemini 2.5 Flash, Firecrawl) и планами по улучшению, включая лучшую классификацию задач, навигацию по пагинации и более четкое различие с конкурентами.
Zed's Pricing Has Changed: LLM Usage Is Now Token-Based
Zed переходит с помесячных лимитов на промпты на токен-ориентированную модель оплаты для использования ИИ-функций. Базовая подписка Pro теперь стоит $10 вместо $20 и включает $5 кредита на токены, а дополнительное использование тарифицируется по цене API-провайдеров плюс 10% надбавки. Также добавлены новые модели: GPT-5, Gemini 2.5 и Grok 4.
Это изменение отражает реальные затраты на запуск ИИ и устраняет несоответствие, когда простой запрос стоил столько же, сколько сложная задача. Пользователи получают больше гибкости и прозрачности, а Zed может устойчиво развивать редактор. Текущим клиентам даётся три месяца на переход, предлагаются альтернативы вроде своих API-ключей или локальных моделей.
Комментарии (143)
- Пользователи выражают разочарование переходом Zed на токенную модель ценообразования, считая её сложной для прогнозирования затрат и неудобной по сравнению с фиксированной подпиской.
- Многие отмечают, что встроенные AI-функции Zed, особенно предсказание правок, уступают конкурентам (Cursor, Claude Code), и предпочитают использовать внешние сервисы со своими API-ключами.
- Поднимаются вопросы доступности редактора (отсутствие поддержки скринридеров) и его стабильности (баги, зависания при работе с большими файлами или проектами).
- Высказываются опасения, что токенная модель создаёт неверные стимулы для разработчиков и неустойчива как бизнес-модель для посредников между пользователем и провайдерами LLM.
- Часть пользователей положительно оценивает снижение стоимости базовой подписки и возможность поддержать разработку Zed, не переплачивая за неиспользуемые AI-функции.
CompileBench: Can AI Compile 22-year-old Code?
Современные ИИ-модели демонстрируют впечатляющие способности в генерации кода, но сталкиваются с серьёзными трудностями при работе с реальными задачами компиляции — устаревшими инструментами, зависимостями и кроссплатформенной сборкой. CompileBench протестировал 19 моделей на 15 практических заданиях, включая сборку проектов вроде curl и jq, компиляцию под Windows/ARM64 и даже оживление 22-летнего кода 2003 года. Некоторые агенты выполняли до 135 команд за 15 минут для получения рабочего бинарного файла.
Anthropic модели Claude Sonnet и Opus заняли лидирующие позиции по успешности сборки, подтверждая свою репутацию среди разработчиков. OpenAI модели, особенно GPT-5-mini, показали лучшую ценовую эффективность, балансируя между скоростью и качеством. Gemini от Google неожиданно провалился: модели часто игнорировали спецификации задач, например, создавали динамические вместо статических сборок, несмотря на чёткие требования.
Комментарии (55)
- Сложность сборки и кросс-компиляции legacy-проектов (Chocolate Doom, curl) на современных системах, включая ARM64.
- Способность ИИ (особенно Claude Opus) автоматически исправлять ошибки сборки, хотя процесс может занимать много времени и команд.
- Предложения расширить бенчмарки более сложными проектами (FFmpeg, Chromium, Qt) и проверкой корректности через тесты и санитайзеры.
- Скептицизм относительно способности ИИ гарантировать корректность итогового бинарного кода после автоматических правок.
- Практическая ценность автоматизации рутинных задач по настройке toolchain и портированию старого кода.
60 years after Gemini, newly processed images reveal details
Спустя 60 лет после миссий «Джемини» заново обработанные изображения раскрывают невероятные детали. Новая книга «Gemini & Mercury Remastered» оживляет эти исторические миссии с помощью 300 тщательно восстановленных фотографий.
Автор Энди Сондерс объясняет важность проекта: это возвращение к истокам космических исследований, когда человечество впервые смогло покинуть Землю. Миссии «Меркурий» и «Джемини» использовали более простые камеры по сравнению с Apollo, но каждая фотография документирует начало нашей экспансии в космос.
Сондерс подчеркивает смелость первых астронавтов, рисковавших жизнью во время опасных полетов. Эти изображения не только фиксируют исторические моменты, но и напоминают о храбрости пионеров космоса.
Комментарии (71)
- Пользователь восхищается качеством аналоговой фотографии (средний формат, Hasselblad) и считает, что смартфоны и цифровые камеры бюджетного сегмента ему пока не соответствуют.
- Обсуждается путаница в названиях: проект Gemini NASA (1960-е) не имеет отношения к модели ИИ Google Gemini, но связан с интернет-протоколом с таким же именем.
- Уточняется, что проект Gemini был второй программой NASA по пилотируемым полетам и предшествовал миссии Apollo.
- Упоминается, что одна из миссий Gemini (Gemini 5) длилась почти 14 дней, что впечатляет с учетом крошечных размеров капсулы.
- Шуточная реплика о том, что 1965 год был "две недели назад", обыгрывает недавнее завершение миссии в хронологии обсуждения.
- Дается этимологическая справка: название Gemini происходит от латинского "близнецы" и отсылает к мифологическим Диоскурам.
- Отмечается, что порт протокола Gemini — 1965, но это число еще не официально зарегистрировано в IANA.
The effects of algorithms on the public discourse
Мы поменяли блоги на чёрные ящики и теперь расплачиваемся.
Интернет стал одной бесконечной лентой в закрытых приложениях. Люди исчезли, остались алгоритмы, продающие «вовлечение». Пример: в Instagram почти всё, что вы видите, — не ваш выбор, а выбор машины. Контекст исчез: миллионы незнакомцев в одном котле ругаются за пост, который не поняли. Это размывает смысл и убивает нишевые сообщества.
Как вернуть человечность:
- Читайте RSS-ленты и блоги на BearBlog, Neocities, Write.as.
- Используйте Invidious, Nitter, Libreddit вместо официальных клиентов.
- Создавайте html-страницы, пишите в gemini-сети, сидите в Mastodon и Matrix.
- Делайте закладки вручную, заводите «клубы по интересам» вне алгоритмов.
Перестаньте быть «средним пользователем» — станьте куратором собственного интернета.
Комментарии (74)
- Алгоритмы убили «старый» текстовый интернет: блоги и форумы вытеснены видео и лентами с лайками.
- Кто хочет убрать алгоритм — возвращается к RSS, e-mail-рассылкам, узким форумам и чатам.
- Проблема не в количестве подписчиков, а в открытом поиске: мейнстрим-площадки прячут хронологию и усиливают «рекомендации».
- Религиозные и хоббийные группы показывают, что работает «старомодный» принцип: репутация и сарафан, а не лайки.
- Платные подписки, Gemini, Kagi/Small-Web и домашние RSS-серверы становятся «белыми островами» вне рекламного болота.
Nano Banana image examples 🔥 Горячее 💬 Длинная дискуссия
Коллекция готовых образов
- Собраны минимальные и полные сборки под NanoPi R6S/R6C, Orange Pi 5/5B/5 Plus, Banana Pi BPI-M2S/M2P/M2 Zero, Radxa Zero 3
- Ядро 6.x, U-Boot, Wi-Fi/BT, аппаратное ускорение, Docker, Portainer, Home Assistant, OpenWRT, Kodi, RetroArch, ROS2
- Записать:
dd if=*.img of=/dev/sdX bs=4M status=progress - Логин/пароль: root/1234 или pi/bananapi
Быстрый старт
- Скачать свежий образ из
/releases - Распаковать и записать на SD/SSD
- Вставить, включить, дождаться загрузки
- Подключиться по SSH/IP, сменить пароль
Сборка своего образа
- Установить Docker →
./build.sh board=opi5 flavour=server - Через 15–30 мин появится готовый
.img
Горячие клавиши
armbian-config– сеть, ядро, dtbbananapi-config– overclock, GPIO, камераhtop,armbianmonitor -m– контроль железа
Полезные ссылки
Комментарии (165)
- Nano Banana (Gemini 2.5 Flash) показывает выдающееся качество редактирования и сохранения персонажа, но многие считают примеры «черри-пиком» после десятков попыток.
- Пользователи жалуются на «copy-paste»-эффект, отказы по безопасности и неточности деталей (текст, одежда, пропорции).
- NSFW-контент в демках вызывает споры: примеры с поднятыми юбками и сексуализированными персонажами портят восприятие.
- Модель хороша для прототипов, раскрасок и мемов, но пока требует тщательного промпт-инжиниринга и повторных генераций.
- Технически это не «одна модель», а тюнированный пайплайн Gemini для локального редактирования; открытых весов и полной документации нет.
Комментарии (9)
- Предложены альтернативные проекты (alphaxiv.org, emergentmind.com) и рекомендации по использованию моделей ИИ (Gemini 2.5 Flash).
- Высказаны предложения по улучшению: парсить исходный код LaTeX для точности формул, добавить поддержку Markdown/LaTeX в выводе.
- Обнаружена техническая проблема с обработкой ArXiv ID, содержащих прямой слэш.
- Запрос на добавление короткого демо-ролика и функции выделения конкретных фрагментов текста в ответах.
- Выражена положительная оценка проекта, особенно за возможность ссылаться на конкретные страницы PDF.
Комментарии (38)
- Методика Cloudflare (по Referer) фиксирует только переходы по ссылкам, поэтому сильно завышает долю Google и не видит внутри-LLM-запросы.
- Пользователи массово переключаются на ChatGPT, Gemini и Claude для сложных запросов, но это не отражается в статистике.
- В списке отсутствуют Китай, Япония и большинство стран Азии, где Google не доминирует.
- Даже в США доля Bing выше, чем в среднем, а в России и Чехии лидируют Яндекс и Seznam.
- Нишевые поисковики вроде Kagi и DuckDuckGo практически незаметны в данных из-за малой аудитории и особенностей приватности.
Agent Client Protocol (ACP) 🔥 Горячее
Agent Client Protocol (ACP) — единый стандарт связи между редакторами кода и агентами-разработчиками на базе ИИ.
Протокол в разработке, но уже позволяет строить полезные интеграции.
Зачем ACP?
- Редакторы и агенты сейчас жёстко связаны: каждая пара требует собственной интеграции.
- Это → лишние затраты, ограниченная совместимость и привязка к конкретным интерфейсам.
ACP, как LSP для языковых серверов, развязывает стороны: агент, реализовав ACP, работает во всех совместимых редакторах, а редактор, поддерживающий ACP, получает доступ ко всей экосистеме агентов.
Как устроено
- Агент запускается как подпроцесс редактора.
- Обмен — JSON-RPC через stdio.
- Используются типы MCP, дополнены собственными (например, для диффов).
- Текст для пользователя — Markdown, без необходимости HTML.
Поддержка
Редакторы:
- Zed
- neovim (через плагин CodeCompanion)
Агенты:
- Gemini
- Скоро — ещё.
Комментарии (88)
- Предложен новый протокол (ACP) для связи агентов-ИИ с IDE/редакторами, плюс библиотеки на Node, Python, Rust и сайт.
- Название ACP вызывает путаницу с уже существующим agentcommunicationprotocol.dev и IBM/Google A2A.
- Некоторые считают, что достаточно расширить LSP или MCP, другие предлагают «Neovim внутри Claude Code», а не наоборот.
- Уже есть первые реализации для Claude Code и Zed, но остаются проблемы с поиском несохранённых файлов и UI-дифами.
- Обсуждают риск фрагментации стандартов и желание, чтобы любой редактор мог подключиться без переписывания под каждого агента.
SynthID – A tool to watermark and identify content generated through AI
- Gemini
- 2.5 Pro, Flash, Flash Image, Flash-Lite — самые мощные модели
- Gemma
- Gemma 3, 3n и ShieldGemma 2 — лёгкие open-модели
- Генеративные модели
- Imagen, Lyria, Veo — картинки, музыка, видео
- Эксперименты
- Project Astra, Mariner, Gemini Diffusion — прототипы
- Исследования
- Проекты, публикации, новости
- Наука с ИИ
- Биология: AlphaFold, AlphaGenome, AlphaMissense, AlphaProteo
- Климат: WeatherNext, Weather Lab
- Математика: AlphaEvolve, AlphaProof, AlphaGeometry
- Физика/химия: GNoME, Fusion, AlphaQubit
- Прозрачность: SynthID — водяные знаки для ИИ-контента
- О нас
- Новости, карьера, вехи, образование, безопасность, подкаст
Комментарии (65)
- SynthID встрачивает невидимый водяной знак, меняя вероятности токенов при генерации текста.
- Критика: одиночный фрагмент не детектируется, легко обойти конкурентами, редактирование/шум ломает метку.
- Пользователи опасаются потери приватности и ложных срабатываний; спор о том, нужно ли вообще помечать AI-контент.
- Предложены альтернативы: цифровые подписи авторов, C2PA, open-source-детекторы.
- Обсуждается «гонка вооружений» между генераторами и детекторами, а также возможное регулирование.
Gemini 2.5 Flash Image 🔥 Горячее 💬 Длинная дискуссия
-
Gemini 2.5 — Pro, Flash, Flash Image, Flash-Lite
-
Gemma 3 — Gemma 3, 3n, ShieldGemma 2
-
Генеративные модели — Imagen, Lyria, Veo
-
Эксперименты — Project Astra, Mariner, Gemini Diffusion
-
Исследования — проекты, публикации, новости
-
Наука
- Биология: AlphaFold, AlphaGenome, AlphaMissense, AlphaProteo
- Климат: WeatherNext, Weather Lab
- Математика и КС: AlphaEvolve, AlphaProof, AlphaGeometry
- Физика и химия: GNoME, Fusion, AlphaQubit
- Прозрачность: SynthID
-
О нас — новости, карьера, вехи, образование, безопасность, подкаст
Комментарии (452)
- Gemini 2.5 Flash (nano-banana) стал новым «iPhone-моментом» для редактирования картинок: +171 ELO на LM Arena, почти догнал Imagen и gpt-image-1.
- Модель умеет одновременно использовать несколько входных изображений без хаков, быстро работает и дешёво ($0.02), но дороже Flux Schnell.
- Жёсткая безопасность: отказывает в редактировании людей и детей, половина промптов блокируется, что делает продукт бесполезным для фото-ретуши.
- На практике результаты не всегда совпадают с рекламой, иногда «Internal server error» и квоты API, а в Европе доступ ограничен VPN.
- Пользователи радуются быстрому восстановлению старых фото и «фотобаттлам», но боятся deepfake-шантажа и отсутствия контроля над лицами.
Evaluating LLMs for my personal use case
Краткий итог тестов LLM для личных задач
- Цель: найти быструю и дешёвую модель для простых вопросов по Rust, Python, Linux и быту.
- Данные: 130 реальных запросов из
bash-истории, разбитые на программирование, администрирование, объяснения, общие знания. - Платформа: OpenRouter через собственный Rust-клиент
ort. - Тестовые модели: Claude-4 Sonnet, DeepSeek-chat-v3, DeepSeek-r1, Gemini 2.5 Flash/Pro, Kimi-k2, GPT-OSS-120B, Qwen3 235B (обычный и thinking), GLM-4.5, а также Mercury-Coder, Devstral, Qwen3-Coder для кода.
Выводы
- Почти все модели справляются; различия в качестве минимальны.
- Критерии победы: цена и скорость. Запросы стоят доли цента, но латентность варьируется в десятки раз.
- Закрытые модели не лидируют: Gemini Pro самый дорогой и многословный; Flash быстрее всех, но не всегда лучше.
- Режим «рассуждений» почти не нужен, кроме творческих заданий (стихи).
- Победители по категориям
- Программирование: Mercury-Coder (сверхбыстрый диффузионный), DeepSeek-r1, GLM-4.5.
- Сисадмин: Gemini 2.5 Flash.
- Объяснения: Qwen3 235B.
- Общие знания: GPT-OSS-120B.
Инсайт: для рутинных задач выбирайте самую дешёвую и быструю модель, которая «достаточно хороша».
Комментарии (28)
- Google Gemini 2.5 Flash признан «рабочей лошадкой»: быстро, дёшево, мультимодален и способен пережёвывать 100 k запросов за €30.
- Большинство участников жалуются на «сговор» моделей: при творческих задачах 6 из 11 LLM выдают один и тот же ответ, что убивает креатив.
- Локальный запуск: на Mac Mini 64 ГБ уверенно работают модели < 32 B; фаворит — gpt-oss-20b (11 ГБ RAM) и семейство Qwen 3.
- Для выбора «одной на всё» многие выбирают deepseek-chat-v3-0324 как компромисс скорость/цена/качество.
- Трения с API: OpenAI требует KYC, Claude доступен не везде, поэтому кто-то использует Kagi, Perplexity или OpenRouter, чтобы «пощупать» все модели без лишних ключей.
Weaponizing image scaling against production AI systems 🔥 Горячее
-
Суть атаки: при загрузке большого изображения в Gemini CLI, Vertex AI, Google Assistant и др. системы изображение уменьшается до размеров модели. В момент масштабирования скрытые пиксель-инъекции становятся читаемыми как команды, позволяя красть данные или выполнять код без подтверждения пользователя.
-
Пример: в Gemini CLI через Zapier MCP (trust=True по умолчанию) отправка «безобидной» картинки приводит к выгрузке календаря на почту злоумышленника.
-
Масштаб: подтверждены атаки на веб-Gemini, API, Android-Assistant, Genspark и др. UI показывает оригинал, а модель видит уменьшенную версию с инъекцией.
-
Техника: используются алгоритмы downscale (nearest-neighbor, bilinear, Lanczos). Высокочастотные паттерны превращаются в читаемые символы при уменьшении.
-
Anamorpher: опенсорс-утилита для генерации таких «анаморфных» изображений.
-
Защита:
- отключить автоматическое масштабирование или запрашивать подтверждение;
- применять контент-фильтры к уменьшенной копии;
- запретить инлайн-вызовы инструментов без явного согласия;
- внедрить rate-limit и аудит действий агентов.
Комментарии (131)
- Атака заключается в том, что в изображении скрывают текст-команду, который после уменьшения или OCR становится частью промпта и переопределяет поведение модели.
- Проблема усугубляется тем, что современные агент-системы требуют широких прав и не различают «достоверные» и «внешние» инструкции.
- Участники сравнивают это с уязвимостями старых PHP-скриптов и serial-terminals: данные и команды смешаны в одном потоке.
- Предлагаемые защиты — шум перед ресайзом, sandbox-слои, фильтрация текста в картинке, «sudo-токены» и строгое разграничение контекстов — пока не решают проблему полностью.
- Общий вывод: пока LLM не научатся надёжно разделять данные и инструкции, любой внешний вход считается потенциально отравленным.
Pixel 10 Phones 🔥 Горячее 💬 Длинная дискуссия
-
Pixel 10
- 6,2" OLED 120 Гц, Tensor G5, 12 ГБ ОЗУ, 128/256 ГБ, 50 МП + 13 МП, 4575 мА·ч, 27 Вт, IP68, 799 $.
-
Pixel 10 Pro
- 6,7" LTPO 1–120 Гц, 12 ГБ, 256/512 ГБ, 50 МП + 48 МП + 48 МП, 5050 мА·ч, 37 Вт, 999 $.
-
Pixel 10 Pro XL
- 6,9" LTPO, 16 ГБ, до 1 ТБ, 5500 мА·ч, 45 Вт, 1199 $.
Общее
- Gemini Nano 2.0 на устройстве, 7 лет обновлений.
- Дизайн: плоские рамки, новые цвета (Obsidian, Porcelain, Sky, Jade).
- Предзаказ с 8 августа, старт продаж 22 августа.
Комментарии (777)
- Tensor G5 + Gemini Nano запускают Magic Cue локально; это выглядит как то, что Apple обещала, но не выпустила.
- Железо Pixel 10 всё ещё отстаёт по скорости от флагманов на Snapdragon 8 Elite и греется.
- Камерный модуль огромен, 100× «Pro Res Zoom» использует генеративную «доработку» деталей.
- Нет лотка для физической SIM: eSIM только через GMS, что ломает совместимость с LineageOS и GrapheneOS.
- Цены стартуют с $799, но многие считают это дорого и ждут Pixel 10a или скидок на старые модели.
- Проблемы с миграцией данных, стабильностью ПО и отсутствием продаж в большинстве стран остаются.
Imagen 4 is now generally available
- Imagen 4 и Imagen 4 Fast теперь доступны всем через Gemini API.
- Imagen 4 Fast генерирует изображения в 2 раза быстрее и дешевле, чем Imagen 3, без потери качества.
- Imagen 4 — флагманская модель: лучше текст, детали, стилизация; поддерживает 2K разрешение и редактирование (inpainting/outpainting).
- Цены:
- Imagen 4 Fast: $0,03 за изображение 1024×1024.
- Imagen 4: $0,05 за изображение 1024×1024.
- Как начать:
from google import genai client = genai.Client(api_key="YOUR_API_KEY") response = client.models.generate_images( model="imagen-4-fast", prompt="A cat wearing a space helmet on Mars" ) - Доступно в 180+ странах через Google AI Studio и Gemini API.
Комментарии (65)
- Пользователи жалуются, что Imagen 4/Ultra игнорирует детальные промпты: четырёхпанельный комикс не соблюдает ни стиль, ни содержание.
- Сравнения показывают, что «Ultra» не лучше обычной версии, а иногда даже хуже; OpenAI и Copilot дают точнее.
- Документация отсутствует, примеры устарели, а вывод часто «мультяшный» вместо фотореалистичного.
- Сообщество шутит над ошибками, опечатками Google и общим качеством «AI-slop».
LLMs tell bad jokes because they avoid surprises
- Шутка — это неожиданный, но в ретроспективе очевидный поворот.
- Универсально смешного не существует: дети не хватает контекста, профи всё предугадывают.
- LLM обучены минимизировать сюрприз, предсказывая «среднее» мнение; смешного не выходит.
- Больше GPU не помогут: архитектура противоречит юмору.
- То же касается историй: если события предсказуемы — скучно; если не вытекают друг из друга — неправдоподобно.
Комментарии (114)
- Автор статьи утверждает, что LLM плохи в шутках, потому что обучены минимизировать сюрприз; участники спорят, путая ли он «сюрприз» с «невероятностью».
- Некоторые считают, что дело не в модели, а в пост-обработке (safety, RLHF), которая гасит остроумие.
- Другие добавляют: юмор — это ещё доставка, контекст и ошибки мышления, а не просто текст.
- Примеры показывают, что более крупные модели (Gemini 2.5, GPT-4.5) уже умеют быть смешными, если их хорошо спросить.
- Вывод: проблема не в «запрете на сюрприз», а в сложности самого юмора и в текущих ограничениях систем.
Evaluating LLMs playing text adventures
Оценка LLM в текстовых квестах
Сначала мы просто мерили, сколько ходов нужно, чтобы дойти до далёкой цели. Теперь придумали лучше: ставим лимит в 40 ходов и считаем выполненные достижения. Их описываем парой «ключ → фрагмент текста игры». Например, для 9:05:
EXIT_BED → You get out of bedOPEN_DRESSER → revealing some clean
…и так далее. Модель о достижениях не знает; мы просто подсчитываем совпадения. Очки сравниваем между собой, а не считаем абсолютной оценкой.
Результаты (4 игры, 40 ходов)
| Модель | 9:05 | Lockout | Dreamhold | Lost Pig |
|---|---|---|---|---|
| Grok 4 | 86 % | 15 % | 46 % | 33 % |
| Claude 4 Sonnet | 80 % | 30 % | 53 % | 46 % |
| Gemini 2.5 Flash | 80 % | 30 % | 33 % | 46 % |
| Gemini 2.5 Pro | 80 % | 30 % | 40 % | 40 % |
| DeepSeek R1 | 80 % | 23 % | 33 % | 33 % |
| Claude 4 Opus | 73 % | 30 % | 60 % | 46 % |
| gpt-5 Chat | 73 % | 15 % | 53 % | 33 % |
| DeepSeek V3 | 66 % | 23 % | 20 % | 33 % |
| gpt-4o | 53 % | 23 % | 40 % | 40 % |
| Qwen3 Coder | 53 % | 23 % | 40 % | 33 % |
| Kimi K2 | 53 % | 30 % | 46 % | 40 % |
| glm 4.5 | 53 % | 23 % | 33 % | 53 % |
| Claude 3.5 Haiku | 38 % | 15 % | 26 % | 26 % |
| Llama 3 Maverick | 33 % | 30 % | 40 % | 33 % |
| gpt-o3-mini | 20 % | 15 % | 26 % | 26 % |
| Mistral Small 3 | 20 % | 15 % | 0 % | 20 % |
| gpt-4o-mini | 13 % | 23 % | 20 % | 40 % |
Повторные прогоны не делали — дорого.
Комментарии (63)
- Исследование показало, что современные LLM-провайдеры плохо справляются даже с классическими текстовыми квестами, несмотря на доступные онлайн-гайды.
- Участники подчеркивают: ChatGPT-5 — это не одна модель, а роутер, случайно выбирающий модель, что снижает надёжность результатов.
- Критика методики: неясно, просили ли LLM именно проходить игру, а не просто исследовать, и нет сравнения с людьми.
- Большинство считает, что LLM не обладают «моделью мира» и не понимают строгих правил, поэтому не могут системно решать головоломки.
- Некоторые предлагают улучшить подход: давать модели прямой доступ к интерпретатору игры или использовать более точные промпты.
How I code with AI on a budget/free 🔥 Горячее 💬 Длинная дискуссия
Бесплатный AI-стек
Браузер → 15+ вкладок:
- 2-3 × z.ai GLM 4.5 (≈ Claude 4)
- 2 × Kimi K2 (багфиксер)
- Qwen3 Coder, DeepSeek v3/r1
- Google AI Studio + Gemini 2.5 Pro (Flash бесплатно)
- OpenAI Playground (разрешить обучение → бесплатные токены)
- Poe, OpenRouter, ChatGPT, Perplexity, Grok, Phind, lmarena.ai
Claude.ai — редко, т.к. лимиты.
⚠️ Grok: бесплатен, но связан с пропагандой; использовать только для кода.
Умный дешёвый цикл
-
Планирование в веб-чатах
Агенты (Cline, Copilot) «тупят» от лишнего контекста.
→ Задаю вопрос в одном из бесплатных чатов, получаю решение. -
Генерация контекста
AI Code Prep рекурсивно собирает файлы проекта и форматирует:fileName.js: <code>...</code> nextFile.py: <code>...</code> -
Исполнение
Ответ вставляю в Cline/Roo Code; GPT-4.1 спокойно применяет патчи без трат на Claude.
Комментарии (219)
- Автор статьи извинился за устаревший список моделей: теперь фавориты — GLM-4.5, Kimi K2, Qwen3-Coder 480b.
- Участники подтверждают: агенты работают только на самых больших моделях, для простых задач быстрее мелкие.
- Популярны бесплатные веб-чаты: Google AI Studio (Gemini 2.5 Pro), Mistral, DeepSeek, Qwen Chat; лимиты высокие или неограниченные.
- Локальные решения: Continue.dev + Ollama/LMStudio, Cursor CLI, repomix/codemerger для упаковки кода в один файл.
- Некоторые считают всё это слишком сложным и предпочитают писать код вручную или использовать единый инструмент вроде Amazon Q Dev.
Cursor CLI 🔥 Горячее 💬 Длинная дискуссия
- Установка:
npm i -g cursor-cli - Команды:
cursor diff,cursor commit,cursor review,cursor chat - Где работает: VS Code, JetBrains, Android Studio, Ghostty, Warp, Bash
Функции
- Прямые правки кода в терминале
- Реальное управление агентом
- Правила через
.cursorrules,AGENTS.md, MCP
Плюсы
- Последние модели Anthropic, OpenAI, Gemini
- Интеграция в любой IDE
- Скрипты и автоматизация
Комментарии (248)
- Пользователи обсуждают внедрение единого стандарта AGENT.md вместо множества разных файлов.
- CLI-агенты (Claude Code, Cursor CLI и др.) вызывают восторг: удобно держать в фоне, «чувствуешь себя хакером», но UI-IDE теряет значение.
- Критика: непонятно, зачем платить за Cursor, если тот же функционал уже включён в подписку Anthropic/OpenAI; не хватает обратной связи, MCP, hooks и локальных моделей.
- Сторонники Cursor верят в его будущую экосистему (CLI + IDE + GitHub-интеграции) и низкие издержки переключения между моделями.
- Главный вопрос безопасности: доверять ли LLM полный доступ к файловой системе и устанавливать скрипты через curl | bash.
Комментарии (68)
I asked it to create a story that described the modes of the major scale with a cartoon treble clef as the main character.It created a 10 page story that stuck to the topic and was overall coherent. The main character changed color and style on every page, so no consistency there