Gemini 3.0 spotted in the wild through A/B testing 🔥 Горячее 💬 Длинная дискуссия
Gemini 3.0, новейшая модель от Google, стала доступна через A/B тестирование в AI Studio. Пользователи могут сравнивать её производительность с Gemini 2.5 Pro. В качестве теста использовалась генерация SVG-изображений — например, геймпада Xbox. Это неплохой прокси-тест на качество модели, так как подобные задачи требуют точного следования инструкциям, строгого соблюдения структуры SVG и понимания концептуальных элементов.
Генерируемое изображение контроллера Xbox от Gemini 3.0 оказалось значительно качественнее, чем у конкурента. Хотя время до первого токена (TTFT) у Gemini 3.0 было на 24 секунды больше, а вывод — на 40% длиннее (включая дополнительные рассуждения в токенах), результат явно демонстрирует превосходство новой модели.
Этот случай демонстрирует, что даже в режиме A/B-тестирования, без прямого доступа, сообщество может эффективно оценивать и сравнивать новые модели. Для команд, занимающихся разработкой ИИ, это отличный пример того, как можно проводить быстрые итеративные тесты на реальных задачах.
Источник: Rick Lamers' blog
Комментарии (253)
- Разные пользователи отмечают, что Gemini 2.5 Pro лучше всего подходит для их задач, но при этом Google не предоставляет удобного CLI-интерфейса, а встроенный в Google AI Studio «режим 2.5 pro» оказывается худшим вариантом.
- Участники обсуждения подтверждают, что Gemini 2.5 Pro действительно превосходит ChatGPT и другие модели в задачах, требующих большого контекста, но при этом страдает от «залипания» в длинных диалогах и плохо справляется с инструментами.
- Некоторые разработчики отмечают, что Gemini 3.0 пока не решает проблему «залипания» и не предоставляет удобного CLI, что делает его менее привлекательным для разработчиков.
Introduction to Multi-Armed Bandits (2019)
Многорукие бандиты — это классическая задача теории вероятностей и машинного обучения, моделирующая проблему исследования и использования. Агент выбирает из нескольких действий с неизвестными распределениями вознаграждений, стремясь максимизировать суммарный выигрыш. Основная дилемма заключается в балансе между изучением новых вариантов и эксплуатацией уже известных эффективных действий.
Популярные алгоритмы, такие как ε-жадный, UCB и Thompson Sampling, предлагают различные стратегии для решения этой проблемы. Например, UCB использует верхние доверительные границы для оценки потенциальной ценности действий, а Thompson Sampling применяет байесовский подход. Эти методы находят применение в A/B-тестировании, рекомендательных системах и управлении ресурсами, демонстрируя, как оптимальное принятие решений в условиях неопределенности может значительно повысить эффективность систем.
Комментарии (29)
- Применение многоруких бандитов (MAB) для оптимизации контента и выбора действий, с успешными кейсами в продуктах и играх (например, Scrabble, Go).
- Сложности внедрения: проблемы с отчетностью, обучением команд, сохранением независимости данных при A/B-тестировании и управлением состоянием системы.
- Важность четкого определения целевых метрик и компромиссов между ними, а также необходимость понимания преимуществ MAB по сравнению с ручным управлением экспериментами.
- Использование байесовских моделей и иерархических процессов для анализа состояния бандитов и решения проблем стратификации.
- Философская и практическая ценность MAB как метода для принятия решений в условиях неопределенности.
Комментарии (60)
- Пользователи хвалят Statsig как мощную платформу A/B-тестов и аналитики, превосходящую Optimizely и LaunchDarkly.
- Критика лендинга: много маркетинговых слоганов, мало конкретики, поэтому непонятно, за что OpenAI заплатили $1,1 млрд.
- Обсуждают, что Statsig — это «переосмысленная» внутренняя система Meta для экспериментов и роста.
- Вопросы к сделке: возможен антимонопольный контроль, претензии Microsoft к IP, будущее клиентов-конкурентов (Anthropic).
- Внутри OpenAI появится CTO «Applications», что вызывает споры о «инфляции» C-level тайтлов и разделении на «Research» и «Apps».
Building AI products in the probabilistic era
Строим продукты ИИ в эпоху вероятностей
Мы живём в момент, когда инструменты обогнали наши модели их понимания. ИИ изменил саму природу софта: вместо детерминированной функции F: X → Y мы получаем статистическое распределение.
Классическая эра
До ИИ продукты были предсказуемы: нажал «отправить» — сообщение ушло. Именно поэтому вся отрасль строилась на 100 % надёжности: SLO-дэшборды, тесты, аккуратные рефакторинги. PM и дизайн тоже сводились к прокачке воронок с заранее заданными входами и целями.
Новая реальность
С ИИ выход y стал вероятностным: один и тот же промпт может дать разные ответы. Это ломает привычные процессы:
- Инженерия перестаёт быть «написать код → проверить тесты». Теперь нужно управлять распределениями, подбирать промпты, валидировать выборки.
- Продукт больше не сводится к фиксированному набору фич. Модель сама генерирует новые пути ценности, а цели могут меняться по ходу использования.
- Организация требует новых ролей: «prompt engineer», «eval lead», «AI safety analyst».
Что делать
- Отказаться от 100 % SLO. Достаточно 95 % качества при 10× скорости релизов.
- Оценивать не функцию, а распределение. A/B тесты уступают место оценке статистических хвостов.
- Строить обратную связь в цикл. Пользовательские данные теперь не просто метрика, а способ «дообучать» поведение модели на лету.
Точно так же, как раньше победили те, кто принял «нулевую себестоимость» интернета, теперь выиграют команды, которые освоят вероятностное мышление.
Комментарии (97)
- Критики считают статью псевдонаучной: излишнее математическое оформление, «LinkedIn-философия» и игнорирование необходимости детерминизма в критичных системах.
- Автору вменяют ошибку: вероятностная система не является функцией, а «переход к квантовой теории» называют переходом к недетерминизму, а не «вероятностному детерминизму».
- Многие напоминают, что человечество всегда строило гибкие инструменты; жёсткая детерминированность ПО — скорее исключение, и будущее, вероятно, объединит детерминированные обвязки с вероятностными ядрами.
- Ряд участников подчёркивает: текущие LLM-агенты ненадёжны, «GPU-powered bullshit engine» не заменит проверенную инженерную практику, а «переписывать всё каждые три недели» — нереалистично.