Hacker News Digest

Тег: #ab-testing

Постов: 4

Gemini 3.0 spotted in the wild through A/B testing (ricklamers.io) 🔥 Горячее 💬 Длинная дискуссия

Gemini 3.0, новейшая модель от Google, стала доступна через A/B тестирование в AI Studio. Пользователи могут сравнивать её производительность с Gemini 2.5 Pro. В качестве теста использовалась генерация SVG-изображений — например, геймпада Xbox. Это неплохой прокси-тест на качество модели, так как подобные задачи требуют точного следования инструкциям, строгого соблюдения структуры SVG и понимания концептуальных элементов.

Генерируемое изображение контроллера Xbox от Gemini 3.0 оказалось значительно качественнее, чем у конкурента. Хотя время до первого токена (TTFT) у Gemini 3.0 было на 24 секунды больше, а вывод — на 40% длиннее (включая дополнительные рассуждения в токенах), результат явно демонстрирует превосходство новой модели.

Этот случай демонстрирует, что даже в режиме A/B-тестирования, без прямого доступа, сообщество может эффективно оценивать и сравнивать новые модели. Для команд, занимающихся разработкой ИИ, это отличный пример того, как можно проводить быстрые итеративные тесты на реальных задачах.

Источник: Rick Lamers' blog

by ricklamers • 16 октября 2025 г. в 16:54 • 400 points

ОригиналHN

#gemini#llm#ab-testing#svg#google

Комментарии (253)

  • Разные пользователи отмечают, что Gemini 2.5 Pro лучше всего подходит для их задач, но при этом Google не предоставляет удобного CLI-интерфейса, а встроенный в Google AI Studio «режим 2.5 pro» оказывается худшим вариантом.
  • Участники обсуждения подтверждают, что Gemini 2.5 Pro действительно превосходит ChatGPT и другие модели в задачах, требующих большого контекста, но при этом страдает от «залипания» в длинных диалогах и плохо справляется с инструментами.
  • Некоторые разработчики отмечают, что Gemini 3.0 пока не решает проблему «залипания» и не предоставляет удобного CLI, что делает его менее привлекательным для разработчиков.

Introduction to Multi-Armed Bandits (2019) (arxiv.org)

Многорукие бандиты — это классическая задача теории вероятностей и машинного обучения, моделирующая проблему исследования и использования. Агент выбирает из нескольких действий с неизвестными распределениями вознаграждений, стремясь максимизировать суммарный выигрыш. Основная дилемма заключается в балансе между изучением новых вариантов и эксплуатацией уже известных эффективных действий.

Популярные алгоритмы, такие как ε-жадный, UCB и Thompson Sampling, предлагают различные стратегии для решения этой проблемы. Например, UCB использует верхние доверительные границы для оценки потенциальной ценности действий, а Thompson Sampling применяет байесовский подход. Эти методы находят применение в A/B-тестировании, рекомендательных системах и управлении ресурсами, демонстрируя, как оптимальное принятие решений в условиях неопределенности может значительно повысить эффективность систем.

by Anon84 • 30 сентября 2025 г. в 21:08 • 130 points

ОригиналHN

#machine-learning#probability-theory#reinforcement-learning#ab-testing#bayesian-models#decision-making#multi-armed-bandits#arxiv

Комментарии (29)

  • Применение многоруких бандитов (MAB) для оптимизации контента и выбора действий, с успешными кейсами в продуктах и играх (например, Scrabble, Go).
  • Сложности внедрения: проблемы с отчетностью, обучением команд, сохранением независимости данных при A/B-тестировании и управлением состоянием системы.
  • Важность четкого определения целевых метрик и компромиссов между ними, а также необходимость понимания преимуществ MAB по сравнению с ручным управлением экспериментами.
  • Использование байесовских моделей и иерархических процессов для анализа состояния бандитов и решения проблем стратификации.
  • Философская и практическая ценность MAB как метода для принятия решений в условиях неопределенности.

Комментарии (60)

  • Пользователи хвалят Statsig как мощную платформу A/B-тестов и аналитики, превосходящую Optimizely и LaunchDarkly.
  • Критика лендинга: много маркетинговых слоганов, мало конкретики, поэтому непонятно, за что OpenAI заплатили $1,1 млрд.
  • Обсуждают, что Statsig — это «переосмысленная» внутренняя система Meta для экспериментов и роста.
  • Вопросы к сделке: возможен антимонопольный контроль, претензии Microsoft к IP, будущее клиентов-конкурентов (Anthropic).
  • Внутри OpenAI появится CTO «Applications», что вызывает споры о «инфляции» C-level тайтлов и разделении на «Research» и «Apps».

Building AI products in the probabilistic era (giansegato.com)

Строим продукты ИИ в эпоху вероятностей

Мы живём в момент, когда инструменты обогнали наши модели их понимания. ИИ изменил саму природу софта: вместо детерминированной функции F: X → Y мы получаем статистическое распределение.

Классическая эра

До ИИ продукты были предсказуемы: нажал «отправить» — сообщение ушло. Именно поэтому вся отрасль строилась на 100 % надёжности: SLO-дэшборды, тесты, аккуратные рефакторинги. PM и дизайн тоже сводились к прокачке воронок с заранее заданными входами и целями.

Новая реальность

С ИИ выход y стал вероятностным: один и тот же промпт может дать разные ответы. Это ломает привычные процессы:

  • Инженерия перестаёт быть «написать код → проверить тесты». Теперь нужно управлять распределениями, подбирать промпты, валидировать выборки.
  • Продукт больше не сводится к фиксированному набору фич. Модель сама генерирует новые пути ценности, а цели могут меняться по ходу использования.
  • Организация требует новых ролей: «prompt engineer», «eval lead», «AI safety analyst».

Что делать

  1. Отказаться от 100 % SLO. Достаточно 95 % качества при 10× скорости релизов.
  2. Оценивать не функцию, а распределение. A/B тесты уступают место оценке статистических хвостов.
  3. Строить обратную связь в цикл. Пользовательские данные теперь не просто метрика, а способ «дообучать» поведение модели на лету.

Точно так же, как раньше победили те, кто принял «нулевую себестоимость» интернета, теперь выиграют команды, которые освоят вероятностное мышление.

by sdan • 21 августа 2025 г. в 18:42 • 175 points

ОригиналHN

#llm#machine-learning#probabilistic-programming#slo#prompt-engineering#ab-testing

Комментарии (97)

  • Критики считают статью псевдонаучной: излишнее математическое оформление, «LinkedIn-философия» и игнорирование необходимости детерминизма в критичных системах.
  • Автору вменяют ошибку: вероятностная система не является функцией, а «переход к квантовой теории» называют переходом к недетерминизму, а не «вероятностному детерминизму».
  • Многие напоминают, что человечество всегда строило гибкие инструменты; жёсткая детерминированность ПО — скорее исключение, и будущее, вероятно, объединит детерминированные обвязки с вероятностными ядрами.
  • Ряд участников подчёркивает: текущие LLM-агенты ненадёжны, «GPU-powered bullshit engine» не заменит проверенную инженерную практику, а «переписывать всё каждые три недели» — нереалистично.