Тег: #ab-testing — Hacker News Digest

Vijaye Raji to become CTO of Applications with acquisition of Statsig (openai.com)

—

by tosh • 02 сентября 2025 г. в 18:18 • 160 points

Оригинал • HN

#openai #statsig #ab-testing #analytics #microsoft #meta #antitrust #cto

Комментарии (60)

Пользователи хвалят Statsig как мощную платформу A/B-тестов и аналитики, превосходящую Optimizely и LaunchDarkly.
Критика лендинга: много маркетинговых слоганов, мало конкретики, поэтому непонятно, за что OpenAI заплатили $1,1 млрд.
Обсуждают, что Statsig — это «переосмысленная» внутренняя система Meta для экспериментов и роста.
Вопросы к сделке: возможен антимонопольный контроль, претензии Microsoft к IP, будущее клиентов-конкурентов (Anthropic).
Внутри OpenAI появится CTO «Applications», что вызывает споры о «инфляции» C-level тайтлов и разделении на «Research» и «Apps».

Building AI products in the probabilistic era (giansegato.com)

Строим продукты ИИ в эпоху вероятностей

Мы живём в момент, когда инструменты обогнали наши модели их понимания. ИИ изменил саму природу софта: вместо детерминированной функции F: X → Y мы получаем статистическое распределение.

Классическая эра

До ИИ продукты были предсказуемы: нажал «отправить» — сообщение ушло. Именно поэтому вся отрасль строилась на 100 % надёжности: SLO-дэшборды, тесты, аккуратные рефакторинги. PM и дизайн тоже сводились к прокачке воронок с заранее заданными входами и целями.

Новая реальность

С ИИ выход y стал вероятностным: один и тот же промпт может дать разные ответы. Это ломает привычные процессы:

Инженерия перестаёт быть «написать код → проверить тесты». Теперь нужно управлять распределениями, подбирать промпты, валидировать выборки.
Продукт больше не сводится к фиксированному набору фич. Модель сама генерирует новые пути ценности, а цели могут меняться по ходу использования.
Организация требует новых ролей: «prompt engineer», «eval lead», «AI safety analyst».

Что делать

Отказаться от 100 % SLO. Достаточно 95 % качества при 10× скорости релизов.
Оценивать не функцию, а распределение. A/B тесты уступают место оценке статистических хвостов.
Строить обратную связь в цикл. Пользовательские данные теперь не просто метрика, а способ «дообучать» поведение модели на лету.

Точно так же, как раньше победили те, кто принял «нулевую себестоимость» интернета, теперь выиграют команды, которые освоят вероятностное мышление.

by sdan • 21 августа 2025 г. в 18:42 • 175 points

Оригинал • HN

#llm #machine-learning #probabilistic-programming #slo #prompt-engineering #ab-testing

Комментарии (97)

Критики считают статью псевдонаучной: излишнее математическое оформление, «LinkedIn-философия» и игнорирование необходимости детерминизма в критичных системах.
Автору вменяют ошибку: вероятностная система не является функцией, а «переход к квантовой теории» называют переходом к недетерминизму, а не «вероятностному детерминизму».
Многие напоминают, что человечество всегда строило гибкие инструменты; жёсткая детерминированность ПО — скорее исключение, и будущее, вероятно, объединит детерминированные обвязки с вероятностными ядрами.
Ряд участников подчёркивает: текущие LLM-агенты ненадёжны, «GPU-powered bullshit engine» не заменит проверенную инженерную практику, а «переписывать всё каждые три недели» — нереалистично.