Introduction to Multi-Armed Bandits (2019)

Многорукие бандиты — это классическая задача теории вероятностей и машинного обучения, моделирующая проблему исследования и использования. Агент выбирает из нескольких действий с неизвестными распределениями вознаграждений, стремясь максимизировать суммарный выигрыш. Основная дилемма заключается в балансе между изучением новых вариантов и эксплуатацией уже известных эффективных действий.

Популярные алгоритмы, такие как ε-жадный, UCB и Thompson Sampling, предлагают различные стратегии для решения этой проблемы. Например, UCB использует верхние доверительные границы для оценки потенциальной ценности действий, а Thompson Sampling применяет байесовский подход. Эти методы находят применение в A/B-тестировании, рекомендательных системах и управлении ресурсами, демонстрируя, как оптимальное принятие решений в условиях неопределенности может значительно повысить эффективность систем.

Комментарии (29)

Применение многоруких бандитов (MAB) для оптимизации контента и выбора действий, с успешными кейсами в продуктах и играх (например, Scrabble, Go).
Сложности внедрения: проблемы с отчетностью, обучением команд, сохранением независимости данных при A/B-тестировании и управлением состоянием системы.
Важность четкого определения целевых метрик и компромиссов между ними, а также необходимость понимания преимуществ MAB по сравнению с ручным управлением экспериментами.
Использование байесовских моделей и иерархических процессов для анализа состояния бандитов и решения проблем стратификации.
Философская и практическая ценность MAB как метода для принятия решений в условиях неопределенности.