Hacker News Digest

30 октября 2025 г. в 18:18 • blog.ml.cmu.edu • ⭐ 103 • 💬 22

OriginalHN

#machine-learning#reinforcement-learning#generative-models#bayesian-learning#cmu#banel#nre

Learning from failure to tackle hard problems

Исследователи из CMU предлагают BaNEL для решения задач с экстремально разреженными вознаграждениями, где стандартные методы неэффективны. Такие проблемы, как разработка лекарств от рака или создание молекул с заданными свойствами, характеризуются почти нулевой вероятностью успеха (sparsity) и дорогой оценкой вознаграждений. Например, GPT-5 при попытке разработать лекарство получает нулевое вознаграждение, а проверка решений требует дорогостоящих клинических испытаний. При таких условиях методы вроде policy gradients вырождаются в случайный поиск, а подходы с бонусами за новизну требуют слишком многих оценок вознаграждений.

BaNEL (Bayesian Negative Evidence Learning) обучает генеративные модели, используя только отрицательные примеры и минимизируя число дорогостоящих оценок вознаграждений (NRE). В отличие от других методов, BaNEL функционален при нулевых вознаграждениях и требует минимальных NRE, что подтверждается сравнительным анализом подходов. Метод позволяет извлекать полезные сигналы из неудачных попыток, открывая путь к решению задач, где положительные примеры недоступны, а успех практически невозможен.