Learning from failure to tackle hard problems
Исследователи из CMU предлагают BaNEL для решения задач с экстремально разреженными вознаграждениями, где стандартные методы неэффективны. Такие проблемы, как разработка лекарств от рака или создание молекул с заданными свойствами, характеризуются почти нулевой вероятностью успеха (sparsity) и дорогой оценкой вознаграждений. Например, GPT-5 при попытке разработать лекарство получает нулевое вознаграждение, а проверка решений требует дорогостоящих клинических испытаний. При таких условиях методы вроде policy gradients вырождаются в случайный поиск, а подходы с бонусами за новизну требуют слишком многих оценок вознаграждений.
BaNEL (Bayesian Negative Evidence Learning) обучает генеративные модели, используя только отрицательные примеры и минимизируя число дорогостоящих оценок вознаграждений (NRE). В отличие от других методов, BaNEL функционален при нулевых вознаграждениях и требует минимальных NRE, что подтверждается сравнительным анализом подходов. Метод позволяет извлекать полезные сигналы из неудачных попыток, открывая путь к решению задач, где положительные примеры недоступны, а успех практически невозможен.