Learning from failure to tackle hard problems

Исследователи из CMU предлагают BaNEL для решения задач с экстремально разреженными вознаграждениями, где стандартные методы неэффективны. Такие проблемы, как разработка лекарств от рака или создание молекул с заданными свойствами, характеризуются почти нулевой вероятностью успеха (sparsity) и дорогой оценкой вознаграждений. Например, GPT-5 при попытке разработать лекарство получает нулевое вознаграждение, а проверка решений требует дорогостоящих клинических испытаний. При таких условиях методы вроде policy gradients вырождаются в случайный поиск, а подходы с бонусами за новизну требуют слишком многих оценок вознаграждений.

BaNEL (Bayesian Negative Evidence Learning) обучает генеративные модели, используя только отрицательные примеры и минимизируя число дорогостоящих оценок вознаграждений (NRE). В отличие от других методов, BaNEL функционален при нулевых вознаграждениях и требует минимальных NRE, что подтверждается сравнительным анализом подходов. Метод позволяет извлекать полезные сигналы из неудачных попыток, открывая путь к решению задач, где положительные примеры недоступны, а успех практически невозможен.

Комментарии (22)

Ключевой тезис: «самое важное — знать, что кто-то уже решил задачу» — иллюстрация от @Nevermark.
Парадокс: «провал» и «успех» часто отличаются лишь одним параметром, но мы не умеем его измерять.
Сообщество в целом скептически относится к тому, что ML-исследователи ставят себе целью «решать теоремы лучше людей» или «открывать лекарства», пока не показано, что они имеют в виду именно помощь, а не замену.
Несколько участников подчеркнули, что важно не путать «решение» и «поиск решения» и что ML в первую очередь помогает с последним.