Тег: #sft — Hacker News Digest

Dispelling misconceptions about RLHF (aerial-toothpaste-34a.notion.site)

Notion — это многофункциональный онлайн-инструмент для заметок, задач, баз знаний и совместной работы.
Основные возможности:

Подходит для личных заметок, командных вики, CRM, управления проектами и образовательных целей.

by fpgaminer • 17 августа 2025 г. в 06:37 • 96 points

Для «reasoning-моделей» RLHF-награды должны оценивать не схожесть с эталонным ответом, а корректность финального результата после «мысленных» токенов — это сложнее.
Ключевой риск: «успешный» ответ ≠ «правильный», что ограничивает применимость LLM и требует постоянной дообучаемости.
Спор о терминологии: часть участников считает SFT подмножеством RL, другие настаивают, что RL подразумевает отложенную награду.
Предложен альтернативный путь: обучать модель сначала оценивать качество собственных ответов, а потом улучшать их.
Критика дизайна сайта и претензии, что OpenAI преувеличивает способности моделей, не опираясь на факты.