Dispelling misconceptions about RLHF
Notion — это многофункциональный онлайн-инструмент для заметок, задач, баз знаний и совместной работы.
Основные возможности:
- Блоки: текст, таблицы, галереи, код, embed-видео и др.
- Базы данных: таблицы, доски, календари, списки с фильтрами и сортировкой.
- Шаблоны: готовые структуры для планирования, ведения проектов, заметок.
- Совместная работа: комментарии, упоминания, раздача прав доступа.
- Интеграции: Google Drive, Slack, GitHub, Zapier и др.
- API и автоматизация: создавайте собственные скрипты и ботов.
- Кроссплатформенность: веб, Windows, macOS, iOS, Android, офлайн-доступ.
Подходит для личных заметок, командных вики, CRM, управления проектами и образовательных целей.
Комментарии (27)
- Для «reasoning-моделей» RLHF-награды должны оценивать не схожесть с эталонным ответом, а корректность финального результата после «мысленных» токенов — это сложнее.
- Ключевой риск: «успешный» ответ ≠ «правильный», что ограничивает применимость LLM и требует постоянной дообучаемости.
- Спор о терминологии: часть участников считает SFT подмножеством RL, другие настаивают, что RL подразумевает отложенную награду.
- Предложен альтернативный путь: обучать модель сначала оценивать качество собственных ответов, а потом улучшать их.
- Критика дизайна сайта и претензии, что OpenAI преувеличивает способности моделей, не опираясь на факты.