Hacker News Digest

Тег: #rlhf

Постов: 2

Dispelling misconceptions about RLHF (aerial-toothpaste-34a.notion.site)

Notion — это многофункциональный онлайн-инструмент для заметок, задач, баз знаний и совместной работы.
Основные возможности:

  • Блоки: текст, таблицы, галереи, код, embed-видео и др.
  • Базы данных: таблицы, доски, календари, списки с фильтрами и сортировкой.
  • Шаблоны: готовые структуры для планирования, ведения проектов, заметок.
  • Совместная работа: комментарии, упоминания, раздача прав доступа.
  • Интеграции: Google Drive, Slack, GitHub, Zapier и др.
  • API и автоматизация: создавайте собственные скрипты и ботов.
  • Кроссплатформенность: веб, Windows, macOS, iOS, Android, офлайн-доступ.

Подходит для личных заметок, командных вики, CRM, управления проектами и образовательных целей.

by fpgaminer • 17 августа 2025 г. в 06:37 • 96 points

ОригиналHN

#rlhf#llm#sft#reinforcement-learning#notion

Комментарии (27)

  • Для «reasoning-моделей» RLHF-награды должны оценивать не схожесть с эталонным ответом, а корректность финального результата после «мысленных» токенов — это сложнее.
  • Ключевой риск: «успешный» ответ ≠ «правильный», что ограничивает применимость LLM и требует постоянной дообучаемости.
  • Спор о терминологии: часть участников считает SFT подмножеством RL, другие настаивают, что RL подразумевает отложенную награду.
  • Предложен альтернативный путь: обучать модель сначала оценивать качество собственных ответов, а потом улучшать их.
  • Критика дизайна сайта и претензии, что OpenAI преувеличивает способности моделей, не опираясь на факты.

LLMs tell bad jokes because they avoid surprises (danfabulich.medium.com)

  • Шутка — это неожиданный, но в ретроспективе очевидный поворот.
  • Универсально смешного не существует: дети не хватает контекста, профи всё предугадывают.
  • LLM обучены минимизировать сюрприз, предсказывая «среднее» мнение; смешного не выходит.
  • Больше GPU не помогут: архитектура противоречит юмору.
  • То же касается историй: если события предсказуемы — скучно; если не вытекают друг из друга — неправдоподобно.

by dfabulich • 13 августа 2025 г. в 17:53 • 94 points

ОригиналHN

#llm#machine-learning#natural-language-processing#gemini#gpt-4#rlhf#medium

Комментарии (114)

  • Автор статьи утверждает, что LLM плохи в шутках, потому что обучены минимизировать сюрприз; участники спорят, путая ли он «сюрприз» с «невероятностью».
  • Некоторые считают, что дело не в модели, а в пост-обработке (safety, RLHF), которая гасит остроумие.
  • Другие добавляют: юмор — это ещё доставка, контекст и ошибки мышления, а не просто текст.
  • Примеры показывают, что более крупные модели (Gemini 2.5, GPT-4.5) уже умеют быть смешными, если их хорошо спросить.
  • Вывод: проблема не в «запрете на сюрприз», а в сложности самого юмора и в текущих ограничениях систем.