LLMs are mortally terrified of exceptions 🔥 Горячее
Twitter/X теперь требует включённый JavaScript и блокирует просмотр без него. Пользователи с блокировщиками скриптов или расширений, которые ограничивают JS, теперь видят сообщение о недоступности JavaScript и предлагают «попробовать снова». Это делает невозможным просмотр даже статического контента без JS.
Комментарии (135)
- Обсуждение выявило, что LLM-ы склонны к чрезмерно защитному стилю кода, который, как выясняется, может быть вызван RLHF и набором данных, где «правильный» код — это тот, который перестраховывается на каждом шаге.
- Участники обсудили, что «защитный» код может быть не только избыточным, но и логически неверным, поскольку он может маскировать ошибки, которые в продакшене не должны быть проглочены.
- Некоторые участники отметили, что вместо того, чтобы учить модель писать «правильный» код, стоит сфокусироваться на том, чтобы она училась различать, когда действительно нужна обработка ошибок, а когда можно обойтись без нее.
- Также было отмечено, что вместо того, чтобы писать в защитном стиле, лучше бы научить модель писать код, который не делает глупых ошибок в первую очередь.
What GPT-OSS leaks about OpenAI's training data 🔥 Горячее
Анализ весов открытой модели GPT-oss от OpenAI позволяет раскрыть детали обучающих данных, которые компания тщательно скрывает. Исследование эмбеддингов токенизатора o200k выявило группу из 936 токенов с крайне низкой L2-нормой — вероятно, они не использовались при обучении и были «подавлены» decay-регуляризацией. Среди них — служебные токены, байты Unicode и аномалии вроде токена 20373 (последовательность байтов, означающая «пограничные ворота» на мандаринском). Эта группа может помочь оценить параметры инициализации модели и общее число шагов градиентного спуска.
В «хвосте» распределения с высокой нормой обнаружились токены, связанные с кодом и логическими рассуждениями (например, «accordingly», «code», «settings»), что указывает на финальный этап обучения с упором на программирование. Но самое интересное — не-ASCII токены с высокой нормой: многие оказались фразами с спамных сайтов, порнографических ресурсов и платформ азартных игр на китайском языке («这里只有精品», «天天好彩票», «一本道高清无码»). Также найдены токены, связанные с китайским национализмом («铁血网»), что неожиданно для OpenAI с учётом геополитического контекста. Это свидетельствует о том, что в обучающие данные попал низкокачественный и политизированный контент, а токенизатор зафиксировал его перепредставленность.
Комментарии (79)
- Обсуждается использование "глитч-токенов" для идентификации моделей ИИ и их уязвимостей через анализ реакции на специфические токены.
- Подвергается сомнению утверждение о тренировке GPT-5 на данных с взрослых сайтов; скорее, фразы попали в данные через GitHub и другие опосредованные источники.
- Анализируется происхождение странных токенов (например, "xadder") как возможных опечаток, названий инструментов или артефактов из технических областей.
- Поднимается вопрос о реверс-инжиниринге закрытых моделей (Claude, GPT) для изучения их тренировочных данных и смещений, введенных до и после RLHF.
- Высказываются мнения о необходимости открытости и регулирования коммерческих моделей ИИ, включая открытие исходных кодов и данных, а также этические аспекты использования публичных данных.
Dispelling misconceptions about RLHF
Notion — это многофункциональный онлайн-инструмент для заметок, задач, баз знаний и совместной работы.
Основные возможности:
- Блоки: текст, таблицы, галереи, код, embed-видео и др.
- Базы данных: таблицы, доски, календари, списки с фильтрами и сортировкой.
- Шаблоны: готовые структуры для планирования, ведения проектов, заметок.
- Совместная работа: комментарии, упоминания, раздача прав доступа.
- Интеграции: Google Drive, Slack, GitHub, Zapier и др.
- API и автоматизация: создавайте собственные скрипты и ботов.
- Кроссплатформенность: веб, Windows, macOS, iOS, Android, офлайн-доступ.
Подходит для личных заметок, командных вики, CRM, управления проектами и образовательных целей.
Комментарии (27)
- Для «reasoning-моделей» RLHF-награды должны оценивать не схожесть с эталонным ответом, а корректность финального результата после «мысленных» токенов — это сложнее.
- Ключевой риск: «успешный» ответ ≠ «правильный», что ограничивает применимость LLM и требует постоянной дообучаемости.
- Спор о терминологии: часть участников считает SFT подмножеством RL, другие настаивают, что RL подразумевает отложенную награду.
- Предложен альтернативный путь: обучать модель сначала оценивать качество собственных ответов, а потом улучшать их.
- Критика дизайна сайта и претензии, что OpenAI преувеличивает способности моделей, не опираясь на факты.
LLMs tell bad jokes because they avoid surprises
- Шутка — это неожиданный, но в ретроспективе очевидный поворот.
- Универсально смешного не существует: дети не хватает контекста, профи всё предугадывают.
- LLM обучены минимизировать сюрприз, предсказывая «среднее» мнение; смешного не выходит.
- Больше GPU не помогут: архитектура противоречит юмору.
- То же касается историй: если события предсказуемы — скучно; если не вытекают друг из друга — неправдоподобно.
Комментарии (114)
- Автор статьи утверждает, что LLM плохи в шутках, потому что обучены минимизировать сюрприз; участники спорят, путая ли он «сюрприз» с «невероятностью».
- Некоторые считают, что дело не в модели, а в пост-обработке (safety, RLHF), которая гасит остроумие.
- Другие добавляют: юмор — это ещё доставка, контекст и ошибки мышления, а не просто текст.
- Примеры показывают, что более крупные модели (Gemini 2.5, GPT-4.5) уже умеют быть смешными, если их хорошо спросить.
- Вывод: проблема не в «запрете на сюрприз», а в сложности самого юмора и в текущих ограничениях систем.