LLMs encode how difficult problems are
Исследователи обнаружили, что большие языковые модели (LLM) кодируют сложность задач, но этот механизм не всегда соответствует человеческим представлениям. Анализ 60 моделей показал, что человеческая оценка сложности хорошо декодируется из внутренних представлений (ρ ≈ 0.88) и демонстрирует чёткую зависимость от размера модели, в то время как оценка сложности, основанная на производительности самой модели, значительно слабее и плохо масштабируется. Направление модели к "простым" представлениям уменьшает галлюцинации и повышает точность.
Во время обучения с использованием GRPO на Qwen2.5-Math-1.5B зонд, измеряющий человеческую оценку сложности, укреплялся и положительно коррелировал с точностью тестирования, в то время как зонд на основе LLM-оценки сложности деградировал и отрицательно коррелировал с производительностью. Это указывает на то, что человеческие аннотации обеспечивают стабильный сигнал сложности, который усиливается при обучении с подкреплением, в то время как автоматические оценки сложности становятся несогласованными именно по мере улучшения моделей.
Комментарии (29)
- Обсуждение вращается вокруг идеи, что LLM — это не более чем «текстовое дополнение, управляемое сжатыми обучающими данными», и что эта метафора не даёт никакого объяснительного эффекта и вводит в заблуждение.
- Участники обсуждения подчеркивают, что модели не «решают» задачи, а лишь аппроксимируют их в формате, где они уже были решены в обучающих данных, и что это ограничение важно помнить.
- Также обсуждается, что оценки времени, которые дают модели, не имеют никакой обоснованности и являются не более чем грубой эвристикой, основанной на неполных или вводящих в заблуждение данных.
- В конце концов, участники соглашаются, что важно помнить, что LLM — это инструмент, и что важно не забывать об ограничениях и возможностях этого инструмента и не приписывать ему неподходящие задачи.
Learning from failure to tackle hard problems
Исследователи из CMU предлагают BaNEL для решения задач с экстремально разреженными вознаграждениями, где стандартные методы неэффективны. Такие проблемы, как разработка лекарств от рака или создание молекул с заданными свойствами, характеризуются почти нулевой вероятностью успеха (sparsity) и дорогой оценкой вознаграждений. Например, GPT-5 при попытке разработать лекарство получает нулевое вознаграждение, а проверка решений требует дорогостоящих клинических испытаний. При таких условиях методы вроде policy gradients вырождаются в случайный поиск, а подходы с бонусами за новизну требуют слишком многих оценок вознаграждений.
BaNEL (Bayesian Negative Evidence Learning) обучает генеративные модели, используя только отрицательные примеры и минимизируя число дорогостоящих оценок вознаграждений (NRE). В отличие от других методов, BaNEL функционален при нулевых вознаграждениях и требует минимальных NRE, что подтверждается сравнительным анализом подходов. Метод позволяет извлекать полезные сигналы из неудачных попыток, открывая путь к решению задач, где положительные примеры недоступны, а успех практически невозможен.
Комментарии (22)
- Ключевой тезис: «самое важное — знать, что кто-то уже решил задачу» — иллюстрация от @Nevermark.
- Парадокс: «провал» и «успех» часто отличаются лишь одним параметром, но мы не умеем его измерять.
- Сообщество в целом скептически относится к тому, что ML-исследователи ставят себе целью «решать теоремы лучше людей» или «открывать лекарства», пока не показано, что они имеют в виду именно помощь, а не замену.
- Несколько участников подчеркнули, что важно не путать «решение» и «поиск решения» и что ML в первую очередь помогает с последним.
Комментарии (150)
- Обсуждение выявило, что Cursor не раскрывает, какие именно модели сравниваются, и не публикует собственный бенчмарк, что вызывает вопросы о прозрачности и воспроизводимости результатов.
- Участники отмечают, что Cursor Tab модель демонстрирует лучшие результаты, но при этом не ясно, насколько это связано с архитектурой модели или с фактом, что она обучена на RL на конкретных задачах.
- Некоторые участники выражают обеспокоенность тем, что Cursor не раскрывает, какие именно модели сравниваются, и не публикует собственный бенчмарк, что вызывает вопросы о прозрачности и воспроизводимости результатов.
- Обсуждение также затрагивает вопросы стоимости, причем как самого использования модели, так и стоимости обучения и инфраструктуры.
- Участники также обсуждают, что Cursor не раскрывает, какие именно модели сравниваются, и не публикует собственный бенчмарк, что вызывает вопросы о прозрачности и воспроизводимости результатов.
Agent Lightning: Train agents with RL (no code changes needed)
Microsoft представила Agent Lightning, инструмент для разработки AI-агентов. Проект находится на GitHub в репозитории microsoft/agent-lightning, но подробное описание функционала в предоставленном тексте отсутствует. Судя по названию проекта, он позиционируется как "абсолютный тренер" для создания и обучения AI-агентов. В репозитории пока нет подробной документации или примеров использования. Microsoft продолжает расширять свое присутствие в области ИИ, добавляя инструменты для разработчиков в экосистему GitHub.
Комментарии (13)
- Обсуждение в основном крутится вокруг того, что проект не имеет ясной цели, документации и примеров, а также использует LLM для генерации README, что вызывает скепсис.
- Участники также критикуют отсутствие бенчмарков для задач с разреженной наградой или частичной наблюдаемостью, что является критически важным для утверждений о "обучении любого агента".
- Сомнения вызывает и то, что проект позиционирует себя как "фреймворк для оптимизации LLM агентов", но при этом не предоставляет никаких примеров или документации, а также использует LLM для генерации README.
- Некоторые участники также указывают на то, что проект не предоставляет никаких бенчмарков для задач с разреженной наградой или частичной наблюдаемостью, что является критически важным для утверждений о "обучении любого агента".
- В целом, обсуждение показывает, что проект вызывает много вопросов из-за отсутствия ясной цели, документации и примеров, а также использует LLM для генерации README.
'Attention is all you need' coauthor says he's 'sick' of transformers 🔥 Горячее 💬 Длинная дискуссия
—
Комментарии (176)
- Ведущие исследователи, включая одного из соавторов оригинальной статьи "Attention is all you need", открыто заявляют, что уходят от трансформеров и ищут «следующую большую идею», вызывая вопрос, действительно ли это поиск новой архитектуры или просто PR-ход.
- Участники обсуждения отмечают, что трансформеры стали не только архитектурой, но и целой инфраструктурой: от GPU и TPU до всего стека LLM-стека, что делает любую альтернативу экономически невыгодной.
- Некоторые комментаторы поднимают вопрос о том, что если следующий прорыв будет зависеть от новой архитектуры, то это может быть не только научный, но и экономический выбор, который может быть не в интересах общества или даже безопасности.
- Другие спорят, что фокус на трансформерах может отвлекать от других направлений, таких как обучение с подкреплением, которые могут быть более критически важны для AGI.
- И хотя некоторые участники высказывают, что трансформеры могли быть "пыльной доской" для следующего прогресса, другие считают, что они могут быть просто "сингуларностью в зародыше", и что мы должны быть осторожны в том, чтобы не убить золотую курицу, которая может быть просто медленно варится.
Andrej Karpathy – It will take a decade to work through the issues with agents 🔥 Горячее 💬 Длинная дискуссия
Андрей Карпати из OpenAI объясняет, почему до общего искусственного интеллекта (AGI) остаётся ещё около десятилетия. Хотя современные ИИ-агенты вроде Claude и Codex впечатляют, они пока неспособны автономно выполнять комплексные задачи, как человек-ассистент. Основные ограничения включают недостаточную многомодальность (неспособность работать с разными типами данных), неумение взаимодействовать с компьютерными системами и отсутствие непрерывного обучения на основе опыта.
Эти проблемы решаемы, но сложны — требуется масштабирование вычислительных мощностей, улучшение алгоритмов (особенно обучения с подкреплением, которое сейчас "ужасно"), и создание более сложных архитектур для обработки контекста и планирования. Как и с беспилотными автомобилями, прогресс будет постепенным, а не взрывным.
Когда AGI finalmente появится, оно, вероятно, интегрируется в экономику так же плавно, как и предыдущие технологические прорывы, поддерживая ~2% рост ВВП без резких скачков. Даже AGI не приведёт к немедленному преобразованию общества; изменения будут постепенными и управляемыми.
В конечном счёте, несмотря на текущие достижения, до AGI остаётся значительная работа, и пройдёт около десятилетия, прежде чем мы увидим системы, способные полностью заменить человеческий труд в сложных контекстах.
Комментарии (949)
- Обсуждение в основном вращается вокруг того, что AGI/AGI-образные системы всё ещё далеки, и что «десятилетие» стало универсальным эвфемизмом для «мы не знаем, когда это будет».
- Участники спора подчеркнули, что текущие модели не решают фундаментальные проблемы, такие как постоянное обучение, причинность и планирование, и что мы по-прежнему полагаемся на эвристики, которые не масштабируются.
- Были выдвинуты предположения, что AGI может потребовать качественно иной архитектуры, и что текущий путь может быть тупиковым.
- Некоторые комментаторы выразили обеспокоенность тем, что гипер-оптимизм может вести к недооценке рисков и переоценке способностей текущих систем.
- В целом, обсуждение подчеркнуло, что прогресс в ИИ-технологии не линеен и что прогнозы о сроках AGI часто оказываются неверными.
SWE-Grep and SWE-Grep-Mini: RL for Fast Multi-Turn Context Retrieval
Компания Cognition представила две новые модели — SWE-grep и SWE-grep-mini, специализирующиеся на быстром поиске контекста в кодах. Они способны находить информацию в крупных кодовых базах с такой же точностью, как и ведущие модели вроде Claude Code, но работают на порядок быстрее. Это достигается за счёт архитектуры, где вместо одного медленного агента, выполняющего множество последовательных вызовов (например, при поиске через find или grep), используется несколько параллельных агентов-исполнителей, каждый из которых получает задание типа «найди файлы, содержащие вот эти ключевые слова, и верни топ-5 наиболее релевантных».
Эти подходы не исключают друг друга: в Windsurf, например, встроенная RAG-система (индексирующая код раз в сутки) обеспечивает быстрый ответ на простые запросы. Но если пользователь уточняет вопрос, система переключается на более медленный, но более точный многошаговый поиск с помощью SWE-grep. В результате, даже при работе с большими проектами вроде веб-версии Photoshop или Node.js, типичный запрос выполняется за 5-15 секунд вместо 30-60 секунд при использовании обычных агентов.
Среди интересных находок — то, как много шагов экономятся при правильном выборе первых шагов. Например, в одном тесте SWE-grep-mini сделал всего 11 шагов для решения задачи, в то время как Cursor CLI выполнил 39, а Claude Code — 51. Это не только быстрее, но и значительно сокращает риск «сойти с рельсов» агента, выполняющего избыточные действия.
Комментарии (18)
- Cognition запустил публичный плейграунд без ограничений, что вызывает вопросы о стоимости и безопасности.
- Сообщество просит публичный бенчмарк и код, чтобы можно было сравнивать модели.
- Появляются опасения, что модель может быть переобучена на тестах, что ставит под сомнение честность результатов.
- Пользователи жалуются на отсутствие документации и прозрачности в обмен на то, что они не могут оценить, что именно делает модель уникальной.
- В отсутствии официального ответа от команды, растет фрустрация и спекуляции о будущем направлении развития.
Newton: physics simulation engine built upon NVIDIA Warp
Newton — это открытый движок для физического моделирования с ускорением на GPU, построенный на основе NVIDIA Warp. Он предназначен для робототехников и исследователей в области симуляций, предлагая высокопроизводительные вычисления для задач, требующих точного и быстрого физического эмулирования.
Проект фокусируется на эффективности и доступности, используя современные графические процессоры для ускорения расчётов. Это позволяет исследователям быстрее тестировать алгоритмы и моделировать сложные среды, что особенно ценно в разработке робототехнических систем и научных экспериментах.
Комментарии (25)
- Критика выбора Python как основного языка для библиотеки из-за проблем с производительностью, ошибками и сложностью работы с типами.
- Негативная реакция на название "Newton Physics" из-за возможной путаницы с существующим движком Newton Dynamics и воспринимаемой arrogance авторов.
- Обсуждение технических деталей: использование MuJoCo как бэкенда, запись в CUDA graph для производительности, параллелизация множества сред для reinforcement learning.
- Сравнение с PhysX и мнение, что Newton Physics со временем его заменит, будучи более настраиваемым и расширяемым.
- Замечания о недостатках примеров кода, которые слишком высокоуровневы и не демонстрируют реальные преимущества и сложности использования API.
Introduction to Multi-Armed Bandits (2019)
Многорукие бандиты — это классическая задача теории вероятностей и машинного обучения, моделирующая проблему исследования и использования. Агент выбирает из нескольких действий с неизвестными распределениями вознаграждений, стремясь максимизировать суммарный выигрыш. Основная дилемма заключается в балансе между изучением новых вариантов и эксплуатацией уже известных эффективных действий.
Популярные алгоритмы, такие как ε-жадный, UCB и Thompson Sampling, предлагают различные стратегии для решения этой проблемы. Например, UCB использует верхние доверительные границы для оценки потенциальной ценности действий, а Thompson Sampling применяет байесовский подход. Эти методы находят применение в A/B-тестировании, рекомендательных системах и управлении ресурсами, демонстрируя, как оптимальное принятие решений в условиях неопределенности может значительно повысить эффективность систем.
Комментарии (29)
- Применение многоруких бандитов (MAB) для оптимизации контента и выбора действий, с успешными кейсами в продуктах и играх (например, Scrabble, Go).
- Сложности внедрения: проблемы с отчетностью, обучением команд, сохранением независимости данных при A/B-тестировании и управлением состоянием системы.
- Важность четкого определения целевых метрик и компромиссов между ними, а также необходимость понимания преимуществ MAB по сравнению с ручным управлением экспериментами.
- Использование байесовских моделей и иерархических процессов для анализа состояния бандитов и решения проблем стратификации.
- Философская и практическая ценность MAB как метода для принятия решений в условиях неопределенности.
Extract-0: A specialized language model for document information extraction
Представлена модель Extract-0 с 7 миллиардами параметров, оптимизированная для извлечения информации из документов и превосходящая по эффективности более крупные модели, включая GPT-4.1. Она достигает среднего показателя вознаграждения 0.573 на тестовом наборе из 1000 задач, обходя конкурентов с результатами около 0.46.
Обучение включает генерацию синтетических данных, тонкую настройку с LoRA, затрагивающую лишь 0.53% весов, и reinforcement learning с новой функцией вознаграждения на основе семантического сходства. Это демонстрирует, что специализированные модели могут превзойти универсальные системы при значительно меньших вычислительных затратах.
Комментарии (40)
- Специализированная модель, дообученная на узком наборе данных (280k примеров), демонстрирует высокую производительность в конкретной задаче извлечения данных, но тестируется на схожих данных из того же распределения, что вызывает вопросы о переобучении и реальной обобщающей способности.
- Обсуждается тренд на создание небольших узкоспециализированных моделей (fine-tuning, LoRA) как более эффективной и дешевой альтернативы большим универсальным LLM для конкретных применений, хотя ROI такого подхода для бизнеса не всегда очевиден.
- Подчеркивается важность и эффективность методов дообучения и RLHF (GRPO) для небольших моделей, что позволяет с малыми затратами ($196) превзойти большие модели в нишевых задачах, но для широкого внедрения необходимо упрощение процесса для потребительского оборудования.
- Высказывается скептицизм относительно новизны исследования, так как способность дообученных моделей превосходить большие в узких задачах уже известна, а ключевой проблемой остается генерализация на реальных данных, а не на примерах из тренировочного сета.
- Намечается bifurcation в развитии AI: открытые небольшие модели решают конкретные практические задачи, в то время как крупные коммерческие модели развиваются в сторону чат-интерфейсов и инструментов общего назначения, что не всегда оптимально.
LoRA Without Regret
LoRA позволяет эффективно дообучать большие языковые модели, обновляя лишь малую часть параметров через низкоранговые матрицы, что экономит вычислительные ресурсы и память. Эксперименты показывают, что на небольших и средних наборах данных для обучения с учителем и reinforcement learning LoRA достигает той же производительности, что и полное дообучение, при условии корректной настройки.
Ключевые факторы успеха LoRA включают применение ко всем слоям модели (включая MLP и MoE), а не только к attention-слоям, и осторожный подбор размера батча — слишком большие батчи могут ухудшить результаты. Однако при превышении ёмкости адаптера данными или в сценариях, напоминающих предобучение, LoRA проигрывает полному дообучению.
Комментарии (48)
- Многие пользователи изначально путают аббревиатуру LoRA (Low-Rank Adaptation) с технологией беспроводной связи LoRa (Long Range).
- Обсуждается научная статья, ставящая под сомнение эквивалентность эффективности LoRA и полного тонкого обучения (Full Fine-Tuning), и ведется спор о доказательности этого утверждения.
- Поднимается вопрос о практических руководствах по применению LoRA и рекомендациях по оценке необходимого количества параметров для модели.
- Упоминается метод прогрессивного слияния матриц LoRA (progressive merging) как потенциально более эффективный, но не рассмотренный в обсуждаемом материале.
- Затрагивается тема применения LoRA в обучении с подкреплением (RL) и сложности оценки количества информации в данных.
GPT-OSS Reinforcement Learning
Unsloth теперь поддерживает обучение с подкреплением для OpenAI gpt-oss и всех типов моделей, что значительно ускоряет процесс тонкой настройки. Это позволяет эффективно применять методы RL, такие как DPO, ORPO и KTO, для улучшения качества генерации текста и рассуждений модели.
Практический вывод: пользователи могут обучать собственные модели рассуждений с помощью GRPO, экономя память и вычислительные ресурсы. Это открывает возможности для создания более интеллектуальных и адаптивных ИИ-систем без необходимости мощного оборудования.
Комментарии (37)
- Благодарность Unsloth за реализацию режима сна в vLLM, упрощающего RL-обучение и делающего его более доступным.
- Споры о качестве модели GPT-OSS: одни пользователи считают её устаревшей, другие приводят примеры её эффективности в конкретных задачах.
- Обсуждение практической пользы дообучения моделей для бизнеса и локального использования, включая работу с редкими языками.
- Акцент на демонстрации в релизе Unsloth методов борьбы с читерством (reward hacking) в reinforcement learning.
- Упоминание инструмента DeepFabric для генерации данных в формате OpenAI.
Moondream 3 Preview: Frontier-level reasoning at a blazing speed 🔥 Горячее
Moondream 3 — это предварительная версия модели компьютерного зрения с архитектурой MoE на 9 млрд параметров, из которых активно используются только 2 млрд. Это позволяет ей достигать уровня передовых моделей в задачах визуального анализа, сохраняя при этом высокую скорость и низкую стоимость инференса. Ключевые улучшения включают расширение контекста до 32 тыс. токенов, лучшую обучаемость (включая обучение с подкреплением) и нативную поддержку сложных запросов, таких как детекция объектов, указание на элементы и структурированный вывод.
Модель демонстрирует впечатляющие результаты: точно определяет объекты по описанию (например, «бегун в фиолетовых носках»), генерирует JSON по изображению, преобразует таблицы в Markdown и работает с OCR. Несмотря на компактность, в бенчмарках она конкурирует с топовыми решениями, но делает это в разы быстрее и дешевле, что открывает возможности для массового применения в робототехнике, медицине и системах наблюдения.
Комментарии (38)
- Moondream 2 и 3 высоко оцениваются за точность и скорость в задачах автоматической разметки датасетов и детекции объектов, особенно для краевых устройств.
- Архитектура MoE модели с активацией только 2B параметров считается прорывом для развертывания на edge-устройствах из-за низкой задержки и стоимости инференса.
- Отмечаются проблемы с точностью (precision) в последних релизах, а также отсутствие информации о ценах в облаке и временная лицензия BSL для превью Moondream 3.
- Модель демонстрирует впечатляющие результаты в сравнении с крупными коммерческими аналогами (Gemini, Claude, OpenAI), особенно в задачах, смежных с OCR.
- Потенциальные применения включают автоматизацию работы с UI, анализ графиков и диаграмм, а также управление компьютером/браузером.
Комментарии (71)
- LLMs демонстрируют сильные способности в математике и науке, но проваливаются на простых визуальных и пространственных головоломках, таких как Sokoban или ARC-AGI.
- Основная проблема LLM — отсутствие подлинного понимания и рассуждений; они работают через распознавание паттернов, а не через логическое мышление.
- LLMs особенно слабы в пространственных рассуждениях, так как обучались в основном на текстовых данных, а не на визуальной информации.
- Некоторые участники связывают неудачи LLM с форматом представления данных (например, визуальные головоломки в текстовом виде) и отсутствием мощных препроцессинговых блоков для изображений.
- Предлагаются методы улучшения, включая эволюционные алгоритмы, поиск с подкреплением (RL) и создание каркасов (scaffolding) для решения задач.
- Есть скептицизм относительно того, что улучшение производительности на узких тестах (как ARC-AGI) свидетельствует о прогрессе к AGI.
- Обсуждается, является ли решение головоломок LLM результатом доступа к публичным обсуждениям этих задач, а не новыми возможностями рассуждений.
Toddlerbot: Open-Source Humanoid Robot
ToddlerBot — открытый, дешёвый гуманоид 30 степеней свободы (руки×7, ноги×6, шея×2, талия×2).
Масса 3,7 кг, груз 1,5 кг, 19 мин ходьбы, 7 падений до поломки, 35 мин на печать и сборку.
Новое в 2.0
- кувырок, ползание, 0.25 м/с ходьба, 1 рад/с поворот
- VR-телеуправление Quest 2
- стерео-глубина 10 Гц на Jetson Orin NX
ML-результаты
- обучение с нуля: omnidirectional ходьба RL, двуручная и полнотелая манипуляция diffusion-policy (60 демо)
- zero-shot перенос политик между двумя экземплярами, совместная уборка комнаты
Софт и железо полностью открыты: CAD, прошивки, обучающие видео, BOM.
Комментарии (23)
- Пользователи в восторге от кульбита робота, но смеются над провалами и «падениями» без умения группироваться.
- Всех пугает цена ≈6 000 $: просят «стартер-версию» за 1 000 $ или дешёвый набор на Jetson Nano.
- 3D-печать корпуса считают ключевым плюсом для самостоятельной сборки, но спрашивают, как сильно это ограничивает конструкцию.
- Мечты о роботе-няньке для котов и «носильщика» посылок быстро тухнут после просмотра чека.
- Уточняют, есть ли MuJoCo-симулятор и VLA-модель для дальнейших исследований.
'World Models,' an old idea in AI, mount a comeback
Мир внутри ИИ
Полвека назад «модели мира» были фундаментом ИИ: система хранила внутреннюю копию окружения и планировала действия, прогоняя возможные будущие. С приходом больших данных и LLM идея ушла в тень, но теперь возвращается как ключ к AGI.
Почему снова актуально
- Проблема LLM: они предсказывают слова, а не последствия; не умеют планировать и обобщать.
- Плюс модели мира: позволяет «воображать» сцены, тестировать действия безопасно, переносить знания в новые задачи.
- Сдвиг в масштабе: современные нейросети могут обучать модели с миллионами параметров на видео и симуляциях, чего раньше не хватало.
Как строят сегодня
- Видеопредсказание: нейросети, обученные на YouTube, генерируют следующие кадры и учатся физике столкновений, трения, гравитации.
- Игра в уме: агенты Dreamer и MuZero учатся в «галлюцинациях» без внешнего мира, экономя время и энергию.
- Композиция знаний: новые архитектуры объединяют языковые модели с пространственными представлениями, позволяя отвечать «что будет, если…».
Где уже работает
- Роботы-манипуляторы от Google DeepMind учатся складывать блоки, «прокручивая» будущее в голове.
- Дроны и автономные машины используют модели мира для планирования траекторий в сложной местности.
- Генеративные видео-системы (Sora, Veo) не просто рисуют картинки, а моделируют физику сцены.
Ограничения и риски
- Пока модели мира хрупки: ошибаются в редких событиях и плохо переносятся между доменами.
- Требуют огромных данных и вычислений.
- Открыты вопросы безопасности: если ИИ «воображает» опасные сценарии, кто контролирует, что он не начнёт их реализовывать?
Вывод
Модели мира — не серебряная пуля, но без них путь к универсальному ИИ выглядит тупиковым. Следующий прорыв может случиться, когда языковые модели научатся не только говорить, но и «видеть» последствия своих слов.
Комментарии (67)
- Современные шахматные движки всё ещё опираются на полную реализацию логики игры и глубокий перебор, но уже используют нейросети для оценки позиций.
- Попытки заменить это «чистыми» нейромоделями приводят к невалидным ходам и глупым ошибкам, если нет явной проверки правил.
- Участники подчёркивают, что мир «в голове» ИИ должен быть неполным и постоянно корректироваться по новым данным, иначе возникает фрейм-проблема.
- Обсуждаются альтернативы: гауссовы сплэттинги, пользовательские грамматики, солипсистические модели, но все они либо узки, либо требуют ручной настройки.
- Итог: пока нет универсального способа построить надёжную world-model; нужен гибрид символики, нейросетей и постоянной адаптации.
Dispelling misconceptions about RLHF
Notion — это многофункциональный онлайн-инструмент для заметок, задач, баз знаний и совместной работы.
Основные возможности:
- Блоки: текст, таблицы, галереи, код, embed-видео и др.
- Базы данных: таблицы, доски, календари, списки с фильтрами и сортировкой.
- Шаблоны: готовые структуры для планирования, ведения проектов, заметок.
- Совместная работа: комментарии, упоминания, раздача прав доступа.
- Интеграции: Google Drive, Slack, GitHub, Zapier и др.
- API и автоматизация: создавайте собственные скрипты и ботов.
- Кроссплатформенность: веб, Windows, macOS, iOS, Android, офлайн-доступ.
Подходит для личных заметок, командных вики, CRM, управления проектами и образовательных целей.
Комментарии (27)
- Для «reasoning-моделей» RLHF-награды должны оценивать не схожесть с эталонным ответом, а корректность финального результата после «мысленных» токенов — это сложнее.
- Ключевой риск: «успешный» ответ ≠ «правильный», что ограничивает применимость LLM и требует постоянной дообучаемости.
- Спор о терминологии: часть участников считает SFT подмножеством RL, другие настаивают, что RL подразумевает отложенную награду.
- Предложен альтернативный путь: обучать модель сначала оценивать качество собственных ответов, а потом улучшать их.
- Критика дизайна сайта и претензии, что OpenAI преувеличивает способности моделей, не опираясь на факты.
Hand-picked selection of articles on AI fundamentals/concepts
- Основы ИИ: статьи о полном цикле — от построения нейросетей до оценки результатов.
- Алгоритмы/архитектуры: линейная и логистическая регрессия, k-ближайших соседей, кластеризация, SVM, наивный Байес, деревья решений, ансамбли, GAN, диффузия, GNN, внимание, CNN, RL, MoE, SSM, агенты, FlashAttention, ускорение моделей, спекулятивное декодирование, кросс-валидация.
- Данные/обучение: сэмплирование, дисбаланс, нормализация, парадигмы обучения, инициализация Xavier, регуляризация, градиентный спуск, функции активации и потерь, дообучение, разбиение данных, batchnorm, dropout, двойной спуск, LoRA, распределённое обучение.
- Речь: обработка речи.
- Зрение: ViT, рецептивное поле, ResNet, генерация изображений GPT-4o.
- NLP: эмбеддинги, задачи NLP, токенизация, трансформеры, LLM, RAG, RLHF, перевод, графы знаний, обнаружение галлюцинаций, NER, RAG, LLMOps, бенчмарки.
- Мультимодальность: VLM, архитектуры VLM, управление компьютером.
- Модели: BERT, GPT, CLIP, Meena, ChatGPT, GPT-4, LLaMA, Alpaca, Gemini, Toolformer, Visual ChatGPT, TaskMatrix, BigBird, o1, DeepSeek, Gemma 3n.
- Оценка: метрики, F-beta, A/B-тесты.
- MLOps: дрейф данных, инструменты и тесты MLOps.
- On-device ИИ: компрессия, PII, федеративное обучение, дифференциальная приватность, трансформеры на устройстве.
- Управление проектами: OKR, RICE, диаграммы Ганта, управление проектами.
- Разное: «Топ-30 Ильи Сацкевера».
Комментарии (13)
- Участники раскритиковали статью за очевидную машинную генерацию и «сливную» подборку источников.
- Подчёркнули, что контент местами бессмысленный и не отражает реальную картину рынка.
- Некоторые обсудили устойчивость рынка инструментов вроде Cursor и отметили, что спрос на «agentic coding» растёт независимо от судьбы отдельных продуктов.
- Один из участников задал вопрос о переходе из веб-разработки в ML и оценке времени на подготовку.
- В целом настроение: «ещё один AI-сгенерированный спам, но библиография пригодится».