Reasoning LLMs are wandering solution explorers
Исследователи из Google DeepMind и Университета Монреаля показали, что современные LLM не используют формальное рассуждение, а вместо этого ищут решение в пространстве возможных решений. Это открытие ставит под сомнение саму идею, что масштабные языковые модели "рассуждают" как люди.
Команда обучила модель, которая решает задачи, используя цепочку мыслей, и другую, которая не использует. Оказалось, что вторая модель достигает такой же точности, как и первая. Это показывает, что LLM не используют формальное рассуждение, а вместо этого ищут решение в пространстве возможных решений. Исследование также показало, что модели становятся менее уверенными в своих ответах, когда задачи становятся сложнее.
Комментарии (79)
- Обсуждение показало, что LLM не «рассуждают», а лишь сглаживают контекст, и что «цепочка мыслей» не более чем маркетинговый термин.
- Участники подчеркнули, что вместо поиска решения модель выдает токены до тех пор, пока не сгенерится выглядящий правильным ответ, и что это не исследование пространства решений, а его выборка.
- Сообщество отметило, что в отсутствии прозрачности внутреннего состояния LLM, невозможно достоверно оценить или обеспечить корректность его выводов, что ставит под сомнение саму идею «объяснимого ИИ».
- Участники также обсудили, что вопрос остается открытым, какие именно задачи могут быть решены с помощью LLM, и что такое «рассуждение» и как его измерять.
Why We Think
Мышление в моделях ИИ можно сравнить с человеческим: быстрое интуитивное решение (System 1) и медленное аналитическое рассуждение (System 2). Цепочка мыслей (CoT) позволяет моделям тратить больше вычислительных ресурсов на сложные задачи, аналогично тому, как человек обдумывает трудные вопросы.
CoT действует как скрытая переменная в вероятностной модели, где процесс рассуждения z ведёт к ответу y. Это даёт гибкость: модель сама определяет, сколько "вычислений в момент предсказания" потратить, в зависимости от сложности входных данных. Такой подход улучшает точность, особенно для задач, требующих многошагового анализа.
Комментарии (21)
- Участники обсуждают некорректное приписывание Даниэлю Канеману теории двух систем мышления, отмечая, что её истоки лежат в более поздних работах когнитивной психологии.
- Поднимается вопрос о репликации исследований из книги «Думай медленно... решай быстро», где мнения разделились: одни утверждают, что большинство исследований не воспроизводится, другие это оспаривают.
- Обсуждается эволюционная роль мышления: как механизма для адаптации к уникальным ситуациям, который слишком затратен для повседневных задач и может быть вреден в избытке.
- Высказывается идея, что несмотря на затратность, развитое мышление дало людям эволюционное преимущество, позволив создавать новое знание и преобразовывать общества.
- Упоминается, что концепция разделения мышления на автоматическое и deliberative в целом подтверждается современными нейробиологическими данными.
DeepFabric – Generate high-quality synthetic datasets at scale
DeepFabric — это библиотека для генерации синтетических датасетов высокого качества, предназначенных для обучения, оценки и исследований языковых моделей. Она использует иерархические деревья тем и экспериментальные графы для создания разнообразных и контекстуально насыщенных примеров. Подходит для исследователей и инженеров, работающих с дистилляцией моделей, оценкой агентов или статистическими исследованиями.
Библиография предлагает инструменты для масштабируемой генерации данных, включая поддержку различных форматов инструкций, таких как Chain of Thought, и интеграцию с популярными платформами, включая Hugging Face. Она распространяется под лицензией Apache 2.0 и активно развивается с открытым исходным кодом.
Комментарии (16)
- Представлен интерактивный инструмент для генерации синтетических данных с возможностью интерактивного редактирования и проверки на каждом шаге.
- Обсуждается техническая реализация: интеграция с существующими схемами БД, поддержка экспорта в txt/csv, переход от древовидных структур к графам (DAG).
- Упоминаются публично доступные синтетические датасеты (GSM8K, DevOps CoT) на Hugging Face для обучения моделей.
- Затронуты вопросы качества данных: низкий уровень дублирования и высокая диверсификация, проверяемая с помощью great-expectations.
- Проводятся параллели с другими методами (GLAN) и обсуждаются возможные заимствования кода между проектами.
Diffusion language models are super data learners
Notion — это универсальный инструмент для заметок, задач, баз знаний и совместной работы. Объединяет блоки текста, таблицы, календари, доски Kanban, базы данных и встраиваемые медиа в единое пространство. Поддерживает шаблоны, автоматизацию, API и интеграции (Slack, GitHub, Figma и др.). Работает в браузере, на macOS, Windows, iOS и Android. Бесплатный план для личного использования; платные тарифы для команд и расширенных функций.
Комментарии (14)
- Участники спорят, почему диффузионные модели проигрывают авторегрессии: BarakWidawsky связывает это с меньшей способностью к запоминанию, а ckjellqv — с невозможностью KV-кеширования.
- Woadwarrior01 удивлён росту FLOPs при генерации длинных последовательностей (×16–4700) и отмечает нелинейную зависимость.
- Godelski критикует неясность терминов «in/out-of-distribution» без описания обучающих данных.
- Bicsi предлагает «закрыть» диффузионные модели, считая цепочку мыслей (CoT) быстрым и мощным заменителем; против выступают fancyfredbot и SalmoShalazar, призывая не отвергать подход преждевременно.