Тег: #chain-of-thought — Hacker News Digest

Reasoning LLMs are wandering solution explorers (arxiv.org)

Исследователи из Google DeepMind и Университета Монреаля показали, что современные LLM не используют формальное рассуждение, а вместо этого ищут решение в пространстве возможных решений. Это открытие ставит под сомнение саму идею, что масштабные языковые модели "рассуждают" как люди.

Команда обучила модель, которая решает задачи, используя цепочку мыслей, и другую, которая не использует. Оказалось, что вторая модель достигает такой же точности, как и первая. Это показывает, что LLM не используют формальное рассуждение, а вместо этого ищут решение в пространстве возможных решений. Исследование также показало, что модели становятся менее уверенными в своих ответах, когда задачи становятся сложнее.

by Surreal4434 • 10 октября 2025 г. в 04:40 • 84 points

Оригинал • HN

#large-language-models #llm #artificial-intelligence #machine-learning #google-deepmind #university-of-montreal #chain-of-thought #explainable-ai #arxiv

Комментарии (79)

Обсуждение показало, что LLM не «рассуждают», а лишь сглаживают контекст, и что «цепочка мыслей» не более чем маркетинговый термин.
Участники подчеркнули, что вместо поиска решения модель выдает токены до тех пор, пока не сгенерится выглядящий правильным ответ, и что это не исследование пространства решений, а его выборка.
Сообщество отметило, что в отсутствии прозрачности внутреннего состояния LLM, невозможно достоверно оценить или обеспечить корректность его выводов, что ставит под сомнение саму идею «объяснимого ИИ».
Участники также обсудили, что вопрос остается открытым, какие именно задачи могут быть решены с помощью LLM, и что такое «рассуждение» и как его измерять.

Why We Think (lilianweng.github.io)

Мышление в моделях ИИ можно сравнить с человеческим: быстрое интуитивное решение (System 1) и медленное аналитическое рассуждение (System 2). Цепочка мыслей (CoT) позволяет моделям тратить больше вычислительных ресурсов на сложные задачи, аналогично тому, как человек обдумывает трудные вопросы.

CoT действует как скрытая переменная в вероятностной модели, где процесс рассуждения z ведёт к ответу y. Это даёт гибкость: модель сама определяет, сколько "вычислений в момент предсказания" потратить, в зависимости от сложности входных данных. Такой подход улучшает точность, особенно для задач, требующих многошагового анализа.

by gmays • 27 сентября 2025 г. в 12:27 • 114 points

Оригинал • HN

#llm #machine-learning #cognitive-psychology #neuroscience #probabilistic-models #chain-of-thought

Комментарии (21)

Участники обсуждают некорректное приписывание Даниэлю Канеману теории двух систем мышления, отмечая, что её истоки лежат в более поздних работах когнитивной психологии.
Поднимается вопрос о репликации исследований из книги «Думай медленно... решай быстро», где мнения разделились: одни утверждают, что большинство исследований не воспроизводится, другие это оспаривают.
Обсуждается эволюционная роль мышления: как механизма для адаптации к уникальным ситуациям, который слишком затратен для повседневных задач и может быть вреден в избытке.
Высказывается идея, что несмотря на затратность, развитое мышление дало людям эволюционное преимущество, позволив создавать новое знание и преобразовывать общества.
Упоминается, что концепция разделения мышления на автоматическое и deliberative в целом подтверждается современными нейробиологическими данными.

DeepFabric – Generate high-quality synthetic datasets at scale (lukehinds.github.io)

DeepFabric — это библиотека для генерации синтетических датасетов высокого качества, предназначенных для обучения, оценки и исследований языковых моделей. Она использует иерархические деревья тем и экспериментальные графы для создания разнообразных и контекстуально насыщенных примеров. Подходит для исследователей и инженеров, работающих с дистилляцией моделей, оценкой агентов или статистическими исследованиями.

Библиография предлагает инструменты для масштабируемой генерации данных, включая поддержку различных форматов инструкций, таких как Chain of Thought, и интеграцию с популярными платформами, включая Hugging Face. Она распространяется под лицензией Apache 2.0 и активно развивается с открытым исходным кодом.

by decodebytes • 26 сентября 2025 г. в 14:26 • 85 points

Оригинал • HN

#python #huggingface #apache-2.0 #synthetic-data #machine-learning #chain-of-thought #great-expectations #dag #open-source #data-generation

Комментарии (16)

Представлен интерактивный инструмент для генерации синтетических данных с возможностью интерактивного редактирования и проверки на каждом шаге.
Обсуждается техническая реализация: интеграция с существующими схемами БД, поддержка экспорта в txt/csv, переход от древовидных структур к графам (DAG).
Упоминаются публично доступные синтетические датасеты (GSM8K, DevOps CoT) на Hugging Face для обучения моделей.
Затронуты вопросы качества данных: низкий уровень дублирования и высокая диверсификация, проверяемая с помощью great-expectations.
Проводятся параллели с другими методами (GLAN) и обсуждаются возможные заимствования кода между проектами.

Diffusion language models are super data learners (jinjieni.notion.site)

Notion — это универсальный инструмент для заметок, задач, баз знаний и совместной работы. Объединяет блоки текста, таблицы, календари, доски Kanban, базы данных и встраиваемые медиа в единое пространство. Поддерживает шаблоны, автоматизацию, API и интеграции (Slack, GitHub, Figma и др.). Работает в браузере, на macOS, Windows, iOS и Android. Бесплатный план для личного использования; платные тарифы для команд и расширенных функций.

by babelfish • 10 августа 2025 г. в 16:04 • 202 points

Оригинал • HN

#notion #kanban #api #slack #github #figma #autoregressive-models #diffusion-models #flops #chain-of-thought

Комментарии (14)

Участники спорят, почему диффузионные модели проигрывают авторегрессии: BarakWidawsky связывает это с меньшей способностью к запоминанию, а ckjellqv — с невозможностью KV-кеширования.
Woadwarrior01 удивлён росту FLOPs при генерации длинных последовательностей (×16–4700) и отмечает нелинейную зависимость.
Godelski критикует неясность терминов «in/out-of-distribution» без описания обучающих данных.
Bicsi предлагает «закрыть» диффузионные модели, считая цепочку мыслей (CoT) быстрым и мощным заменителем; против выступают fancyfredbot и SalmoShalazar, призывая не отвергать подход преждевременно.