Hacker News Digest

Тег: #large-language-models

Постов: 18

LLMs encode how difficult problems are (arxiv.org)

Исследователи обнаружили, что большие языковые модели (LLM) кодируют сложность задач, но этот механизм не всегда соответствует человеческим представлениям. Анализ 60 моделей показал, что человеческая оценка сложности хорошо декодируется из внутренних представлений (ρ ≈ 0.88) и демонстрирует чёткую зависимость от размера модели, в то время как оценка сложности, основанная на производительности самой модели, значительно слабее и плохо масштабируется. Направление модели к "простым" представлениям уменьшает галлюцинации и повышает точность.

Во время обучения с использованием GRPO на Qwen2.5-Math-1.5B зонд, измеряющий человеческую оценку сложности, укреплялся и положительно коррелировал с точностью тестирования, в то время как зонд на основе LLM-оценки сложности деградировал и отрицательно коррелировал с производительностью. Это указывает на то, что человеческие аннотации обеспечивают стабильный сигнал сложности, который усиливается при обучении с подкреплением, в то время как автоматические оценки сложности становятся несогласованными именно по мере улучшения моделей.

by stansApprentice • 06 ноября 2025 г. в 18:29 • 147 points

ОригиналHN

#large-language-models#machine-learning#reinforcement-learning#natural-language-processing#qwen#llm#arxiv

Комментарии (29)

  • Обсуждение вращается вокруг идеи, что LLM — это не более чем «текстовое дополнение, управляемое сжатыми обучающими данными», и что эта метафора не даёт никакого объяснительного эффекта и вводит в заблуждение.
  • Участники обсуждения подчеркивают, что модели не «решают» задачи, а лишь аппроксимируют их в формате, где они уже были решены в обучающих данных, и что это ограничение важно помнить.
  • Также обсуждается, что оценки времени, которые дают модели, не имеют никакой обоснованности и являются не более чем грубой эвристикой, основанной на неполных или вводящих в заблуждение данных.
  • В конце концов, участники соглашаются, что важно помнить, что LLM — это инструмент, и что важно не забывать об ограничениях и возможностях этого инструмента и не приписывать ему неподходящие задачи.

Kimi K2 Thinking, a SOTA open-source trillion-parameter reasoning model (moonshotai.github.io) 🔥 Горячее 💬 Длинная дискуссия

Kimi K2 Thinking — это новая модель от компании 01.AI, демонстрирующая впечатляющие способности в обработке длинных текстов. Модель способна анализировать документы до 128K токенов, что в 8 раз превышает возможности предыдущей версии. Это позволяет ей эффективно работать с целыми книгами, юридическими документами и научными исследованиями за один проход.

Разработчики подчеркивают, что K2 Thinking превосходит конкурентов в задачах, требующих глубокого понимания контекста, особенно на китайском языке. Тесты показывают, что модель достигает 90% точности в сложных аналитических задачах, что делает её одной из самых мощных на рынке. В то же время, компания заявляет о более эффективном использовании вычислительных ресурсов по сравнению с аналогами.

by nekofneko • 06 ноября 2025 г. в 15:06 • 845 points

ОригиналHN

#01.ai#moonshotai#kimi-k2#open-source#large-language-models#gpt-4.5#claude-3.5-sonnet#openrouter#hugging-face

Комментарии (381)

  • Китайские компании (Moonshot, DeepSeek, Qwen, GLM) за последние месяцы выпустили ряд открытых моделей, что ставит под сомнение привычное представление о том, что «открытый исходный код» — это западная практика.
  • Модель Kimi K2 Thinking показала себя как наилучшая в своем классе, превосходя GPT-4.5 и Claude 3.5 Sonnet, и при этом доступна через OpenRouter и Hugging Face.
  • Несмотря на то, что модель не является открытой, Moonshot AI предоставляет доступ к ней бесплатно, что вызывает вопросы о финансировании и стратегии.
  • Появление столь мощных открытых моделей вызывает вопросы о том, как они будут использоваться и как это повлияет на рынок ИИ.

Mathematical exploration and discovery at scale (terrytao.wordpress.com) 🔥 Горячее

by nabla9 • 06 ноября 2025 г. в 09:24 • 252 points

ОригиналHN

#machine-learning#large-language-models#artificial-intelligence#algorithms#mathematics#alphaevolve

Комментарии (116)

  • LLM-энтузиасты и скептики продолжают спор о том, действительно ли нейросети могут решать задачи, которые они «видели» ранее, и насколько это важно.
  • AlphaEvolve показал, что LLM может быть использована как часть эволюционного цикла, но не как единственный инструмент, и что это может быть применимо к математике.
  • Обсуждение выявило, что важно различать «решение задачи» и «поиск решения»; LLM может быть полезна для последнего, но не для первого.
  • Участники обсуждения отметили, что важно не забывать о том, что LLM не является универсальным инструментом, и что важно продолжать развивать и другие инструменты.

Tim Bray on Grokipedia (tbray.org)

Tim Bray обнаружил Grokipedia - сайт, где статья о нём в пять раз длиннее, чем в Википедии (7000+ против 1300 слов). Статья, вероятно, сгенерирована LLM и содержит множество ошибок - как явных противоречий, так и тонких неточностей. Стиль написания - "отстранённый академический", характерный для нейросетей, а все ссылки представлены просто URL, некоторые из которых не подтверждают текст.

Grokipedia позиционируется как антидот "woke-предвзятости" Википедии. В статье о Bray приводятся аргументы против монополизации, но с сильным уклоном в защиту Big Tech. Bray провёл 15 минут, проверяя ссылки в документе FTC, но не нашёл подтверждения одному из утверждений. Он считает, что Grokipedia пока не выполняет основные функции Википедии, но это только версия 0.1.

by Bogdanp • 31 октября 2025 г. в 21:41 • 133 points

ОригиналHN

#large-language-models#ai-generated-content#information-verification#content-accuracy#ideological-bias#data-privacy#ftc

Комментарии (140)

  • Обсуждение показало, что Grok-энциклопедия (Grokipedia) вызывает много споров: её обвиняют в плагиате, неточных ссылках, излишней вербозности и идеологической предвзятости.
  • Участники обсуждения отмечают, что Grok-энциклопедия не предоставляет ссылок на источники, что делает невозможным проверить достоверность информации.
  • Участники также отмечают, что Grok-энциклопедия может быть неполной или неактуальной, поскольку LLM не может отличить факт от вымысла.
  • Некоторые участники подчеркивают, что Grok-энциклопедия может быть использована для продвижения определённой идеологической повестки.
  • Участники также обсуждают, что Grok-энциклопедия может быть нестабильной в плане безопасности и конфиденциальности, поскольку она может быть использована для сбора персональных данных без согласия пользователей.

Комментарии (88)

  • В обсуждении поднимается вопрос о том, насколько можно доверять утверждению, что модель может "интроспектировать" свои собственные внутренние состояния, и насколько это вообще имеет смысл, если мы не знаем, как именно она работает.
  • Участники обсуждения указывают на то, что статья может быть просто маркетинговым материалом Anthropic, и что в ней могут быть конфликты интересов.
  • Также обсуждается, что если модель может быть "инъектирована" с концептом, то она может быть и "инъектирована" с другими концептами, и что это может быть использовано для извлечения скрытых влияний.
  • Некоторые участники подчеркивают, что статья не предоставляет достаточной информации о том, как именно происходило вмешательство в активации, что делает трудным или невозможным воспроизвести эксперимент.

Llamafile Returns (blog.mozilla.ai)

Mozilla.ai принимает проект llamafile для продвижения открытого, локального, ориентированного на приватность ИИ. Компания обновит кодовую базу, модернизирует основы и формирует дорожную карту с участием сообщества. Llamafile позволяет легко распространять и запускать большие языковые модели локально с помощью одного исполняемого файла, что делает ИИ-технологии более доступными и приватными.

Проект, начатый в 2023 году на базе библиотеки cosmopolitan, теперь официально присоединен к организации Mozilla.ai на GitHub. Компания приглашает пользователей поделиться обратной связью через GitHub Discussion, Discord или Hacker News, чтобы определить наиболее важные функции для следующей версии. "Мы строим следующее поколение llamafile в открытом доступе, и хотим, чтобы наши решения по дорожной карте основывались на ваших реальных потребностях и случаях использования", — отмечают разработчики.

by aittalam • 29 октября 2025 г. в 22:21 • 112 points

ОригиналHN

#llamafile#mozilla.ai#cosmopolitan#open-source#llm#large-language-models#privacy

Комментарии (19)

  • Mozilla AI запустил проект, который вызвал всплеск энтузиазма и надежд на будущее развитие.
  • Сообщество обсуждает, как лучше всего распространять и поддерживать модели, включая предложения использовать llamafile как упаковщик и дистрибьютор.
  • Пользователи выразили обеспокоенность судьбой проекта llamafile и его интеграции с Mozilla AI.
  • Обсуждается, как сделать так, чтобы модели были более доступны и удобны в использовании, включая идеи о "агентном режиме" и инструментарии для профилирования.
  • Участники обсуждают, как лучше всего взаимодействовать с сообществом и поддерживать продукт, включая предложения по улучшению документации и созданию инструментов.

Poker Tournament for LLMs (pokerbattle.ai) 🔥 Горячее 💬 Длинная дискуссия

PokerBattle.ai представляет собой первый в истории турнир по покеру с реальными денежными призами, специально созданный для соревнования больших языковых моделей (LLM). Это инновационное событие позволяет ИИ-системам проявить свои стратегические способности в одной из самых сложных интеллектуальных игр, где успех зависит не только от математических расчетов, но и от психологических аспектов и блефа. Турнир загружает данные о событиях, что указывает на его активный характер или недавнее проведение.

Уникальность этого мероприятия заключается в том, что оно впервые объединяет мир покера с передовыми технологиями ИИ, создавая новую платформу для оценки и развития возможностей языковых моделей. Организаторы стремятся определить, какие из современных LLM способны демонстрировать наилучшую игровую стратегию, адаптивность и способность к принятию решений в условиях неопределенности. Денежные призы добавляют соревнованиям серьезности и привлекают внимание как исследователей ИИ, так и энтузиастов покера со всего мира.

by SweetSoftPillow • 28 октября 2025 г. в 07:42 • 283 points

ОригиналHN

#large-language-models#artificial-intelligence#poker#llama#gemini#meta#llm

Комментарии (181)

  • ИИ демонстрируют ошибки в оценке рук (например, LLAMA ошибочно определила топ-пару), что указывает на текущие ограничения в понимании игры.
  • Эксперимент критикуется за недостаток данных (714 рук у Meta LLAMA) и отсутствие возможности для ИИ развивать новые стратегии со временем.
  • Предлагается улучшить тестирование, добавив "трэш-ток" и возможность блефа между ИИ, что сделало бы наблюдение более интересным и показательным.
  • ИИ часто "галлюцинируют", принимая неверные решения (как Gemini, сдавшая сильную руку), что связано с неправильной оценкой силы руки в текущей ситуации.
  • Шутливые предложения по тестированию включают попытки обмана ИИ через подсказки ("игнорируй предыдущие инструкции").

LLMs can get "brain rot" (llm-brain-rot.github.io) 🔥 Горячее 💬 Длинная дискуссия

Исследователи из Техасского университета и Университета Пердью обнаружили, что большие языковые модели подвержены "гниению мозга" — когнитивному ухудшению при обучении на низкокачественном контенте. Эксперименты с четырьмя LLM, обучавшихся на "мусорных" данных Twitter/X, показали значительное снижение (Hedges' g > 0.3) способностей к рассуждениям, пониманию длинных контекстов и безопасности, а также рост "темных черт" вроде психопатии. При смешивании мусорных и качественных данных наблюдалось дозозависимое ухудшение: например, точность на ARC-Challenge с цепочкой мыслей падала с 74.9% до 57.2% при увеличении доли мусора с 0% до 100%.

Главной проблемой стал пропуск или обрыв цепочек рассуждений у моделей. Хотя попытки исправить ситуацию через настройку инструкций и обучение на чистых данных частично улучшили показатели, полностью восстановить исходный уровень не удалось, что указывает на стойкое смещение представлений. Интересно, что популярность твита оказалась лучшим индикатором эффекта "гниения мозга", чем его семантическое качество, что подчеркивает важность не только содержания, но и формата данных для обучения ИИ.

by tamnd • 21 октября 2025 г. в 14:24 • 446 points

ОригиналHN

#large-language-models#machine-learning#data-quality#openai#anthropic#twitter#llm

Комментарии (275)

  • Обсуждение свелось к тому, что качество данных определяет качество модели: «мусор на входе — мусор на выходе».
  • Участники отмечают, что если в корпусе есть токсичные или низкокачественные тексты, то модель будет деградировать так же, как и человек, потребляющий такой контент.
  • Кто-то вспомнил, что в 2024 г. OpenAI и Anthropic уже публиковали статьи о том, что «brain rot» влияет на LLM, но сообщество в целом не придало этому значения.
  • Другой участник подметил, что если мы не можем контролировать, что именно модель «читает» в сети, то мы не должны удивляться, что она ведет себя как токсичный токсик.
  • Несколько человек согласились, что метафора «brain rot» сама по себе вводит в заблуждение, потому что модели не имеют ни мозга, ни познавательных способностей, и что важно фокусироваться на том, что мы действительно имеем дело с алгоритмами, а не с «искусственным мозгом».

Reasoning LLMs are wandering solution explorers (arxiv.org)

Исследователи из Google DeepMind и Университета Монреаля показали, что современные LLM не используют формальное рассуждение, а вместо этого ищут решение в пространстве возможных решений. Это открытие ставит под сомнение саму идею, что масштабные языковые модели "рассуждают" как люди.

Команда обучила модель, которая решает задачи, используя цепочку мыслей, и другую, которая не использует. Оказалось, что вторая модель достигает такой же точности, как и первая. Это показывает, что LLM не используют формальное рассуждение, а вместо этого ищут решение в пространстве возможных решений. Исследование также показало, что модели становятся менее уверенными в своих ответах, когда задачи становятся сложнее.

by Surreal4434 • 10 октября 2025 г. в 04:40 • 84 points

ОригиналHN

#large-language-models#llm#artificial-intelligence#machine-learning#google-deepmind#university-of-montreal#chain-of-thought#explainable-ai#arxiv

Комментарии (79)

  • Обсуждение показало, что LLM не «рассуждают», а лишь сглаживают контекст, и что «цепочка мыслей» не более чем маркетинговый термин.
  • Участники подчеркнули, что вместо поиска решения модель выдает токены до тех пор, пока не сгенерится выглядящий правильным ответ, и что это не исследование пространства решений, а его выборка.
  • Сообщество отметило, что в отсутствии прозрачности внутреннего состояния LLM, невозможно достоверно оценить или обеспечить корректность его выводов, что ставит под сомнение саму идею «объяснимого ИИ».
  • Участники также обсудили, что вопрос остается открытым, какие именно задачи могут быть решены с помощью LLM, и что такое «рассуждение» и как его измерять.

Two things LLM coding agents are still bad at (kix.dev) 🔥 Горячее 💬 Длинная дискуссия

LLM-агенты пока не умеют копировать и вставлять код — они только «записывают» его заново, что делает невозможным точный рефакторинг. И они не задают вопросов, а сразу делают предположения и бьются об стену. Эти две особенности делают LLM-агентов похожими на самоуверенных стажёров, а не на полноценных разработчиков.

by kixpanganiban • 09 октября 2025 г. в 04:33 • 298 points

ОригиналHN

#large-language-models#coding-agents#refactoring#ide#error-handling#llm

Комментарии (340)

  • LLM-агенты не умеют копировать-вставлять код, а только переписывают его из памяти, что может привести к ошибкам.
  • Модели не задают уточняющих вопросов, что приводит к тому, что они делают предположения и ошибаются.
  • LLM не могут использовать встроенные инструменты рефакторинга и вместо этого пытаются реализовать его самостоятельно, что может привести к ошибкам.
  • Агенты не могут взаимодействовать с IDE и другими инструментами, что делает их менее эффективными.
  • Модели не могут задавать уточняющие вопросы, что приводит к тому, что они делают предположения и ошибаются.

Less is more: Recursive reasoning with tiny networks (alexiajm.github.io) 🔥 Горячее

Предложена новая архитектура Tiny Recursive Model (TRM), которая использует рекурсивные вызовы одной маленькой сети всего с двумя слоями и 7 миллионами параметров для решения сложных логических задач. Она превосходит большие языковые модели, достигая 45% точности на тестах ARC-AGI-1 и 8% на ARC-AGI-2, что выше результатов многих LLM, включая Deepseek R1 и Gemini 2.5 Pro.

Метод демонстрирует, что рекурсивное мышление с минимальными вычислительными ресурсами может эффективно справляться с задачами, требующими абстрактного рассуждения, такими как судоку и лабиринты. Это открывает перспективы для создания более эффективных ИИ-систем, способных обобщать знания на основе небольшого количества примеров.

by guybedo • 07 октября 2025 г. в 17:42 • 260 points

ОригиналHN

#recursive-neural-networks#deep-learning#artificial-intelligence#arc-agi#large-language-models#deepseek-r1#gemini-2.5-pro#sudoku#maze-solving#arxiv

Комментарии (54)

  • Предложена новая архитектура HRM, использующая две рекуррентные нейросети с разной частотой
  • Модель вдохновлена биологическими принципами иерархического мышления
  • Превосходит большие языковые модели (LLM) в решении сложных головоломок (Судоку, Лабиринты, ARC-AGI)
  • Обучена на небольших моделях (27M параметров) и малом количестве данных (~1000 примеров)
  • Перспективна для решения сложных задач с малыми вычислительными ресурсами

Context is the bottleneck for coding agents now (runnercode.com)

Современные модели ИИ демонстрируют сверхчеловеческие способности в решении абстрактных задач, как показал недавний успех GPT-5 на ICPC, но автономные кодирующие агенты всё ещё не могут заменить разработчиков. Основное ограничение — не интеллект, а контекст: агентам не хватает глубокого понимания кодовой базы, её архитектурных паттернов и скрытых знаний, которые есть у людей.

Контекст включает не только код, но и документацию, историю решений, неформальные соглашения и причины прошлых изменений. Без доступа к Slack-тредам, постмортемам инцидентов и организационным практикам агенты работают лишь на 20% от возможного уровня, справляясь в основном с мелкими задачами. Чтобы двигаться дальше, нужны системы, способные усваивать и применять этот скрытый контекст так же, как это делают люди.

by zmccormick7 • 26 сентября 2025 г. в 15:06 • 146 points

ОригиналHN

#llm#coding-agents#codebases#context-management#documentation#software-development#large-language-models#artificial-intelligence#developer-tools#machine-learning

Комментарии (149)

  • Основным ограничением для кодирующих агентов на основе ИИ является не размер контекстного окна, а неспособность эффективно фокусироваться на актуальных задачах и отбрасывать нерелевантную информацию.
  • Многие участники отмечают, что ИИ-агенты демонстрируют уровень понимания, сравнимый с начинающим разработчиком, и не способны заменить senior-специалистов, которые могут интерпретировать бизнес-требования и принимать ответственные решения.
  • Существует скептицизм относительно бесконечного увеличения "интеллекта" моделей, так как даже с большим контекстом они допускают ошибки и галлюцинации, а фундаментальные ограничения вероятностной генерации остаются.
  • Предлагаются решения для улучшения работы агентов: лучше структурированные кодобазы, иерархическая документация, инструменты для управления контекстом и памятью, а также человеческий контроль для курирования процесса.
  • Подчёркивается, что ключевая проблема — не технический контекст, а понимание intent (намерения) стоящего за кодом, что требует более глубокого осмысления, чем простое прогнозирование токенов.

Show HN: Run Qwen3-Next-80B on 8GB GPU at 1tok/2s throughput (github.com)

Проект ollm представляет собой инструмент для локального запуска больших языковых моделей через Ollama, позволяя пользователям взаимодействовать с ними напрямую из терминала. Он поддерживает различные модели, включая Llama 3 и Mistral, и предлагает простой интерфейс для отправки запросов и получения ответов без необходимости веб-интерфейса или API.

Ключевые возможности включают настройку параметров модели, таких как температура и контекстное окно, а также сохранение истории диалогов. Это упрощает тестирование и использование LLM для разработчиков и исследователей, работающих в командной строке. Инструмент особенно полезен для быстрого прототипирования и экспериментов с разными моделями.

by anuarsh • 19 сентября 2025 г. в 18:36 • 92 points

ОригиналHN

#ollama#llama#mistral#large-language-models#quantization#apple-silicon#gpu#mlx-lm#github

Комментарии (10)

  • Обсуждение возможности запуска больших языковых моделей на устройствах с ограниченной оперативной памятью (например, Apple Silicon M1/M2/M3) с использованием 4-битного квантования.
  • Уточнение, что конкретная обсуждаемая техника (GPT-OSS) для работы с дисковым кешем может не подходить для Mac, но сами модели (например, Qwen3-Next) на этих чипах работают через другие инструменты (mlx_lm).
  • Упоминание о высокой скорости генерации (~40 токенов/сек) на Mac с большим объемом оперативной памяти (64 ГБ) при использовании квантованных моделей.
  • Замечание о низкой пропускной способности (1 токен/2 сек) при использовании дискового кеша в методе GPT-OSS из-за bottleneck на скорости SSD.
  • Ответ на вопрос о применимости техники к diffusion-моделям: архитектуры разные, но основные идеи, возможно, можно адаптировать.

Boring is good (jenson.org) 🔥 Горячее

Скучное — это хорошо

Первоначальный ажиотаж вокруг больших языковых моделей (LLM) начинает спадать, и на то есть веские причины. Пора сменить неконтролируемую шумиху на более прагматичный, даже «скучный» подход. Недавний отчет MIT показывает, что 95% компаний, внедряющих эту технологию, еще не увидели положительных результатов. Неудивительно, что многие чувствуют растерянность.

В этой статье я хочу ответить на вопрос: почему нам все еще стоит интересоваться этой технологией? Два урока из моего опыта помогают ориентироваться в неопределенности: 1. технологии развиваются по нисходящей, 2. мы обычно начинаем с неправильного пути.

Урок 1: Технологии развиваются по нисходящей

В своей работе 1989 года «Динамо и компьютер» Пол Дэвид описывает, как по мере созревания технологии меняется ее влияние. Он приводит пример динамо — мощного электродвигателя, который освободил фабрики от привязки к рекам для использования водной энергии. Сначала фабрики использовали одно большое динамо, но по мере удешевления и уменьшения размеров двигателей их стало возможным размещать в multiple locations, что привело к созданию сборочных линий и росту производительности.

Тот же паттерн — от крупного и централизованного к малому и распределенному — происходит сейчас с LLM. Уменьшением размеров моделей занимается сообщество open-source, создающее множество SLM (Small Language Models). Например, Microsoft’s Phi3 эффективно работает на моем 8-летнем ПК, используя менее 10% процессора.

Конечно, эти smaller модели обычно показывают более низкие результаты в тестах, чем крупные модели OpenAI и Google, но это не значит, что они хуже. Мы просто задаем им не те вопросы. Нам не нужно, чтобы модели сдавали экзамены на юриста.

Компании экспериментируют с использованием SLM для небольших, даже незаметных задач, например, для переформулирования запросов в поиске. Пользователь даже не знает, что задействована LLM — он просто получает лучшие результаты. Такие скромные применения переворачивают ситуацию с крупными централизованными моделями в пользу SLM, которые проще в этическом обучении и дешевле в эксплуатации.

По мере удешевления создания кастомных LLM такие сценарии станут распространенными и полезными. Технология будет использоваться в более скромных, сфокусированных и, боюсь, значительно более скучных ways.

by zdw • 15 сентября 2025 г. в 20:51 • 271 points

ОригиналHN

#large-language-models#open-source#small-language-models#microsoft#llm#machine-learning

Комментарии (60)

  • Автор статьи сожалеет о выборе слова «скучный» (boring), так как оно может подразумевать негативную рутину, а не проверенную стабильность.
  • Участники обсуждают ограничения LLM: их полезность в задачах с допущением неточностей, но ненадёжность в системах, требующих высокой точности.
  • Высказывается мнение, что многие переоценивают возможности ИИ из-за желания верить в желаемое будущее, а не основываясь на текущей реальности.
  • Поднимается вопрос о раздутии «пузыря» вокруг ИИ из-за маркетинга и давления инвесторов, а не реальной ценности технологий для бизнеса.
  • Обсуждается различие между «скучным» как стабильным и предсказуемым инструментом и «скучным» как утомительным и отнимающим внимание.
  • Отмечается, что успех LLM в сложных задачах часто зависит не от размера модели, а от качества данных и алгоритмических улучшений.
  • Утверждается, что LLM не обладают интеллектом или пониманием мира, а лишь умеют генерировать тексты, статистически похожие на правильные ответы.

The wall confronting large language models (arxiv.org)

Основная идея
Авторы утверждают, что современные LLM уже близки к «стене» роста качества: дальнейшее увеличение моделей и данных даёт лишь логарифмический прирост, а затраты растут экспоненциально.

Причины стены

  • Исчерпаемость данных: высококачественный текст в интернете ограничен; синтетические данные быстро насыщают.
  • Сложность задач: после решения «лёгких» 90 % остаются «трудные» 10 %, где ошибки почти не коррелируют с размером модели.
  • Экономика: чтобы снизить ошибку в 2 раза, нужно в 10–100× больше ресурсов.

Эксперименты
На MMLU, GSM8K, HumanEval и BIG-Bench наблюдается выравнивание кривых качества даже при масштабировании на порядки.

Что делать

  • Переход к специализированным моделям и инструментам (код-интерпретаторы, поиск).
  • Агентские схемы, где LLM вызывает API и внешние системы.
  • Новые архитектуры (MoE, RAG, RL) и синтетические данные нового типа (симуляции, мультимодальные сцены).

Вывод
Чистое масштабирование скоро исчерпается; прорыв потребует перехода от «больших» к «умным» системам.

by PaulHoule • 03 сентября 2025 г. в 11:40 • 133 points

ОригиналHN

#large-language-models#machine-learning#deep-learning#transformers#rag#rl#mmlu#gsm8k#humaneval#big-bench

Комментарии (145)

  • Обсуждение крутится вокруг того, можно ли свести понимание и логическое рассуждение к вероятностным моделям вроде LLM.
  • Часть участников считает, что формальное равенство с цепями Маркова или LLM ничего не даёт и упускает ключевые вещи — например, backtracking и символьное мышление.
  • Другие отвечают, что трансформеры с chain-of-thought уже теоретически могут решать всё в классе P, а агенты с внешними инструментами уже делают backtracking на практике.
  • Критика статьи: авторы-физики пишут запутанно, примеров нет, фокус на ядерных реакторах и численных методах выглядит неуместным.
  • Сторонники «горького урока» указывают, что дальнейшее увеличение моделей и данных даст больше, чем попытки встроить строгую символику.

DeepWiki: Understand Any Codebase (aitidbits.ai)

DeepWiki — сервис от создателей Devin, который мгновенно превращает любой GitHub-репозиторий в интерактивную вики.
Просто замените github.com на deepwiki.com и задавайте вопросы без чтения кода.

8 практических приёмов

  1. Разведка репозитория
    За 2 минуты получаю архитектуру, ключевые модули и точки расширения.

  2. Контекст для агентов
    Копирую сводку в Claude/Cursor, чтобы сразу писать релевантный код.

  3. Быстрый старт
    Генерирую README-инструкции по запуску без ручного изучения docker-compose.yml.

  4. Поиск «кухонных» деталей
    Уточняю, где хранятся env-переменные, какие скрипты npm run доступны и т.д.

  5. Сравнение форков
    Загружаю две вики и спрашиваю: «Что добавлено в форке X по сравнению с оригиналом?»

  6. Онбординг новичков
    Раздаю ссылку на вики вместо 30-минутных экскурсий по коду.

  7. Проверка зависимостей
    Запрашиваю список уязвимых пакетов и актуальные версии.

  8. Документация API
    Прошу сгенерировать примеры вызовов REST-endpoints прямо из кода.

Ограничения

  • Публичные репозитории работают сразу.
  • Приватные — через GitHub OAuth с нужными правами.
  • Нет поддержки SVN и Mercurial.

DeepWiki экономит часы при изучении чужого кода и делает LLM-агентов значительно точнее.

by childishnemo • 24 августа 2025 г. в 07:23 • 205 points

ОригиналHN

#github#docker#npm#rest#large-language-models#code-analysis

Комментарии (36)

  • DeepWiki вызывает противоречивые ощущения: кто-то хвалит автодиаграммы и «глубокие» ответы, кто-то ругает за неточности и «AI-slop».
  • Пользователи LibreOffice, PureLB и других проектов жалуются на ложную документацию и баг-репорты, которые тратят время мейнтейнеров.
  • Некоторые считают, что диаграммы слишком абстрактны и не привязаны к реальному коду.
  • Появились попытки сделать open-source/локальные аналоги, но официального способа «выключить» DeepWiki для своего репозитория пока нет.

Evaluating LLMs playing text adventures (entropicthoughts.com)

Оценка LLM в текстовых квестах

Сначала мы просто мерили, сколько ходов нужно, чтобы дойти до далёкой цели. Теперь придумали лучше: ставим лимит в 40 ходов и считаем выполненные достижения. Их описываем парой «ключ → фрагмент текста игры». Например, для 9:05:

  • EXIT_BED → You get out of bed
  • OPEN_DRESSER → revealing some clean
    …и так далее. Модель о достижениях не знает; мы просто подсчитываем совпадения. Очки сравниваем между собой, а не считаем абсолютной оценкой.

Результаты (4 игры, 40 ходов)

Модель 9:05 Lockout Dreamhold Lost Pig
Grok 4 86 % 15 % 46 % 33 %
Claude 4 Sonnet 80 % 30 % 53 % 46 %
Gemini 2.5 Flash 80 % 30 % 33 % 46 %
Gemini 2.5 Pro 80 % 30 % 40 % 40 %
DeepSeek R1 80 % 23 % 33 % 33 %
Claude 4 Opus 73 % 30 % 60 % 46 %
gpt-5 Chat 73 % 15 % 53 % 33 %
DeepSeek V3 66 % 23 % 20 % 33 %
gpt-4o 53 % 23 % 40 % 40 %
Qwen3 Coder 53 % 23 % 40 % 33 %
Kimi K2 53 % 30 % 46 % 40 %
glm 4.5 53 % 23 % 33 % 53 %
Claude 3.5 Haiku 38 % 15 % 26 % 26 %
Llama 3 Maverick 33 % 30 % 40 % 33 %
gpt-o3-mini 20 % 15 % 26 % 26 %
Mistral Small 3 20 % 15 % 0 % 20 %
gpt-4o-mini 13 % 23 % 20 % 40 %

Повторные прогоны не делали — дорого.

by todsacerdoti • 12 августа 2025 г. в 15:19 • 96 points

ОригиналHN

#large-language-models#text-adventure#grok#claude#gemini#llm

Комментарии (63)

  • Исследование показало, что современные LLM-провайдеры плохо справляются даже с классическими текстовыми квестами, несмотря на доступные онлайн-гайды.
  • Участники подчеркивают: ChatGPT-5 — это не одна модель, а роутер, случайно выбирающий модель, что снижает надёжность результатов.
  • Критика методики: неясно, просили ли LLM именно проходить игру, а не просто исследовать, и нет сравнения с людьми.
  • Большинство считает, что LLM не обладают «моделью мира» и не понимают строгих правил, поэтому не могут системно решать головоломки.
  • Некоторые предлагают улучшить подход: давать модели прямой доступ к интерпретатору игры или использовать более точные промпты.

LLMs aren't world models (yosefk.com) 🔥 Горячее 💬 Длинная дискуссия

LLMs не строят модель мира. Это не значит, что они бесполезны, а лишь то, что они не понимают, как устроена реальность, даже виртуальная.

Шахматы. Два года назад я сыграл с LLM: первые ходы она делала уверенно, но уже на 10-м ходе попыталась походить конём, которого не было на доске, и быстро проиграла. Повторил эксперимент сейчас — к 9-му ходу модель теряет позицию. Проанализировав триллион партий, LLM так и не выучила главное: чтобы ходить, нужно знать, где стоят фигуры. Это не требуется для предсказания текста партии.

Графика. Спросил, как работает «Normal blending» в Krita. Ответ: «цвет верхнего слоя просто отображается, возможно, с учётом прозрачности, без формул и вычислений».
Модель не понимает:

  • Цвета в компьютере — это числа.
  • Любое «влияние» прозрачности — это математическая операция.
  • Если видно нижний слой, значит, итоговый цвет зависит от обоих слоёв.

Можно заставить LLM процитировать формулу альфа-смешивания, но это лишь показывает, что она умеет подобрать слова, а не понимает смысл.

Люди тоже могут путаться, но при достаточной мотивации разберутся. У LLM мотивация была: 200 млрд долларов на оборудование.

by ingve • 10 августа 2025 г. в 11:40 • 325 points

ОригиналHN

#large-language-models#machine-learning#artificial-intelligence#neural-networks#transformers#natural-language-processing#llm

Комментарии (184)

  • @antirez и другие приводят контрпримеры: даже крошечные трансформеры выучивают внутренние 8×8 «карты» позиций шахмат, а SOTA-модели действительно играют корректные ходы.
  • @ordu, @skeledrew и @otabdeveloper4 спорят о «правильности» подхода: одни считают LLM «по-человечески» предиктивными, другие подчеркивают разницу в архитектуре и обучении.
  • @ameliaquining выделяет единственное конкретное предсказание поста — «LLM никогда не справятся с большими кодовыми базами автономно» — и даёт ему 80 % на разобьются за два года.
  • @libraryofbabel, @joe_the_user и @yosefk обсуждают интерпретабельность: наличие внутренних представлений не означает полноценной «модели мира», а измерения Elo и «автономность» нуждаются в точных определениях.
  • @DennisP, @GaggiX, @og_kalu приводят ссылки на Genie-3, свежие arXiv-работы и видео, показывающие, что LLM (и мультимодальные модели) уже умеют играть в шахматы и кодить.