Hacker News Digest

Тег: #context-management

Постов: 4

Recursive Language Models (RLMs) (alexzhang13.github.io)

Алекс Чжэн (Alex L. Zhang) исследует рекурсивные языковые модели (RLM), где модель может рекурсивно вызывать саму себя или другие модели для обработки контекста, который слишком велик для одного вызова.

Ключевая идея: RLM позволяет обрабатывать контекст практически неограниченной длины, избегая "гниения контекста" — когда модель теряет информацию из-за переполнения. Например, вместо того чтобы загружать весь длинный текст в один вызов, RLM разбивает его на части, рекурсивно обрабатывает каждую часть и комбинирует результаты.

Результаты впечатляют: RLM на базе GPT-5-mini превосходит обычный GPT-5 на сложных тестах, удваивая производительность, и делает это дешевле. Они также создали новый тест на основе BrowsePlos-Plus, где RLM снова выигрывает.

Важно: RLM может работать даже с контекстом в 10+ миллионов токенов, что демонстрирует масштабируемость подхода. Это открывает дорогу к обработке книг, длинных документов и сложных исследований без потери качества.<|begin▁of▁sentence|>

by talhof8 • 15 октября 2025 г. в 17:43 • 91 points

ОригиналHN

#recursive-language-models#gpt-5#llm#text-processing#context-management#agent-architecture

Комментарии (25)

  • Обсуждение в основном вращается вокруг RLM (Recursive Language Model) и его влияния на архитектуру агентов, при этом участники спорят, насколько это новая идея или просто ребрендинг существующих подходов.
  • Участники обсуждают, что такое RLM: просто рекурсивный вызов LLM или же более сложная система, где корневая модель может вызывать другие модели, и как это отличается от существующих подходов, таких как ViperGPT и CodeAct.
  • Также обсуждается, что такое рекурсия в контексте LLM: насколько она отличается от простого взаимодействия с внешними инструментами, и насколько она важна для архитектуры агента.
  • Наконец, участники обсуждают, какие практические последствия это может иметь для разработки систем, которые используют такие агенты, включая вопросы производительности и стоимости.

Managing context on the Claude Developer Platform (anthropic.com)

На платформе разработчиков Claude появились инструменты для управления контекстом: автоматическое редактирование контекста и инструмент памяти. Редактирование контекста удаляет устаревшие результаты инструментов при приближении к лимиту токенов, сохраняя ход беседы и повышая производительность. Инструмент памяти позволяет Клоду сохранять информацию во внешних файлах, создавая базу знаний, сохраняемую между сессиями.

Внутренние тесты показывают, что совместное использование этих функций улучшает производительность агентов на 39%, а одно лишь редактирование контекста — на 29%. В 100-шаговом веб-поиске потребление токенов сократилось на 84%. Эти возможности уже доступны в публичной бета-версии на платформе Claude, Amazon Bedrock и Google Cloud Vertex AI.

by benzguo • 05 октября 2025 г. в 05:20 • 196 points

ОригиналHN

#anthropic#claude#amazon-bedrock#google-cloud-vertex-ai#llm#context-management#api#developer-experience#hallucinations#vendor-lock-in

Комментарии (83)

  • Пользователи обсуждают новые функции управления контекстом и памятью в LLM, такие как автоматическое удаление устаревших данных и сохранение критической информации
  • Высказываются предложения по улучшению: редактирование контекста на стороне сервера, стандартизация API между провайдерами, интеграция с UI-инструментами
  • Отмечается, что многие функции уже реализованы в сторонних решениях, но официальная поддержка улучшает developer experience
  • Обсуждаются технические сложности: проблемы с hallucinations при редактировании контекста, баланс между агентами, многозадачное оркестрирование
  • Некоторые пользователи выражают скептицизм относительно новизны функций и обеспокоенность по поводу vendor lock-in

Context is the bottleneck for coding agents now (runnercode.com)

Современные модели ИИ демонстрируют сверхчеловеческие способности в решении абстрактных задач, как показал недавний успех GPT-5 на ICPC, но автономные кодирующие агенты всё ещё не могут заменить разработчиков. Основное ограничение — не интеллект, а контекст: агентам не хватает глубокого понимания кодовой базы, её архитектурных паттернов и скрытых знаний, которые есть у людей.

Контекст включает не только код, но и документацию, историю решений, неформальные соглашения и причины прошлых изменений. Без доступа к Slack-тредам, постмортемам инцидентов и организационным практикам агенты работают лишь на 20% от возможного уровня, справляясь в основном с мелкими задачами. Чтобы двигаться дальше, нужны системы, способные усваивать и применять этот скрытый контекст так же, как это делают люди.

by zmccormick7 • 26 сентября 2025 г. в 15:06 • 146 points

ОригиналHN

#llm#coding-agents#codebases#context-management#documentation#software-development#large-language-models#artificial-intelligence#developer-tools#machine-learning

Комментарии (149)

  • Основным ограничением для кодирующих агентов на основе ИИ является не размер контекстного окна, а неспособность эффективно фокусироваться на актуальных задачах и отбрасывать нерелевантную информацию.
  • Многие участники отмечают, что ИИ-агенты демонстрируют уровень понимания, сравнимый с начинающим разработчиком, и не способны заменить senior-специалистов, которые могут интерпретировать бизнес-требования и принимать ответственные решения.
  • Существует скептицизм относительно бесконечного увеличения "интеллекта" моделей, так как даже с большим контекстом они допускают ошибки и галлюцинации, а фундаментальные ограничения вероятностной генерации остаются.
  • Предлагаются решения для улучшения работы агентов: лучше структурированные кодобазы, иерархическая документация, инструменты для управления контекстом и памятью, а также человеческий контроль для курирования процесса.
  • Подчёркивается, что ключевая проблема — не технический контекст, а понимание intent (намерения) стоящего за кодом, что требует более глубокого осмысления, чем простое прогнозирование токенов.

Why LLMs can't really build software (zed.dev) 🔥 Горячее 💬 Длинная дискуссия

Почему LLM не могут строить ПО

Эффективный инженер постоянно прокручивает цикл:

  1. формирует ментальную модель требований,
  2. пишет код,
  3. проверяет, что он реально делает,
  4. сверяет модели и правит код или требования.

LLM умеют писать и обновлять код, запускать тесты, логировать, но не умеют держать в голове ясную модель. Они путаются: считают, что всё работает, не понимают, где ошибка — в коде или в тесте, и при раздражении сносят всё и начинают заново. Человек же, столкнувшись с проблемой, может «свернуть» контекст, сфокусироваться на детали, затем вернуться к общей картине.

Даже если модели станут мощнее, им нужно научиться так же «держать в памяти» и переключаться между уровнями детализации. Сейчас они страдают от выпадения контекста, пристрастия к свежим фактам и галлюцинаций. Работа над «памятью» идёт, но пока LLM не понимают происходящего и не могут сравнивать две похожие модели, чтобы решить, что менять.

LLM полезны: быстро генерируют код и документацию, справляются с простыми задачами. В сложных случаях человек всё равно должен контролировать требования и проверять результат. В Zed верят в совместную работу человека и агента, но руль остаётся за инженером, а LLM — лишь инструмент.

by srid • 14 августа 2025 г. в 13:26 • 737 points

ОригиналHN

#llm#software-engineering#tdd#testing#debugging#context-management#programming

Комментарии (426)

  • LLM хороши как инструменты-ассистенты: быстро пишут boilerplate, находят мелкие ошибки, экономят время на рутине.
  • Главный недостаток — неспособность удерживать и «поддерживать» целостную ментальную модель задачи; контекст «размывается» или меняется непредсказуемо.
  • Поэтому при росте кодовой базы отладка превращается в «чтение спагетти», и инженер всё равно вынужден начинать заново.
  • Решение — не «больше контекста», а системы-обёртки: TDD-циклы, пошаговое планирование, документация-модель, строгие промпты.
  • Вывод: сейчас LLM заменяют джунов и Google-поиск, но полноценное ПО без человека, который держит «теорию» проекта в голове, построить не могут.