Hacker News Digest

Тег: #claud

Постов: 6

Claude Memory (anthropic.com) 🔥 Горячее 💬 Длинная дискуссия

Anthropic представила функцию памяти для Claude, которая позволяет ИИ запоминать контекст проектов, предпочтения команды и рабочие паттерны. Функцией уже пользуются Team и Enterprise-планы, а теперь она доступна и для Pro и Max. Память полностью опциональна с детальным контролем пользователя, а для конфиденциальных разговоров добавлен режим "Инкогнито", который не сохраняется в истории.

Каждый проект имеет отдельную память, что предотвращает смешивание информации между разными инициативами. Пользователи могут просматривать и редактировать то, что запомнил Claude, через сводку памяти. Функция прошла тщательное тестирование безопасности, включая проверку на возможность воспроизведения вредных паттернов. Как отмечено в статье: "Memory helps you and your teams manage complex, concurrent initiatives without mixing unrelated details, serving as a safety guardrail that keeps sensitive conversations contained".

by doppp • 23 октября 2025 г. в 16:56 • 537 points

ОригиналHN

#anthropic#claud#llm#memory#context#privacy#security#data-management

Комментарии (302)

  • Пользователи обсуждают, что новая функция памяти в Claude не работает как RAG-система, а скорее как «контекст-окно плюс» — она не запоминает документы, а лишь «контекст» внутри одной сессии.
  • Участники отмечают, что Anthropic не раскрывает, как именно реализована память: нет никакого доступа к «памяти» или возможности её редактировать, что вызывает вопросы о контроле и прозрачности.
  • Ряд участников подчеркивает, что модель не может отличить, какие именно воспоминания будут использованы в будущем, и это вызывает опасения по поводу приватности и безопасности.
  • Некоторые участники высказывают, что не ясно, как именно память влияет на стоимость и токены, и нет ли у неё каких-то ограничений по объёму.
  • Также обсуждается, что Anthropic не предоставляет никакого способа переноса памяти между различными проектами или даже между Claude и ChatGPT.

Codex Is Live in Zed (zed.dev) 🔥 Горячее

пфф-

by meetpateltech • 16 октября 2025 г. в 15:36 • 254 points

ОригиналHN

#zed#codex#claud#llm#autocompletion#git

Комментарии (54)

  • Пользователи жалуются на качество автодополнения в Zed: оно либо медленное, либо качество подсказок низкое, что делает его непригодным для работы.
  • Некоторые участники обсуждения отмечают, что Zed не предоставляет собственную модель, а вместо этого полагается на внешние API, что может быть связано с проблемами.
  • Обсуждение также затрагивает вопрос о том, как Zed взаимодействует с различными моделями ИИ, включая Claude, Codex и другие.
  • Участники также обсуждают, что Zed не поддерживает некоторые функции, которые были бы полезны, такие как поддержка Git worktrees и diff-инструментов.
  • Некоторые участники также высказывают мнение, что Zed не предоставляет достаточно информации о ценообразовании и использовании кредитов ИИ, что может ввести в заблуждение пользователей.

Microsoft 365 Copilot's commercial failure (perspectives.plus)

Microsoft 365 Copilot, несмотря на двухлетний агрессивный маркетинг и статус ключевого продукта Microsoft, демонстрирует катастрофически низкую коммерческую успешность. По данным из непроверяемых источников, на август 2025 года лишь 8 миллионов пользователей (1,81% от 440 миллионов подписчиков M365) оплачивают лицензии. Это соответствует примерно 2% adoption rate за два года — крайне слабому показателю для продукта, позиционируемого как революционный.

Основная причина провала — отсутствие воспринимаемой ценности: большинство пользователей не видят достаточной пользы, чтобы оправдать стоимость в $30 в месяц. Даже партнёры Microsoft, включая автора, вынуждены платить полную цену и отмечают, что Copilot уступает по эффективности более дешёвым альтернативам вроде ChatGPT Plus. Это ставит под вопрос финансовую состоятельность генеративного ИИ в корпоративном секторе.

by jukkan • 04 октября 2025 г. в 19:39 • 132 points

ОригиналHN

#microsoft-365#microsoft-copilot#artificial-intelligence#generative-ai#llm#claud#sharepoint#teams#excel#github-copilot

Комментарии (85)

  • Низкое внедрение и критика функциональности Copilot: пользователи отмечают его бесполезность, ошибки, плохую интеграцию с данными компании (например, SharePoint) и уступающее качество по сравнению с ChatGPT/Claude.
  • Проблемы с монетизацией и развертыванием: обязательная годовая подписка, сложная система биллинга и агрессивное навязывание функции (например, переименование клавиши) отпугивают пользователей и администраторов.
  • Отдельные позитивные кейсы для не-технических пользователей: некоторые находят Copilot полезным для поиска документов, суммирования встреч в Teams и помощи в рутинных задачах, особенно в средах с ограниченным доступом к другим ИИ-инструментам.
  • Путаница с брендом и стратегией: переименование Office в Copilot и ассоциация с продуктом для разработчиков (GitHub Copilot) вызывают неразбериху у пользователей.
  • Восприятие как сырого продукта с потенциалом: мнения разделились — одни считают его провалом, другие ожидают улучшений в будущих версиях, особенно в таких приложениях, как Excel.

CompileBench: Can AI Compile 22-year-old Code? (quesma.com)

Современные ИИ-модели демонстрируют впечатляющие способности в генерации кода, но сталкиваются с серьёзными трудностями при работе с реальными задачами компиляции — устаревшими инструментами, зависимостями и кроссплатформенной сборкой. CompileBench протестировал 19 моделей на 15 практических заданиях, включая сборку проектов вроде curl и jq, компиляцию под Windows/ARM64 и даже оживление 22-летнего кода 2003 года. Некоторые агенты выполняли до 135 команд за 15 минут для получения рабочего бинарного файла.

Anthropic модели Claude Sonnet и Opus заняли лидирующие позиции по успешности сборки, подтверждая свою репутацию среди разработчиков. OpenAI модели, особенно GPT-5-mini, показали лучшую ценовую эффективность, балансируя между скоростью и качеством. Gemini от Google неожиданно провалился: модели часто игнорировали спецификации задач, например, создавали динамические вместо статических сборок, несмотря на чёткие требования.

by jakozaur • 22 сентября 2025 г. в 12:59 • 126 points

ОригиналHN

#llm#compilation#benchmarking#legacy-code#cross-compilation#arm64#claud#gpt-5#gemini

Комментарии (55)

  • Сложность сборки и кросс-компиляции legacy-проектов (Chocolate Doom, curl) на современных системах, включая ARM64.
  • Способность ИИ (особенно Claude Opus) автоматически исправлять ошибки сборки, хотя процесс может занимать много времени и команд.
  • Предложения расширить бенчмарки более сложными проектами (FFmpeg, Chromium, Qt) и проверкой корректности через тесты и санитайзеры.
  • Скептицизм относительно способности ИИ гарантировать корректность итогового бинарного кода после автоматических правок.
  • Практическая ценность автоматизации рутинных задач по настройке toolchain и портированию старого кода.

Tau² benchmark: How a prompt rewrite boosted GPT-5-mini by 22% (quesma.com)

Как переписывание промта повысило эффективность GPT-5-mini на 22%

Мы представляем результаты тестирования модели GPT-5-mini в рамках бенчмарка Tau², предназначенного для оценки языковых моделей. Оказалось, что простое переписывание промта повысило успешность небольшой модели более чем на 20%.

Тестирование LLM с Tau²

На летнем обновлении OpenAI заявили, что GPT-5 значительно улучшила агентские задачи. Для проверки использовали бенчмарк Tau², симулирующий реальные взаимодействия в телекоме, ритейле и авиалиниях. Однако улучшения GPT-5 были заметны только в телекоме, поэтому мы сосредоточились на этой области.

GPT-5-mini предлагает преимущества: вдвое меньше задержка, выше пропускная способность и в пять раз дешевле при 85–95% производительности полной GPT-5. Мы провели эксперимент, чтобы оценить, насколько хорошо GPT-5-mini справляется с бенчмарком и можно ли улучшить её результаты, изменяя политики агентов или описания задач.

Базовые результаты: 45% провалов

Мы запустили подмножество из 20 тестовых сценариев телекома. Результаты показали успешность всего 55%. GPT-5-mini с её ограниченными возможностями reasoning не приблизилась к флагманской GPT-5.

Бенчмарк также ввёл метрику pass^k, измеряющую надёжность агента при k попытках выполнения задачи, и выделил задачи, с которыми агент не справляется совсем.

Решение: переписывание промтов с помощью Claude

Мы поставили три цели: повысить общую успешность, "разблокировать" больше задач и улучшить надёжность агента. Используя генеративный ИИ, мы поручили Claude проанализировать политики агентов в телекоме и переписать их для упрощения понимания моделью GPT-5-mini.

Ключевые улучшения включали:

  • Чёткие деревья решений и последовательные шаги
  • Ясные условия и обработку ошибок
  • Снижение когнитивной нагрузки через таблицы и шаблоны
  • Действенные команды вместо описаний

После переписывания промтов успешность GPT-5-mini выросла до 77%, что на 22% выше исходного показателя. Это демонстрирует, что тонкая настройка промтов может значительно повысить эффективность небольших моделей без изменения их архитектуры.

by blndrt • 17 сентября 2025 г. в 13:03 • 180 points

ОригиналHN

#gpt-5-mini#gpt-5#prompts#llm#telecom#benchmarking#claud#ai-agents

Комментарии (57)

  • Оптимизация структуры промптов (деревья решений, нумерованные шаги, проверки зависимостей) значительно улучшает работу ИИ-агентов.
  • Использование Claude для перезаписи промпта повысило эффективность GPT-5-mini в телеком-бенчмарке, но методология вызывает вопросы о возможной утечке данных.
  • Подход перезаписи промптов затратен по времени и ресурсам, не универсален для разных доменов и может нивелировать преимущества небольших моделей.
  • Сообщество выражает скептицизм относительно долгосрочной стабильности и воспроизводимости результатов, полученных с помощью подобных техник.
  • Многие отмечают, что описанные практики уже представлены в более продвинутых фреймворках, таких как DSPy.
  • Обсуждается этический аспект: оптимизация промпта под конкретный бенчмарк может искажать оценку истинных агентских способностей модели.
  • Отсутствие исходных промптов и деталей перезаписи затрудняет независимую верификацию и воспроизведение результатов.

Show HN: Sping – An HTTP/TCP latency tool that's easy on the eye (dseltzer.gitlab.io)

sping — терминальный мониторинг задержек HTTP/TCP с живыми графиками. Установка: pip install service-ping-sping.

Быстрый старт

sping google.com                 # HTTP
sping tcp://google.com:80        # TCP
sping https://api.example.com -i 0.5 -c 20
sping example.com --json -c 5

Возможности

  • HTTP/HTTPS/TCP, разбивка по фазам (DNS, TLS, запрос, ответ).
  • Авто-обнаружение выбросов по MAD (6× медиана).
  • Пороги warning/critical, выбор IPv4/IPv6, кэш DNS.
  • Процентили p50-p99, экспорт JSON, 8 цветовых тем.
  • Bearer/Basic-аутентификация, кастомный User-Agent.

Примеры

sping api.example.com -X POST --body --auth "bearer:token"
sping tcp://localhost:5432 -i 0.1
sping example.com --warn 100 --crit 500 --percentiles

Ключи

-i интервал, -c число запросов, --timeout, --ipv4/--ipv6, --resolve-once, --body, --no-keepalive, --insecure, --warn/--crit, --percentiles, --palette <theme>.

by zorlack • 24 августа 2025 г. в 23:42 • 166 points

ОригиналHN

#http#tcp#python#pip#json#go#rust#mtr#llm#claud

Комментарии (23)

  • Пользователи хвалят визуальный ping-утилиту sping, но предлагают переписать её на Go/Rust для статического бинарника без зависимостей.
  • Автор подтвердил, что проект полностью сделан с помощью ChatGPT и Claude, а README «украшен» эмодзи.
  • Найдены мелкие баги: ошибка палитры цветов и сбой при выводе финального резюме.
  • Некоторые сравнивают инструмент с mtr, tracepath и nping --tr, отмечая, что нужен более дружелюбный аналог.