Claude Memory 🔥 Горячее 💬 Длинная дискуссия
Anthropic представила функцию памяти для Claude, которая позволяет ИИ запоминать контекст проектов, предпочтения команды и рабочие паттерны. Функцией уже пользуются Team и Enterprise-планы, а теперь она доступна и для Pro и Max. Память полностью опциональна с детальным контролем пользователя, а для конфиденциальных разговоров добавлен режим "Инкогнито", который не сохраняется в истории.
Каждый проект имеет отдельную память, что предотвращает смешивание информации между разными инициативами. Пользователи могут просматривать и редактировать то, что запомнил Claude, через сводку памяти. Функция прошла тщательное тестирование безопасности, включая проверку на возможность воспроизведения вредных паттернов. Как отмечено в статье: "Memory helps you and your teams manage complex, concurrent initiatives without mixing unrelated details, serving as a safety guardrail that keeps sensitive conversations contained".
Комментарии (302)
- Пользователи обсуждают, что новая функция памяти в Claude не работает как RAG-система, а скорее как «контекст-окно плюс» — она не запоминает документы, а лишь «контекст» внутри одной сессии.
- Участники отмечают, что Anthropic не раскрывает, как именно реализована память: нет никакого доступа к «памяти» или возможности её редактировать, что вызывает вопросы о контроле и прозрачности.
- Ряд участников подчеркивает, что модель не может отличить, какие именно воспоминания будут использованы в будущем, и это вызывает опасения по поводу приватности и безопасности.
- Некоторые участники высказывают, что не ясно, как именно память влияет на стоимость и токены, и нет ли у неё каких-то ограничений по объёму.
- Также обсуждается, что Anthropic не предоставляет никакого способа переноса памяти между различными проектами или даже между Claude и ChatGPT.
Codex Is Live in Zed 🔥 Горячее
пфф-
Комментарии (54)
- Пользователи жалуются на качество автодополнения в Zed: оно либо медленное, либо качество подсказок низкое, что делает его непригодным для работы.
- Некоторые участники обсуждения отмечают, что Zed не предоставляет собственную модель, а вместо этого полагается на внешние API, что может быть связано с проблемами.
- Обсуждение также затрагивает вопрос о том, как Zed взаимодействует с различными моделями ИИ, включая Claude, Codex и другие.
- Участники также обсуждают, что Zed не поддерживает некоторые функции, которые были бы полезны, такие как поддержка Git worktrees и diff-инструментов.
- Некоторые участники также высказывают мнение, что Zed не предоставляет достаточно информации о ценообразовании и использовании кредитов ИИ, что может ввести в заблуждение пользователей.
Microsoft 365 Copilot's commercial failure
Microsoft 365 Copilot, несмотря на двухлетний агрессивный маркетинг и статус ключевого продукта Microsoft, демонстрирует катастрофически низкую коммерческую успешность. По данным из непроверяемых источников, на август 2025 года лишь 8 миллионов пользователей (1,81% от 440 миллионов подписчиков M365) оплачивают лицензии. Это соответствует примерно 2% adoption rate за два года — крайне слабому показателю для продукта, позиционируемого как революционный.
Основная причина провала — отсутствие воспринимаемой ценности: большинство пользователей не видят достаточной пользы, чтобы оправдать стоимость в $30 в месяц. Даже партнёры Microsoft, включая автора, вынуждены платить полную цену и отмечают, что Copilot уступает по эффективности более дешёвым альтернативам вроде ChatGPT Plus. Это ставит под вопрос финансовую состоятельность генеративного ИИ в корпоративном секторе.
Комментарии (85)
- Низкое внедрение и критика функциональности Copilot: пользователи отмечают его бесполезность, ошибки, плохую интеграцию с данными компании (например, SharePoint) и уступающее качество по сравнению с ChatGPT/Claude.
- Проблемы с монетизацией и развертыванием: обязательная годовая подписка, сложная система биллинга и агрессивное навязывание функции (например, переименование клавиши) отпугивают пользователей и администраторов.
- Отдельные позитивные кейсы для не-технических пользователей: некоторые находят Copilot полезным для поиска документов, суммирования встреч в Teams и помощи в рутинных задачах, особенно в средах с ограниченным доступом к другим ИИ-инструментам.
- Путаница с брендом и стратегией: переименование Office в Copilot и ассоциация с продуктом для разработчиков (GitHub Copilot) вызывают неразбериху у пользователей.
- Восприятие как сырого продукта с потенциалом: мнения разделились — одни считают его провалом, другие ожидают улучшений в будущих версиях, особенно в таких приложениях, как Excel.
CompileBench: Can AI Compile 22-year-old Code?
Современные ИИ-модели демонстрируют впечатляющие способности в генерации кода, но сталкиваются с серьёзными трудностями при работе с реальными задачами компиляции — устаревшими инструментами, зависимостями и кроссплатформенной сборкой. CompileBench протестировал 19 моделей на 15 практических заданиях, включая сборку проектов вроде curl и jq, компиляцию под Windows/ARM64 и даже оживление 22-летнего кода 2003 года. Некоторые агенты выполняли до 135 команд за 15 минут для получения рабочего бинарного файла.
Anthropic модели Claude Sonnet и Opus заняли лидирующие позиции по успешности сборки, подтверждая свою репутацию среди разработчиков. OpenAI модели, особенно GPT-5-mini, показали лучшую ценовую эффективность, балансируя между скоростью и качеством. Gemini от Google неожиданно провалился: модели часто игнорировали спецификации задач, например, создавали динамические вместо статических сборок, несмотря на чёткие требования.
Комментарии (55)
- Сложность сборки и кросс-компиляции legacy-проектов (Chocolate Doom, curl) на современных системах, включая ARM64.
- Способность ИИ (особенно Claude Opus) автоматически исправлять ошибки сборки, хотя процесс может занимать много времени и команд.
- Предложения расширить бенчмарки более сложными проектами (FFmpeg, Chromium, Qt) и проверкой корректности через тесты и санитайзеры.
- Скептицизм относительно способности ИИ гарантировать корректность итогового бинарного кода после автоматических правок.
- Практическая ценность автоматизации рутинных задач по настройке toolchain и портированию старого кода.
Tau² benchmark: How a prompt rewrite boosted GPT-5-mini by 22%
Как переписывание промта повысило эффективность GPT-5-mini на 22%
Мы представляем результаты тестирования модели GPT-5-mini в рамках бенчмарка Tau², предназначенного для оценки языковых моделей. Оказалось, что простое переписывание промта повысило успешность небольшой модели более чем на 20%.
Тестирование LLM с Tau²
На летнем обновлении OpenAI заявили, что GPT-5 значительно улучшила агентские задачи. Для проверки использовали бенчмарк Tau², симулирующий реальные взаимодействия в телекоме, ритейле и авиалиниях. Однако улучшения GPT-5 были заметны только в телекоме, поэтому мы сосредоточились на этой области.
GPT-5-mini предлагает преимущества: вдвое меньше задержка, выше пропускная способность и в пять раз дешевле при 85–95% производительности полной GPT-5. Мы провели эксперимент, чтобы оценить, насколько хорошо GPT-5-mini справляется с бенчмарком и можно ли улучшить её результаты, изменяя политики агентов или описания задач.
Базовые результаты: 45% провалов
Мы запустили подмножество из 20 тестовых сценариев телекома. Результаты показали успешность всего 55%. GPT-5-mini с её ограниченными возможностями reasoning не приблизилась к флагманской GPT-5.
Бенчмарк также ввёл метрику pass^k, измеряющую надёжность агента при k попытках выполнения задачи, и выделил задачи, с которыми агент не справляется совсем.
Решение: переписывание промтов с помощью Claude
Мы поставили три цели: повысить общую успешность, "разблокировать" больше задач и улучшить надёжность агента. Используя генеративный ИИ, мы поручили Claude проанализировать политики агентов в телекоме и переписать их для упрощения понимания моделью GPT-5-mini.
Ключевые улучшения включали:
- Чёткие деревья решений и последовательные шаги
- Ясные условия и обработку ошибок
- Снижение когнитивной нагрузки через таблицы и шаблоны
- Действенные команды вместо описаний
После переписывания промтов успешность GPT-5-mini выросла до 77%, что на 22% выше исходного показателя. Это демонстрирует, что тонкая настройка промтов может значительно повысить эффективность небольших моделей без изменения их архитектуры.
Комментарии (57)
- Оптимизация структуры промптов (деревья решений, нумерованные шаги, проверки зависимостей) значительно улучшает работу ИИ-агентов.
- Использование Claude для перезаписи промпта повысило эффективность GPT-5-mini в телеком-бенчмарке, но методология вызывает вопросы о возможной утечке данных.
- Подход перезаписи промптов затратен по времени и ресурсам, не универсален для разных доменов и может нивелировать преимущества небольших моделей.
- Сообщество выражает скептицизм относительно долгосрочной стабильности и воспроизводимости результатов, полученных с помощью подобных техник.
- Многие отмечают, что описанные практики уже представлены в более продвинутых фреймворках, таких как DSPy.
- Обсуждается этический аспект: оптимизация промпта под конкретный бенчмарк может искажать оценку истинных агентских способностей модели.
- Отсутствие исходных промптов и деталей перезаписи затрудняет независимую верификацию и воспроизведение результатов.
Show HN: Sping – An HTTP/TCP latency tool that's easy on the eye
sping — терминальный мониторинг задержек HTTP/TCP с живыми графиками. Установка: pip install service-ping-sping.
Быстрый старт
sping google.com # HTTP
sping tcp://google.com:80 # TCP
sping https://api.example.com -i 0.5 -c 20
sping example.com --json -c 5
Возможности
- HTTP/HTTPS/TCP, разбивка по фазам (DNS, TLS, запрос, ответ).
- Авто-обнаружение выбросов по MAD (6× медиана).
- Пороги warning/critical, выбор IPv4/IPv6, кэш DNS.
- Процентили p50-p99, экспорт JSON, 8 цветовых тем.
- Bearer/Basic-аутентификация, кастомный User-Agent.
Примеры
sping api.example.com -X POST --body --auth "bearer:token"
sping tcp://localhost:5432 -i 0.1
sping example.com --warn 100 --crit 500 --percentiles
Ключи
-i интервал, -c число запросов, --timeout, --ipv4/--ipv6, --resolve-once, --body, --no-keepalive, --insecure, --warn/--crit, --percentiles, --palette <theme>.
Комментарии (23)
- Пользователи хвалят визуальный ping-утилиту
sping, но предлагают переписать её на Go/Rust для статического бинарника без зависимостей. - Автор подтвердил, что проект полностью сделан с помощью ChatGPT и Claude, а README «украшен» эмодзи.
- Найдены мелкие баги: ошибка палитры цветов и сбой при выводе финального резюме.
- Некоторые сравнивают инструмент с
mtr,tracepathиnping --tr, отмечая, что нужен более дружелюбный аналог.