Anthropic’s paper smells like bullshit (djnn.sh) 🔥 Горячее 💬 Длинная дискуссия

Автор статьи подвергает сомнению отчет Anthropic о якобы обнаруженной китайской кибершпионской операции GTG-1002, которая использовала Claude для координации атак. В отчете утверждается, что ИИ выполнял 80-90% операций независимо, но отсутствуют какие-либо доказательства или технические детали. В отличие от стандартных отчетов по кибербезопасности, в этом документе нет индикаторов компрометации (IoC), тактик, методов и процедур (TTPs), хешей или доменов, которые могли бы помочь другим организациям защититься от атак.

Автор критикует отчет за непроверяемые заявления и отсутствие конкретики: неясно, какие инструменты использовались, какие данные были извлечены и какие системы затронуты. В то время как серьезные CERT-отчеты содержат подробную техническую информацию, отчет Anthropic лишь упоминает уведомление властей и партнеров без деталей о принятых мерах. Автор считает, что такой подход не помогает сообществу по-настоящему понять и противостоять новым угрозам, и называет отчет "буллшитом" из-за отсутствия технического содержания.

by vxvxvx • 16 ноября 2025 г. в 11:32 • 1063 points

Оригинал • HN

#cybersecurity #threat-analysis #artificial-intelligence #anthropic #claud #china #cyber-espionage #cyber-threats

Комментарии (298)

Обсуждение в основном крутится вокруг отчёта Anthropic о китайских хакерах, но участники подчеркивают, что доклад не предоставляет конкретных доказательств и выглядит как маркетинговый материал.
Участники также критикуют Anthropic за то, что компания не предоставляет достаточно информации о том, как именно произошла атака, и не делится индикаторами компрометации, что делает невозможным проверить утверждения.
Некоторые комментаторы поднимают вопрос о том, почему Anthropic, как создатель модели, не несёт ответственности за то, что её продукт используется в злонамеренных целях, в то время как другие компании, такие как Microsoft, отвечают за подобные ситуации.
Участники также обсуждают, что Anthropic использует отчёт для продвижения своей позиции в контексте регулирования ИИ и для того, чтобы оправдать необходимость финансирования.
Некоторые комментаторы высказывают сомнение в том, что атака была проведена китайскими государственными акторами, и утверждают, что Anthropic использует отчёт для продвижения своей позиции в контексте регулирования ИИ.

Claude Memory (anthropic.com) 🔥 Горячее 💬 Длинная дискуссия

Anthropic представила функцию памяти для Claude, которая позволяет ИИ запоминать контекст проектов, предпочтения команды и рабочие паттерны. Функцией уже пользуются Team и Enterprise-планы, а теперь она доступна и для Pro и Max. Память полностью опциональна с детальным контролем пользователя, а для конфиденциальных разговоров добавлен режим "Инкогнито", который не сохраняется в истории.

Каждый проект имеет отдельную память, что предотвращает смешивание информации между разными инициативами. Пользователи могут просматривать и редактировать то, что запомнил Claude, через сводку памяти. Функция прошла тщательное тестирование безопасности, включая проверку на возможность воспроизведения вредных паттернов. Как отмечено в статье: "Memory helps you and your teams manage complex, concurrent initiatives without mixing unrelated details, serving as a safety guardrail that keeps sensitive conversations contained".

by doppp • 23 октября 2025 г. в 16:56 • 537 points

Оригинал • HN

#anthropic #claud #llm #memory #context #privacy #security #data-management

Комментарии (302)

Пользователи обсуждают, что новая функция памяти в Claude не работает как RAG-система, а скорее как «контекст-окно плюс» — она не запоминает документы, а лишь «контекст» внутри одной сессии.
Участники отмечают, что Anthropic не раскрывает, как именно реализована память: нет никакого доступа к «памяти» или возможности её редактировать, что вызывает вопросы о контроле и прозрачности.
Ряд участников подчеркивает, что модель не может отличить, какие именно воспоминания будут использованы в будущем, и это вызывает опасения по поводу приватности и безопасности.
Некоторые участники высказывают, что не ясно, как именно память влияет на стоимость и токены, и нет ли у неё каких-то ограничений по объёму.
Также обсуждается, что Anthropic не предоставляет никакого способа переноса памяти между различными проектами или даже между Claude и ChatGPT.

Codex Is Live in Zed (zed.dev) 🔥 Горячее

пфф-

by meetpateltech • 16 октября 2025 г. в 15:36 • 254 points

Оригинал • HN

#zed #codex #claud #llm #autocompletion #git

Комментарии (54)

Пользователи жалуются на качество автодополнения в Zed: оно либо медленное, либо качество подсказок низкое, что делает его непригодным для работы.
Некоторые участники обсуждения отмечают, что Zed не предоставляет собственную модель, а вместо этого полагается на внешние API, что может быть связано с проблемами.
Обсуждение также затрагивает вопрос о том, как Zed взаимодействует с различными моделями ИИ, включая Claude, Codex и другие.
Участники также обсуждают, что Zed не поддерживает некоторые функции, которые были бы полезны, такие как поддержка Git worktrees и diff-инструментов.
Некоторые участники также высказывают мнение, что Zed не предоставляет достаточно информации о ценообразовании и использовании кредитов ИИ, что может ввести в заблуждение пользователей.

Microsoft 365 Copilot's commercial failure (perspectives.plus)

Microsoft 365 Copilot, несмотря на двухлетний агрессивный маркетинг и статус ключевого продукта Microsoft, демонстрирует катастрофически низкую коммерческую успешность. По данным из непроверяемых источников, на август 2025 года лишь 8 миллионов пользователей (1,81% от 440 миллионов подписчиков M365) оплачивают лицензии. Это соответствует примерно 2% adoption rate за два года — крайне слабому показателю для продукта, позиционируемого как революционный.

Основная причина провала — отсутствие воспринимаемой ценности: большинство пользователей не видят достаточной пользы, чтобы оправдать стоимость в $30 в месяц. Даже партнёры Microsoft, включая автора, вынуждены платить полную цену и отмечают, что Copilot уступает по эффективности более дешёвым альтернативам вроде ChatGPT Plus. Это ставит под вопрос финансовую состоятельность генеративного ИИ в корпоративном секторе.

by jukkan • 04 октября 2025 г. в 19:39 • 132 points

Оригинал • HN

#microsoft-365 #microsoft-copilot #artificial-intelligence #generative-ai #llm #claud #sharepoint #teams #excel #github-copilot

Комментарии (85)

Низкое внедрение и критика функциональности Copilot: пользователи отмечают его бесполезность, ошибки, плохую интеграцию с данными компании (например, SharePoint) и уступающее качество по сравнению с ChatGPT/Claude.
Проблемы с монетизацией и развертыванием: обязательная годовая подписка, сложная система биллинга и агрессивное навязывание функции (например, переименование клавиши) отпугивают пользователей и администраторов.
Отдельные позитивные кейсы для не-технических пользователей: некоторые находят Copilot полезным для поиска документов, суммирования встреч в Teams и помощи в рутинных задачах, особенно в средах с ограниченным доступом к другим ИИ-инструментам.
Путаница с брендом и стратегией: переименование Office в Copilot и ассоциация с продуктом для разработчиков (GitHub Copilot) вызывают неразбериху у пользователей.
Восприятие как сырого продукта с потенциалом: мнения разделились — одни считают его провалом, другие ожидают улучшений в будущих версиях, особенно в таких приложениях, как Excel.

CompileBench: Can AI Compile 22-year-old Code? (quesma.com)

Современные ИИ-модели демонстрируют впечатляющие способности в генерации кода, но сталкиваются с серьёзными трудностями при работе с реальными задачами компиляции — устаревшими инструментами, зависимостями и кроссплатформенной сборкой. CompileBench протестировал 19 моделей на 15 практических заданиях, включая сборку проектов вроде curl и jq, компиляцию под Windows/ARM64 и даже оживление 22-летнего кода 2003 года. Некоторые агенты выполняли до 135 команд за 15 минут для получения рабочего бинарного файла.

Anthropic модели Claude Sonnet и Opus заняли лидирующие позиции по успешности сборки, подтверждая свою репутацию среди разработчиков. OpenAI модели, особенно GPT-5-mini, показали лучшую ценовую эффективность, балансируя между скоростью и качеством. Gemini от Google неожиданно провалился: модели часто игнорировали спецификации задач, например, создавали динамические вместо статических сборок, несмотря на чёткие требования.

by jakozaur • 22 сентября 2025 г. в 12:59 • 126 points

Оригинал • HN

#llm #compilation #benchmarking #legacy-code #cross-compilation #arm64 #claud #gpt-5 #gemini

Комментарии (55)

Сложность сборки и кросс-компиляции legacy-проектов (Chocolate Doom, curl) на современных системах, включая ARM64.
Способность ИИ (особенно Claude Opus) автоматически исправлять ошибки сборки, хотя процесс может занимать много времени и команд.
Предложения расширить бенчмарки более сложными проектами (FFmpeg, Chromium, Qt) и проверкой корректности через тесты и санитайзеры.
Скептицизм относительно способности ИИ гарантировать корректность итогового бинарного кода после автоматических правок.
Практическая ценность автоматизации рутинных задач по настройке toolchain и портированию старого кода.

Tau² benchmark: How a prompt rewrite boosted GPT-5-mini by 22% (quesma.com)

Как переписывание промта повысило эффективность GPT-5-mini на 22%

Мы представляем результаты тестирования модели GPT-5-mini в рамках бенчмарка Tau², предназначенного для оценки языковых моделей. Оказалось, что простое переписывание промта повысило успешность небольшой модели более чем на 20%.

Тестирование LLM с Tau²

На летнем обновлении OpenAI заявили, что GPT-5 значительно улучшила агентские задачи. Для проверки использовали бенчмарк Tau², симулирующий реальные взаимодействия в телекоме, ритейле и авиалиниях. Однако улучшения GPT-5 были заметны только в телекоме, поэтому мы сосредоточились на этой области.

GPT-5-mini предлагает преимущества: вдвое меньше задержка, выше пропускная способность и в пять раз дешевле при 85–95% производительности полной GPT-5. Мы провели эксперимент, чтобы оценить, насколько хорошо GPT-5-mini справляется с бенчмарком и можно ли улучшить её результаты, изменяя политики агентов или описания задач.

Базовые результаты: 45% провалов

Мы запустили подмножество из 20 тестовых сценариев телекома. Результаты показали успешность всего 55%. GPT-5-mini с её ограниченными возможностями reasoning не приблизилась к флагманской GPT-5.

Бенчмарк также ввёл метрику pass^k, измеряющую надёжность агента при k попытках выполнения задачи, и выделил задачи, с которыми агент не справляется совсем.

Решение: переписывание промтов с помощью Claude

Мы поставили три цели: повысить общую успешность, "разблокировать" больше задач и улучшить надёжность агента. Используя генеративный ИИ, мы поручили Claude проанализировать политики агентов в телекоме и переписать их для упрощения понимания моделью GPT-5-mini.

Ключевые улучшения включали:

Чёткие деревья решений и последовательные шаги
Ясные условия и обработку ошибок
Снижение когнитивной нагрузки через таблицы и шаблоны
Действенные команды вместо описаний

После переписывания промтов успешность GPT-5-mini выросла до 77%, что на 22% выше исходного показателя. Это демонстрирует, что тонкая настройка промтов может значительно повысить эффективность небольших моделей без изменения их архитектуры.

by blndrt • 17 сентября 2025 г. в 13:03 • 180 points

Оригинал • HN

#gpt-5-mini #gpt-5 #prompts #llm #telecom #benchmarking #claud #ai-agents

Комментарии (57)

Оптимизация структуры промптов (деревья решений, нумерованные шаги, проверки зависимостей) значительно улучшает работу ИИ-агентов.
Использование Claude для перезаписи промпта повысило эффективность GPT-5-mini в телеком-бенчмарке, но методология вызывает вопросы о возможной утечке данных.
Подход перезаписи промптов затратен по времени и ресурсам, не универсален для разных доменов и может нивелировать преимущества небольших моделей.
Сообщество выражает скептицизм относительно долгосрочной стабильности и воспроизводимости результатов, полученных с помощью подобных техник.
Многие отмечают, что описанные практики уже представлены в более продвинутых фреймворках, таких как DSPy.
Обсуждается этический аспект: оптимизация промпта под конкретный бенчмарк может искажать оценку истинных агентских способностей модели.
Отсутствие исходных промптов и деталей перезаписи затрудняет независимую верификацию и воспроизведение результатов.

Show HN: Sping – An HTTP/TCP latency tool that's easy on the eye (dseltzer.gitlab.io)

sping — терминальный мониторинг задержек HTTP/TCP с живыми графиками. Установка: pip install service-ping-sping.

Быстрый старт

sping google.com                 # HTTP
sping tcp://google.com:80        # TCP
sping https://api.example.com -i 0.5 -c 20
sping example.com --json -c 5

Возможности

HTTP/HTTPS/TCP, разбивка по фазам (DNS, TLS, запрос, ответ).
Авто-обнаружение выбросов по MAD (6× медиана).
Пороги warning/critical, выбор IPv4/IPv6, кэш DNS.
Процентили p50-p99, экспорт JSON, 8 цветовых тем.
Bearer/Basic-аутентификация, кастомный User-Agent.

Примеры

sping api.example.com -X POST --body --auth "bearer:token"
sping tcp://localhost:5432 -i 0.1
sping example.com --warn 100 --crit 500 --percentiles

Ключи

-i интервал, -c число запросов, --timeout, --ipv4/--ipv6, --resolve-once, --body, --no-keepalive, --insecure, --warn/--crit, --percentiles, --palette <theme>.

by zorlack • 24 августа 2025 г. в 23:42 • 166 points

Оригинал • HN

#http #tcp #python #pip #json #go #rust #mtr #llm #claud

Комментарии (23)

Пользователи хвалят визуальный ping-утилиту sping, но предлагают переписать её на Go/Rust для статического бинарника без зависимостей.
Автор подтвердил, что проект полностью сделан с помощью ChatGPT и Claude, а README «украшен» эмодзи.
Найдены мелкие баги: ошибка палитры цветов и сбой при выводе финального резюме.
Некоторые сравнивают инструмент с mtr, tracepath и nping --tr, отмечая, что нужен более дружелюбный аналог.