A postmortem of three recent issues (anthropic.com) 🔥 Горячее

Анализ трёх недавних проблем

С 17 сентября 2025 года

В период с августа по начало сентября три ошибки в инфраструктуре периодически снижали качество ответов Claude. Мы устранили эти проблемы и хотим объяснить, что произошло.

В начале августа пользователи начали сообщать о снижении качества ответов. Изначально эти сообщения было сложно отличить от обычных колебаний обратной связи. К концу августа участившиеся жалобы побудили нас начать расследование, которое выявило три отдельные инфраструктурные ошибки.

Мы никогда не снижаем качество модели из-за спроса, времени суток или нагрузки на серверы. Проблемы были вызваны исключительно ошибками инфраструктуры.

Хронология событий

Наложение этих ошибок значительно усложнило диагностику. Первая ошибка появилась 5 августа, затронув около 0,8% запросов к Sonnet 4. Две другие возникли 25-26 августа.

Изменение балансировки нагрузки 29 августа увеличило количество затронутых запросов, что привело к противоречивым отчетам пользователей.

Три перекрывающиеся проблемы

1. Ошибка маршрутизации контекстного окна

5 августа некоторые запросы Sonnet 4 перенаправлялись на серверы, настроенные для контекстного окна в 1 млн токенов. Изначально ошибка затрагивала 0,8% запросов, но к 31 августа эта доля выросла до 16%.

Около 30% пользователей Claude Code столкнулись с ухудшением ответов. На Amazon Bedrock пик затронутых запросов составил 0,18%, на Google Cloud Vertex AI — менее 0,0004%.

Решение: Исправлена логика маршрутизации. Фикс развернут 4 сентября, к 16 сентября распространен на основные платформы.

2. Повреждение вывода

25 августа ошибка конфигурации на серверах TPU вызвала сбой при генерации токенов. Это приводило к появлению неожиданных символов (например, тайских или китайских в ответ на английские запросы) или синтаксических ошибок в коде.

Проблема затрагивала Opus 4.1/4 (25-28 августа) и Sonnet 4 (25 августа - 2 сентября). Сторонние платформы не пострадали.

Решение: Выявлена и откатана ошибочная конфигурация.

by moatmoat • 17 сентября 2025 г. в 20:41 • 353 points

Оригинал • HN

#anthropic #aws #google-cloud #tpu #load-balancing #routing #llm #xla

Комментарии (112)

Критика отсутствия юнит-тестов и акцент на использовании эвалов для тестирования моделей.
Удивление способностью Anthropic влиять на инфраструктуру AWS Bedrock, что противоречит обязательствам AWS.
Обсуждение технических сбоев: ошибки маршрутизации запросов, коррупция вывода и баг компилятора XLA, повлиявшие на качество Claude.
Высокое количество инцидентов, отмеченных на статусной странице Claude, и призывы к улучшению качества и надежности сервиса.
Критика недостаточной прозрачности отчета Anthropic, включая отсутствие данных о степени деградации и компенсаций для пользователей.
Обсуждение проблем недетерминированности в LLM и сложностей обеспечения воспроизводимости результатов.
Спекуляции о причинах использования разных аппаратных платформ (TPU, AWS) и их влиянии на пользовательский опыт.

Gluon: a GPU programming language based on the same compiler stack as Triton (github.com)

Навигационное меню GitHub с разделами:

- Платформа: Copilot, Spark, Models, Advanced Security, Actions, Codespaces, Issues, Code Review, Discussions, Code Search
- Решения: для предприятий, малых команд, стартапов, некоммерческих организаций
- Ресурсы: статьи по AI, DevOps, безопасности, разработке ПО
- Open Source: спонсоры, проекты, репозитории
- Enterprise: платформа, дополнения
- Цены

Поиск кода, репозиториев, пользователей, issues и pull requests. Возможность сохранения поисковых запросов.

by matt_d • 17 сентября 2025 г. в 19:50 • 75 points

Оригинал • HN

#python #cuda #nvidia #triton #gpu #dsl #llm #github

Комментарии (21)

NVIDIA Tilus представляет собой низкоуровневый инструмент для контроля над регистрами, возможно, как ответ на Triton, который поддерживает AMD и другие ускорители, угрожая экосистеме CUDA.
Название Gluon уже используется несколькими проектами, включая язык для ML от Amazon/Microsoft, UI-тулкит для Java и встраиваемый язык для Rust, что создает путаницу.
Gluon от NVIDIA рассматривается как сходный с их же CUTE DSL, что указывает на convergence к оптимальному дизайну Python-based DSL для программирования ядер.
Мнения разделились: одних смущает, что «язык» остается кодом на Python, требующим трассировки, другие считают такой подход на основе AST-walker эффективным.
Появление Gluon связано со сложностями Triton в достижении высокой эффективности на новых архитектурах NVIDIA, таких как Blackwell.
NVIDIA разрабатывает множество DSL, что свидетельствует о их беспокойстве из-за открытых и портируемых альтернатив CUDA.
На экосистему CUDA оказывают давление крупные компании, разрабатывающие собственные чипы для AI, чтобы избежать зависимости от NVIDIA.

Famous cognitive psychology experiments that failed to replicate (buttondown.com)

Знаменитые когнитивные эксперименты, которые не удалось воспроизвести

В 2010-х годах психология пережила кризис репликации, когда многие принятые результаты оказались ненадёжными. Это краткий справочник по самым известным когнитивным исследованиям, которые не удалось воспроизвести — их следует считать ложными.

Эффект истощения эго

Утверждение: Сила воли истощается в течение дня.
Статус: не воспроизведён
Источник: Hagger et al. 2016

Эффект сильных поз

Утверждение: Экспансивные позы повышают уверенность.
Статус: не воспроизведён
Источник: Ranehill et al. 2015

Прайминг пожилыми словами

Утверждение: Слова о старости замедляют походку.
Статус: не воспроизведён
Источник: Doyen et al. 2012

Деньги и эгоизм

Утверждение: Мысли о деньгах усиливают эгоизм.
Статус: не воспроизведён
Источник: Rohrer et al. 2015

Предвидение (ESP)

Утверждение: Люди могут предсказывать будущее.
Статус: не воспроизведён
Источник: Galak et al. 2012

Чистота и мораль

Утверждение: Чистота снижает моральную строгость.
Статус: не воспроизведён
Источник: Johnson et al. 2014

Глюкоза и сила воли

Утверждение: Глюкоза восстанавливает волю.
Статус: не воспроизведён
Источник: Lange & Eggert 2014

Голод и риск

Утверждение: Голод повышает рискованность.
Статус: не воспроизведён

by PaulHoule • 17 сентября 2025 г. в 18:55 • 123 points

Оригинал • HN

#cognitive-psychology #reproducibility #social-psychology #statistical-analysis #scientific-research #phd

Комментарии (82)

Обсуждается кризис репликации в психологии, особенно в социальной психологии, где многие известные эксперименты не воспроизводятся.
Участники отмечают системные проблемы в области: низкое качество статистического анализа, p-hacking и культурные проблемы, препятствующие проведению репликаций.
Высказываются предложения по улучшению ситуации, включая обязательные репликации для PhD-студентов и проверку результатов независимыми лабораториями до публикации.
Некоторые участники защищают психологию, указывая, что она серьезно отнеслась к кризису и что многие результаты все же воспроизводимы.
Обсуждается потенциальный вред для общества от некорректных научных результатов, но конкретное влияние упомянутых исследований оценивается как незначительное.
Поднимается вопрос о реплицируемости экспериментов в других областях, например, в машинном обучении.
Отмечается, что некоторые из упомянутых в исходном посте исследований на самом деле были успешно реплицированы, что ставит под вопрос справедливость их включения в список «опровергнутых».

Optimizing ClickHouse for Intel's 280 core processors (clickhouse.com)

Оптимизация ClickHouse для процессоров Intel с ультра-высоким числом ядер

Авторы: Цзебин Сань, Чжиго Чжоу, Ваньян Го, Тьянью Ли

Гостевой пост от инженеров по оптимизации производительности из Intel Shanghai.

Современные процессоры Intel достигают беспрецедентного числа ядер: до 128 P-ядер на сокет в Granite Rapids и 288 E-ядер в Sierra Forest. Многосокетные системы могут иметь более 400 ядер. Тенденция «больше ядер, а не выше тактовая частота» обусловлена физическими ограничениями и проблемами энергопотребления.

Для аналитических баз данных, таких как ClickHouse, большое количество ядер представляет как возможность, так и сложную задачу. Хотя теоретически больше ядер означают больше параллельной мощности, большинство СУБД не могут полностью использовать аппаратные ресурсы. Проблемы параллельной обработки, такие как конфликты блокировок, когерентность кэша, неоднородный доступ к памяти (NUMA), пропускная способность памяти и накладные расходы на координацию, усугубляются с ростом числа ядер.

Оптимизация для ультра-высокого числа ядер

За последние три года мы анализировали и оптимизировали масштабируемость ClickHouse на процессорах Intel Xeon с большим числом ядер. С помощью инструментов профилирования (perf, emon, Intel VTune) мы исследовали все 43 запроса ClickBench на серверах с ультра-высоким числом ядер, выявляли узкие места и оптимизировали ClickHouse.

Результаты впечатляют: отдельные оптимизации ускоряют выполнение запросов в несколько раз, в некоторых случаях до 10x. Среднее геометрическое время выполнения всех запросов стабильно улучшалось на 2–10% для каждой оптимизации. Это демонстрирует, что ClickHouse можно эффективно масштабировать на системах с ультра-высоким числом ядер.

Ключевые проблемы масштабирования

Помимо производительности одного ядра, необходимо решить несколько ключевых задач:

Накладные расходы когерентности кэша: Перемещение строк кэша между ядрами требует циклов CPU.
Конфликты блокировок: Даже небольшие последовательные участки кода (1%) сильно ограничивают параллелизм по закону Амдала.
Пропускная способность памяти: Эффективное использование памяти критично для систем с интенсивной работой с данными.
Координация потоков: Стоимость синхронизации потоков растет сверхлинейно с их количеством.
Эффекты NUMA: Задержки и пропускная способность памяти различаются для локальной и удаленной памяти в многосокетных системах.

В этом посте summarized наши оптимизации ClickHouse для серверов с ультра-высоким числом ядер.

by ashvardanian • 17 сентября 2025 г. в 18:46 • 198 points

Оригинал • HN

#clickhouse #intel #cpu #numa #perf #avx2 #avx512 #jemalloc #tcmalloc #mimalloc

Комментарии (46)

Исправление опечатки в заголовке: речь идёт о 288-ядерных серверных процессорах Intel Sierra Forest, а не о "Intel 280".
Оптимизация ClickHouse под высокоядорные системы: улучшение аллокаторов памяти, борьба с конкуренцией, использование SIMD-фильтрации (ускорение запросов до 35%).
Обсуждение технических деталей процессоров: отсутствие AVX-512 на E-ядрах Sierra Forest, наличие AVX2 VNNI, сравнение с AMD Zen 4c.
Проблемы масштабирования: сложности NUMA, contention points на уровне аллокаторов, разделение полосы пропускания памяти.
Практический опыт использования ClickHouse: высокая эффективность сжатия и скорость агрегации больших данных (миллиарды снэпшотов).
Критика и предложения: переход с jemalloc на современные аллокаторы (TCMalloc, mimalloc), использование оптимистичного контроля параллелизма.
Исторический и футуристический контекст: сравнение с устаревшими системами, шутки о запуске 1000 виртуальных машин и размещении целого стойка в одном процессоре.

WASM 3.0 Completed (webassembly.org) 🔥 Горячее 💬 Длинная дискуссия

Завершена работа над Wasm 3.0

Три года назад была завершена версия 2.0 стандарта Wasm, добавившая векторные инструкции, массовые операции с памятью, множественные возвращаемые значения и простые ссылочные типы.

Сегодня мы рады объявить о выпуске Wasm 3.0 как нового действующего стандарта. Это крупное обновление включает несколько важных функций, разрабатывавшихся до восьми лет.

64-битное адресное пространство. Память и таблицы теперь могут использовать i64 вместо i32, расширяя доступное пространство с 4 гигабайт до 16 эксабайт (теоретически). На вебе 64-битная память ограничена 16 гигабайтами, но для невеб-экосистем это открывает возможности для работы с огромными приложениями и наборами данных.
Множественная память. Теперь один модуль может объявлять и напрямую использовать несколько областей памяти, включая копирование данных между ними. Это позволяет инструментам вроде wasm-merge работать со всеми модулями Wasm и открывает новые возможности для безопасности, буферизации и инструментирования.
Сборка мусора. Wasm добавляет поддержку автоматически управляемого хранилища через сборщик мусора. Компиляторы могут объявлять layout структур данных через типы struct и array, а также нетипизированные целые числа — всё остальное, включая представление значений исходного языка, остаётся их ответственностью. Wasm предоставляет только базовые строительные блоки, избегая встроенных объектных систем.
Типизированные ссылки. Расширение системы типов теперь поддерживает богатые формы ссылок, описывающие форму значения в куче, что избегает дополнительных проверок во время выполнения. Эта система также доступна для ссылок на функции, позволяя безопасные косвенные вызовы без проверок типа или границ через инструкцию call_ref.
Хвостовые вызовы. Важный механизм для языковых реализаций, особенно функциональных языков и внутренних техник (например, заглушек). Вызовы полностью общие и работают как для статических, так и для динамических получателей.
Обработка исключений. Ранее не было эффективного способа компиляции обработки исключений в Wasm. Теперь исключения определяются через теги с данными, могут быть выброшены и перехвачены обработчиками — новым видом инструкций блока с диспетчеризацией по тегам.
Расслабленные векторные инструкции. (Описание сокращено)

by todsacerdoti • 17 сентября 2025 г. в 18:16 • 994 points

Оригинал • HN

#webassembly #wasm-3.0 #64-bit-addressing #garbage-collection #typed-references #tail-calls #exception-handling #vector-instructions #c##java

Комментарии (427)

Переход на 64-битную адресацию по умолчанию снимает ограничения для ресурсоёмких веб-приложений, таких как видеоредакторы.
Добавлена низкоуровневая поддержка сборки мусора (GC), позволяющая компиляторам управлять структурой данных.
Сообщество выражает разочарование отсутствием прямого доступа к DOM и JS-объектам из WebAssembly.
Множественные памяти и улучшенная типизация ссылок могут оптимизировать взаимодействие с API (например, WebGPU).
Разработчики отмечают проблемы с опытом использования (DX) и сложность компиляции в WASM.
Обсуждаются потенциальные применения новых возможностей для языков C#, Java, Go и Python.
Остаются нерешённые вопросы, такие как работа на микроконтроллерах и поддержка сокетов.

DeepMind and OpenAI win gold at ICPC (codeforces.com) 💬 Длинная дискуссия

OpenAI и DeepMind рады объявить/поделиться — Codeforces

Codeforces — платформа для соревнований по программированию.

Навигация:

Главная
Топ
Каталог
Контесты
Тренировки
Задачи
Группы
Рейтинг
Обучение
API
Календарь
Помощь

Ближайший контест:
Codeforces Global Round 29 (Div. 1 + Div. 2) через 3 дня. Регистрация открыта.

Топ рейтинга:

jiangly (3914)
Kevin114514 (3755)
orzdevinwang (3670)
tourist (3619)
ecnerwala (3590)

Топ авторов:

errorgorn (170)
Qingyu (162)
adamant (158)

Последние действия:

Обсуждение редакции раундов
Вопросы о повышении рейтинга
Обновления условий задач
Обсуждение возможных нарушений

by notemap • 17 сентября 2025 г. в 18:15 • 223 points

Оригинал • HN

#competitive-programming #icpc #openai #deepmind #llm #machine-learning

Комментарии (211)

OpenAI и DeepMind достигли высоких результатов в ICPC (12/12 и 10/12 задач соответственно), превзойдя лучшие человеческие команды.
Мнения разделились: одни считают результат прорывом, другие — следствием нечестных преимуществ ИИ (огромные вычислительные мощности и многократные попытки).
Критики указывают на отсутствие прозрачности: неизвестны затраты на вычисления, энергопотребление и степень стороннего контроля.
Подчеркивается фундаментальное отличие соревнований для людей (ограничения по времени, один компьютер на команду) и условий для ИИ.
Отмечается, что успех ИИ в узких, четко определенных задачах не обязательно переносится на реальную инженерию или научные прорывы.
Обсуждается растущий разрыв между возможностями корпоративных моделей и тем, что доступно обычным пользователям.
Результат заставляет пересмотреть assumptions о текущих возможностях LLM и их будущей роли в решении сложных задач.

Anthropic irks White House with limits on models’ use (semafor.com)

Компания Anthropic находится в центре внимания в Вашингтоне, но её отказ разрешить использование своих моделей для некоторых правоохранительных целей усилил негативное отношение к ней в администрации Трампа.

by mindingnever • 17 сентября 2025 г. в 17:57 • 201 points

Оригинал • HN

#anthropic #llm #government #security #federal-government #cloud #fedramp

Комментарии (106)

Участники подвергают сомнению достоверность статьи Semafor, называя её предвзятой и содержащей ложные утверждения.
Обсуждаются ограничения использования ИИ, накладываемые компаниями (включая Anthropic и Microsoft), особенно в контексте государственного наблюдения и военных применений.
Высказывается мнение, что правительственные агентства должны быть полностью осведомлены об ограничениях при заключении контрактов.
Поднимается вопрос о суверенитете: предлагается, чтобы правительство США обучило собственную модель ИИ, если ему нужна модель без ограничений.
Отмечается, что Anthropic, будучи американской компанией, получила допуск для работы с секретными данными благодаря серьёзному отношению к безопасности.
Обсуждается потенциальное давление на Anthropic со стороны правительства, включая возможную потерю контрактов, за отказ снять ограничения.
Упоминается, что технически возможно внедрить ограничения прямо в веса модели или обеспечить их соблюдение через FedRAMP-совместимые облачные среды.

DeepSeek writes less secure code for groups China disfavors? (washingtonpost.com)

—

by otterley • 17 сентября 2025 г. в 17:24 • 234 points

Оригинал • HN

#llm #machine-learning #data-bias #crowdstrike #openai #google #natural-language-processing

Комментарии (150)

Критика отсутствия методологии и прозрачности в исследовании CrowdStrike, на котором основана статья The Washington Post.
Подозрения в предвзятости и пропагандистском характере публикации, направленной против китайских ИИ-разработок.
Обсуждение возможных технических причин явления, таких как артефакты данных обучения или обобщение моделями политических ограничений.
Отмечается, что другие модели (например, OpenAI, Google) могут иметь схожие геополитические предубеждения, но это не исследовалось.
Несколько пользователей провели собственные тесты, частично подтвердив основные выводы о разном качестве ответов для разных групп.
Подчеркивается, что добавление в промт несвязанной контекстной информации (например, упоминание группы) может влиять на вывод модели.
Высказывается мнение, что подобное поведение может быть непреднамеренным следствием обучения, а не злонамеренной "задней дверью".

Depression reduces capacity to learn to actively avoid aversive events (eneuro.org)

Уровни депрессии связаны со сниженной способностью к активному избеганию негативных событий у молодых взрослых

Исследование показало, что у молодых взрослых с более высокими уровнями депрессии снижена способность к обучению активному избеганию негативных событий. Это может объяснять трудности в адаптивном поведении у людей с депрессивными симптомами.

В эксперименте участники выполняли задание, где нужно было научиться избегать неприятных стимулов. Результаты продемонстрировали, что участники с повышенными показателями депрессии хуже справлялись с этой задачей по сравнению с теми, у кого симптомы были менее выражены.

Авторы предполагают, что обнаруженная связь может отражать нарушения в механизмах обучения, связанных с негативным подкреплением, что характерно для депрессивных состояний. Эти данные важны для понимания когнитивных механизмов депрессии и разработки targeted вмешательств.

by PaulHoule • 17 сентября 2025 г. в 17:20 • 159 points

Оригинал • HN

#depression #cognitive-psychology #neuroscience #behavioral-science #learning-mechanisms

Комментарии (40)

Участники обсуждают депрессию как состояние, отличное от печали, описывая его как апатию, безнадежность, "автономное отключение" и неспособность действовать.
Высказывается гипотеза, что депрессия может быть эволюционной адаптацией для переживания безвыходных ситуаций, заставляя "переждать" кризис.
Отмечается, что в состоянии депрессии снижается способность активно избегать негативных стимулов, особенно при отсутствии вознаграждения.
Подчеркивается, что эволюционная теория не обязана объяснять каждую черту; депрессия может быть побочным продуктом сложной системы, а не адаптацией.
Участники делятся личным опытом, отмечая, что депрессия резко снижает продуктивность и мотивацию, сводя на нет способность к целенаправленным действиям.
Обсуждается, что стоимость перенесения негативного стимула зависит от общего фона других негативных стимулов, а не только от его величины.
Рекомендуется искать объяснения депрессии в вычислительных и эволюционных терминах (например, работы Лизы Фельдман Барретт), а не сводить всё к "химическому дисбалансу".

Tinycolor supply chain attack post-mortem (sigh.dev)

Атака на поставки @ctrl/tinycolor: разбор инцидента

Злоумышленник добавил вредоносный workflow в GitHub Actions общего репозитория и похитил npm-токен с правами публикации. С помощью этого токена были опубликованы вредоносные версии 20 пакетов, включая @ctrl/tinycolor.

Мой аккаунт GitHub и репозиторий @ctrl/tinycolor не были скомпрометированы напрямую. Не использовался фишинг, на моём компьютере не устанавливались вредоносные пакеты. GitHub и npm оперативно отреагировали, удалив зловредные версии. Я выпустил чистые версии пакетов для очистки кэшей.

Как это произошло

Раньше я участвовал в проекте angulartics2 — общем репозитории, где у нескольких человек были права администратора. Там остался секрет GitHub Actions — npm-токен с широкими правами на публикацию.

Злоумышленник принудительно отправил ветку Shai-Hulud в angulartics2 с вредоносным workflow. Workflow запустился сразу после отправки (без проверки, так как у collaborator были права администратора) и украл npm-токен. С помощью украденного токена атакующий опубликовал вредоносные версии 20 пакетов.

Планы на будущее

Сейчас я использую semantic-release с GitHub Actions для публикации. Моя цель — перейти на Trusted Publishing (OIDC) в npm, чтобы полностью отказаться от статических токенов. Однако интеграция с semantic-release ещё в разработке.

Для небольших пакетов я продолжу использовать semantic-release, но с ужесточённым контролем: никаких новых участников, отдельные npm-токены с правами только на публикацию конкретного пакета.

Я планирую и дальше использовать pnpm, который блокирует неавторизованные postinstall-скрипты, и изучу новую настройку minimumReleaseAge.

Пожелания к системе публикации

В идеале хотелось бы иметь в npm единый переключатель для принудительного использования Trusted Publishing (OIDC) для всех моих пакетов. Такой же переключатель блокировал бы любые релизы без provenance, обеспечивая безопасность на уровне аккаунта. Также хотелось бы иметь встроенную поддержку semantic-release с OIDC и provenance, чтобы статические токены больше не требовались.

Кроме того, было бы удобно иметь безопасный вариант публикации с подтверждением человека прямо в интерфейсе GitHub: защищённый workflow_dispatch, использующий 2FA GitHub для удовлетворения требованиям двухфакторной аутентификации без необходимости публиковать со своего компьютера.

by STRiDEX • 17 сентября 2025 г. в 17:18 • 161 points

Оригинал • HN

#github #npm #github-actions #semantic-release #oidc #pnpm #supply-chain-attack #node.js

Комментарии (67)

Предлагается использовать ручные релизы и многоэтапные проверки для публикации пакетов вместо полной автоматизации CI/CD.
Обсуждаются недостатки долгоживущих токенов и предлагается использовать Trusted Publishing с короткоживущими токенами или OIDC.
Поднимается вопрос о необходимости встроенной MFA (двухфакторной аутентификации) для подтверждения публикации в CI-системах.
Предлагается разделить процесс на загрузку пакета и его публикацию для пользователей, чтобы повысить контроль.
Обсуждается идея использования подписей нескольких авторов или проверки подписей коммитов для обеспечения безопасности.
Отмечается сложность настройки безопасных машинно-машинных потоков (OIDC) и необходимость более простых решений.
Упоминается, что многие разработчики игнорируют вопросы безопасности до момента взлома и необходимы системные изменения.