Open Source Implementation of Apple's Private Compute Cloud 🔥 Горячее
OpenPCC — это open-source фреймворк, обеспечивающий доказуемо приватный вывод для моделей искусственного интеллекта. Проект фокусируется на защите конфиденциальности данных при выполнении инференса, позволяя организациям использовать ИИ без компромиссов в безопасности. Фреймворк реализует криптографические протоколы, гарантирующие, что исходные данные пользователей остаются защищенными даже при обработке на сторонних серверах.
Ключевая особенность — возможность математически доказать соблюдение приватности через криптографические примитивы. Поддерживает различные архитектуры моделей и оптимизирован для производительности. Разработчики подчеркивают, что система не требует изменения существующего кода моделей, что упрощает интеграцию. Проект призван решить растущую проблему конфиденциальности в эпоху облачных вычислений и распределенного ИИ, предлагая прозрачный и верifiable подход к защите пользовательских данных.
Комментарии (89)
- Обсуждение вращается вокруг конфиденциального вычисления: участники обсуждают, какие именно гарантии предоставляет Apple и другие решения, и какие уязвимости остаются.
- Поднимается вопрос, что именно подразумевается под "конфиденциальностью" и какие именно угрозы мы пытаемся предотвратить.
- Участники спорят, насколько критично важно иметь открытый исходный код и возможность самостоятельно собрать бинарник, чтобы убедиться, что в нем нет бэкдоров.
- Обсуждается, что на практике может означать "открытый исходный код" и почему это важно для безопасности и конфиденциальности.
- Некоторые участники высказывают мнение, что в конечном счете важно не столько само решение, сколько доверие к провайдеру, и что в конечном счете доверие к провайдеру может быть важнее, чем к конкретному техническому решению.
I took all my projects off the cloud, saving thousands of dollars 🔥 Горячее 💬 Длинная дискуссия
Автор сократил свои расходы на облачные услуги в 10 раз, переведя все проекты с AWS на самостоятельное хостинг, при этом улучшив производительность в 2 раза. Его месячный счет AWS снизился с $1,400 до менее $120, а инфраструктура стала мощнее. Автор утверждает, что страх перед управлением серверами обходится компаниям в 10 раз дороже, чем необходимо.
Многие разработчики в индустрии облаков заинтересованы в сохранении компаний на облачных платформах, так как их зарплаты зависят от сложности инфраструктуры. Облачные инженеры и DevOps специалисты не чувствуют финансовой боли от переплат, так как тратят чужие деньги, и заинтересованы в поддержании vendor lock-in.
Перейдя на Hetzner, автор получил доступ к серверам с 80 ядрами менее чем за $190 в месяц, в то время как аналогичные экземпляры в AWS стоят $2,500-$3,500 (в 13-18 раз дороже). Даже с резервированием экземпляров AWS остается в 7 раз дороже. Для небольших проектов доступны VPS с 8 ядрами и 32 ГБ ОЗУ за $50 в месяц.
Комментарии (314)
- Обсуждение в основном свелось к тому, что для большинства проектов хостинг в облаке (AWS, GCP, Azure) в 2024 году оказывается дороже, чем аренда bare-metal в Hetzner/OVH, и что это не всегда оправдано.
- Участники споров подчеркнули, что «облако» всё ещё полезно для MVP, стартапов и сценариев с непредсказуемым трафиком, но при этом критикуют его стоимость для устойчивых рабочих нагрузок.
- Несколько человек упомянули, что большие компании могут позволить себе облако, потому что у них есть команды и бюджет на инфраструктуру и DevOps, тогда как мелкий бизнес и индивидуальные разработчики вынуждены искать более дешёвые решения.
- Также было отмечено, что важно различать «облако» как способ разработки (CI/CD, managed services) и как способ хостинга (IaaS), и что первое может быть дешевле, чем второе.
AI's Dial-Up Era 🔥 Горячее 💬 Длинная дискуссия
Мы сейчас находимся в "эпоху модема" для искусственного интеллекта, аналогичной раннему интернету 1995 года. Тогда существовало лишь около 2000 сайтов, большинство из которых представляли собой текст на сером фоне, а загрузка изображения занимала минуту. Люди разделились на оптимистов, предсказывавших революционные изменения, и скептиков, называвших интернет временной модой. Сегодня в дебатах об ИИ повторяются те же ошибки: одни предрекают массовую безработицу, другие — автоматизацию всех интеллектуальных задач.
Парадоксально, но ИИ не заменяет специалистов, как предсказывали. Например, радиологи, несмотря на предупреждения Джеффри Хинтона о скорой замене, процветают: в 2025 году количество вакансий достигло рекордных 1208, а средняя зарплата составила $520,000 — на 48% выше, чем в 2015 году. Это показывает, что влияние ИИ будет более избирательным и зависящим от отрасли, чем экстремалистские прогнозы обеих сторон допускают.
Комментарии (395)
- Дискуссия вращается вокруг сравнений «AI-бум ↔ мыльный пузырь» и «AI ↔ золотая лихорадка»; участники спорят, насколько адекватна аналогия с эпохой dial-up и спекулятивным оптимизмом 90-х.
- Ключевой тезис: «мы строим инфраструктуру, а не продукт» — и это вызывает спор, кто и зачем её строит, и что останется после «холодного душа».
- Участники обсуждают, что если «пузырь» лопнет, то останутся ли GPU-фермы как остаточная ценность, или же они обесценятся как нефункциональные активы.
- Поднимается вопрос, что будет, если AGI не появится в ближайшие годы, и как это повлияет на стоимость вычислений и, следовательно, на стоимость токенов.
- Наконец, обсуждается, что если «пузырь» лопнет, то какие именно активы останутся в руках у инвесторов и как это повлияет на стоимость токенов и, в конечном счете, на стоимость компаний.
Introducing architecture variants
Ubuntu 25.10 представляет поддержку архитектурных вариантов, в частности amd64v3 (x86-64-v3), позволяя оптимизировать пакеты под современные процессоры без потери совместимости со старым оборудованием. Для этого были изменены dpkg, apt и Launchpad, чтобы создавать несколько версий пакетов для разных уровней архитектуры. В текущем релизе около 2000 пакетов в компоненте "main" уже пересобраны, но они не прошли полное тестирование, поэтому возможны ошибки. Бенчмарки показывают прирост производительности около 1% для большинства пакетов и больше для числовых приложений.
Большинство облачных экземпляров и машин за последние 10 лет поддерживают x86-64-v3, что можно проверить командой ld.so --help | grep '\-v[0-9]'. Чтобы включить amd64v3, нужно установить последнюю версию dpkg и добавить конфигурацию APT::Architecture-Variants "amd64v3"; в /etc/apt/apt.conf.d/99enable-amd64v3, затем обновить систему. Важно, что после установки amd64v3 версий пакетов перенос жесткого диска на старое оборудование без поддержки x86-64-v3 станет невозможен. В 26.04 LTS эта проблема будет решена, а все пакеты будут пересобраны и полноценно протестированы.
Комментарии (138)
- Ubuntu 25.10 предлагает оптимизированные пакеты для x86-64-v3 (AVX2), но не делает акцент на этом в анонсе.
- Сторонние репозитории уже предоставляют оптимизированные пакеты для разных уровней ISA, что делает спор о «1 % прироста» не столь значимым.
- Вопрос о том, стоит ли жертвовать совместимостью ради 1 %, остаётся открытым, особенно если учесть, что в будущем может появиться v4 или v5.
- Пользователи обеспокоены, что не смогут вынуть диск и загрузиться на старом ноутбуке в случае сбоя.
- Сторонние репозитории уже предоставляют оптимизированные пакеты для разных уровней ISA, что делает спор о «1 % прироста» не столь значимым.
Alibaba Cloud says it cut Nvidia AI GPU use by 82% with new pooling system 🔥 Горячее 💬 Длинная дискуссия
Alibaba Cloud представила систему объединения вычислительных ресурсов Aegaeon, которая, по их утверждению, позволяет сократить использование графических процессоров Nvidia на 82%. Новая технология способна обслуживать десятки больших языковых моделей, требуя лишь доли GPU, необходимых ранее.
Во время бета-тестирования на платформе Alibaba Cloud Marketplace в течение более трех месяцев количество необходимых Nvidia H20 GPU для работы с моделями до 72 миллиардов параметров сократилось с 1,192 до 213. Исследователи обнаружили, что 17,7% GPU выделялись для обслуживания всего 1,35% запросов, что свидетельствует о значительной неэффективности в работе с одновременными AI-нагрузками.
Работа была представлена на 31-й Симпозиуме по принципам операционных систем (SOSP) в Сеуле. Один из соавторов исследования - главный технолог Alibaba Cloud Чжоу Цзжэньрен. Aegaeon позиционируется как первая работа, раскрывающая чрезмерные затраты на обслуживание одновременных рабочих нагрузок LLM на рынке.
Комментарии (286)
- Эффективность использования GPU в облаке Alibaba — 17,7 % GPU обрабатывает всего 1,35 % запросов, и вместо 1192 GPU теперь используется 213, что на 82 % меньше.
- US-ограничения на экспорт чипов в Китай — вынуждают китайские компании к инновациям, что может привести к созданию более эффективных решений, которые в будущем могут быть использованы в других странах.
- Сравнение моделей — DeepSeek и Qwen от Alibaba Cloud являются наиболее популярными моделями для инференса, в то время как большинство других моделей используются очень редко, что приводит к неэффективному использованию ресурсов.
- Проблема с лицензиями и открытым исходным кодом — Китайские компании, такие как DeepSeek, начинают отказываться от открытого кода, что может повлиять на развитие AI-сообщества.
- Стоимость и доступность GPU — NVIDIA стоит дороже, чем в Китае, но в то же время, китайские компании могут разрабатывать более дешевые и эффективные решения, что может привести к снижению цен на GPU в будущем.
Claude Haiku 4.5 🔥 Горячее 💬 Длинная дискуссия
Claude Haiku 4.5 — новая компактная модель от Anthropic, которая сочетает высокую производительность с низкой стоимостью и высокой скоростью. Она работает втрое дешевле и вдвое быстрее предыдущих моделей, достигая при этом сравнимого качества в задачах, например, в программировании, где она даже превосходит более крупные модели.
Ключевые улучшения включают возможность эффективно управлять группами агентов, где каждый экземпляр Haiku обрабатывает свою часть задачи, что ускоряет решение сложных проблем. Модель также отлично справляется с использованием компьютера, включая навигацию в браузере и автоматизацию задач.
Многие пользователи отмечают, что Haiku 4.5 обеспечивает скорость отклика, делая взаимодействие с ИИ почти мгновенным, что особенно ценно в реальном времени. Модель доступна через API, что позволяет легко интегрировать её в различные приложения, от чат-ботов до систем автоматизации.
Впечатляет, что уровень производительности, который был вершиной несколько месяцев назад, теперь доступен в компактной и эффективной форме, открывая новые возможности для разработчиков и компаний, стремящихся внедрить ИИ без больших затрат.
Комментарии (261)
- Пользователи обсуждают, что новая модель Haiku 4.5 демонстрирует высокую точность в изменениях кода, что делает её более эффективной для разработки, но при этом остаётся вопрос о цене и доступности.
- Участники обсуждают, что Anthropic стоит ли покупать дорогие модели, если есть более дешёвые альтернативы, и какие именно сценарии использования делают Haiku 4.5 привлекательной.
- Разговор также затрагивает, что Anthropic может быть упустил возможность создать более доступную модель, которая бы была бы более привлекательной для разработчиков, которые не могут позволить себе дорогие модели.
- Участники также обсуждают, что Anthropic может быть не предоставляет достаточно информации о ценах и ограничениях использования моделей, что делает трудным для разработчиков выбрать наиболее подходящую модель для их нужд.
- Наконец, обсуждение также затрагивает, что Anthropic может быть не предоставляет достаточно информации о ценах и ограничениях использования моделей, что делает трудным для разработчиков выбрать наиболее подходящую модель для их нужд.
Unpacking Cloudflare Workers CPU Performance Benchmarks 🔥 Горячее
После публикации результатов тестов, показывающих, что Cloudflare Workers значительно уступают по производительности Vercel, команда Cloudflare проанализировала тест и обнаружила ряд факторов, повлиявших на результат.
Во-первых, выяснилось, что в тесте использовалась более старая версия Cloudflare Workers, которая не была оптимизирована для этого конкретного типа нагрузки. Cloudflare немедленно выпустила обновление, улучшающее производительность.
Во-вторых, в тесте использовалась библиотека, которая вносила дополнительные накладные расходы на стороне Cloudflare, но не на стороне Vercel. После замены библиотеки на более оптимизированную, разница в производительности значительно сократилась.
Кроме того, команда обнаружила, что тест не полностью изолировал переменные — часть замедления была вызвана сетевыми задержками, а не производительностью самого Workers. После настройки теста для измерения только времени выполнения кода, разница стала минимальной.
В конечном счете, Cloudflare удалось не только догнать, но и превзойти Vercel по некоторым показателям, просто устранив узкие места в своем стеке.
Ключевой вывод: всегда полезно проверять свои тесты и окружение, прежде чем делать выводы о производительности. Иногда проблема не там, где кажется.
Комментарии (56)
- Cloudflare и Vercel продолжают обмениваться тестами и оптимизациями, но вместо обвинений они фактически сотрудничают, чтобы улучшить свои продукты.
- Стороны соревнуются в прозрачности: Cloudflare публикует исходные данные теста, а Vercel делает тот же тест открытым исходным кодом.
- Сообщество отмечает, что обе платформы теперь демонстрируют лучшую производительность, чем раньше, и что конкуренция в конечном счете выгодна для пользователей.
Комментарии (68)
- Обсуждение причин экстремальных аппетитов OpenAI к вычислительным мощностям: возможная стагнация технологии, требующая масштабирования для достижения AGI, или стратегия по захвату рынка.
- Скептицизм относительно заявленных планов масштабирования: непрактичность 20-кратного роста, риски создания пузыря и спекулятивный характер для привлечения инвестиций.
- Озабоченность экологическими и экономическими последствиями: рост цен на электроэнергию, дефицит компонентов и нагрузка на ресурсы планеты.
- Обсуждение бизнес-модели: необходимость опередить конкурентов (Google, Anthropic), возможный переход в B2B-сегмент или создание сервиса "слишком большого, чтобы обанкротиться".
- Сравнение с другими компаниями (DeepSeek, Qwen), которые создают конкурентоспособные модели с меньшими затратами, и вопросы эффективности использования вычислений.
Circular Financing: Does Nvidia's $110B Bet Echo the Telecom Bubble?
Nvidia инвестирует $110 млрд в OpenAI и другие AI-стартапы через венчурное финансирование, что напоминает стратегию Lucent во время пузыря доткомов. Lucent тогда выделила $8,1 млрд клиентам, которые покупали её оборудование, но после краха 47 телеком-компаний обанкротились, а до 80% кредитов не вернулись. Сейчас Nvidia рискует ещё больше: её обязательства составляют 85% выручки против 20% у Lucent, а 39% доходов зависят всего от двух клиентов.
Новизна ситуации в том, что $10+ млрд долгов обеспечены залогом в виде GPU, с предположением, что их стоимость сохранится на 4–6 лет. Крупные облачные провайдеры уже удлинили сроки амортизации оборудования до 6 лет, но Amazon недавно сократил их до 5, что может сигнализировать о переоценке рисков. Если спрос на AI-инфраструктуру замедлится, это может создать цепную реакцию defaults, особенно среди стартапов, зависящих от финансирования поставщиков.
Комментарии (147)
- Сравнение текущей ситуации с пузырем телекоммуникаций 90-х: есть как сходства (масштабные инвестиции в инфраструктуру, риск перепроизводства), так и ключевые различия (финансовая устойчивость Nvidia vs. мошенничество Lucent).
- Главный риск для Nvidia — возможность резкого падения спроса на GPU, если AGI не будет достигнут в ожидаемые сроки (2-5 лет) или если инвесторы потеряют интерес из-за замедления прогресса.
- Неопределенность долгосрочного спроса: несмотря на текущий ажиотаж, будущее зависит от появления реальных, прибыльных приложений ИИ, а не только от тренировки моделей; возможен избыток мощностей.
- Роль крупных игроков (Microsoft, Google, Amazon) и их кастомерных чипов как потенциальная угроза монополии Nvidia, а также вопросы учетной политики и вендорного финансирования.
- Скептицизм относительно способности ИИ самостоятельно решать сложные задачи и кардинально улучшать код без человеческого контроля, что ставит под вопрос оправданность огромных инвестиций.
Microsoft CTO says he wants to swap most AMD and Nvidia GPUs for homemade chips
Microsoft планирует постепенно заменить графические процессоры AMD и Nvidia, используемые в своих AI-сервисах, на собственные чипы Maia. Это часть стратегии по снижению зависимости от внешних поставщиков и сокращению затрат на инфраструктуру для машинного обучения. Компания уже тестирует свои чипы в дата-центрах и планирует масштабировать их использование в Azure и других cloud-сервисах.
Переход на собственные решения может значительно сократить расходы на hardware и дать Microsoft больше контроля над производительностью и энергоэффективностью систем. Это также усилит конкуренцию на рынке AI-чипов, где доминируют Nvidia и AMD.
Комментарии (118)
- Microsoft разрабатывает собственные AI-чипы (например, Maia 100) для снижения зависимости от NVIDIA и затрат, хотя и с опозданием по сравнению с Google и Amazon.
- Участники обсуждают, что создание собственного "кремния" — логичный шаг для крупных дата-центров, но для успеха критически важны разработка ПО и инфраструктуры (как у CUDA от NVIDIA).
- Высказываются опасения, что уход крупных игроков на собственные чипы может усилить монополию NVIDIA на рынке для остальных или, наоборот, снизить цены на GPU.
- Поднимается вопрос, является ли производственная мощность (например, TSMC) основным ограничением, а не дизайном чипов.
- Обсуждаются альтернативные архитектуры для AI, включая аналоговые чипы и специализированные решения для inference.
The Beginner's Textbook for Fully Homomorphic Encryption
Полностью гомоморфное шифрование (FHE) позволяет выполнять вычисления на зашифрованных данных без их расшифровки, сохраняя конфиденциальность. Эта технология особенно важна для облачных вычислений, приватного машинного обучения и безопасной обработки данных. В статье представлен учебник для начинающих, который объясняет основы FHE, включая математические концепции, такие как решетки и полиномиальные кольца, а также практические аспекты реализации.
Особое внимание уделяется доступности материала: авторы стремятся сделать сложные криптографические идеи понятными даже для тех, кто не имеет глубокого математического бэкграунда. Приводятся примеры использования FHE в реальных сценариях, например, для шифрования запросов к базе данных или выполнения аналитики на чувствительной информации. Учебник также охватывает современные библиотеки и инструменты, такие как Microsoft SEAL и OpenFHE, что помогает читателям быстро приступить к экспериментированию.
Практический вывод: FHE постепенно переходит из академической области в промышленность, и понимание его основ становится ключевым навыком для разработчиков, работающих с конфиденциальными данными.
Комментарии (39)
- Обсуждаются технические ограничения и практическая применимость Fully Homomorphic Encryption (FHE), отмечается его высокая вычислительная стоимость (в миллионы раз медленнее обычных вычислений) и непригодность для больших моделей ИИ.
- Поднимается вопрос о других потенциальных применениях FHE помимо машинного обучения, например, в операционных системах или мессенджерах, но отмечается, что ценность есть только при обработке данных на чужом оборудовании.
- Упоминаются альтернативные подходы, такие как компактные zero-knowledge доказательства (ZK), как более практичное решение для конфиденциальности в машинном обучении (ZKML).
- Обсуждается принцип работы FHE, включая возможность бутстрэппинга для сброса "шума" и выполнения неограниченного количества операций, а также его абстрактная применимость к любым вычислимым функциям.
- Отмечается, что для нейросетей, использующих функции вроде ReLU, требуются эффективно вычисляемые приближения, так как сами они не полностью дифференцируемы или гомоморфны.
Комментарии (102)
- Критика сборки ПК с двумя видеокартами RTX 3090 для локального ИИ: проблемы с совместимостью компонентов, перегревом и выбором материнской платы.
- Обсуждение практичности локального запуска LLM: модели уступают облачным в качестве, но ценны для офлайн-среды, хотя требуют больших затрат на электроэнергию.
- Сравнение вариантов железа для ИИ: обсуждаются плюсы 3090 (NVLink, VRAM), альтернативы (RTX 4090 48GB, RTX 6000 ADA, AMD MI50) и их стоимость.
- Отмечаются технические проблемы со статьей: заблокировано копирование текста, ссылки ведут на ошибку 403.
- Делается вывод, что подобные сборки не новы и могут быть нецелесообразны для начинающих или для тренировки моделей.
Nest 1st gen and 2nd gen thermostats no longer supported from Oct 25 💬 Длинная дискуссия
- Google прекращает поддержку Nest 1-го и 2-го поколения с 25.10.2025: API выключают, дистанционное управление (приложения, Hubitat) перестанет работать.
- Устройства останутся локальными, но без облака — только ручная регулировка.
- Владельцам придётся менять термостаты: у кого 5–9 штук — затраты до $1 000.
- Альтернатива:
– локальные Zigbee/Z-Wave модели (для простых HVAC);
– Ecobee через Home Assistant;
– Nest 4-го поколения (Matter), но только США и базовые функции. - Вывод: «умные» устройства с облаком = риск внезапного «брикования»; выбирать локальные протоколы.
Комментарии (229)
- Google прекращает поддержку Nest 1-й и 2-й генерации: работают локально, но пропадёт управление через приложения и API.
- Пользователи злятся: устройства дорогие, устанавливались навсегда, теперь превращаются в «тупые» без облака.
- Главная претензия: «умное» умирает раньше механики; облачная зависимость превращает технику в мусор через 5-10 лет.
- Кто-то переходит на Sinopé, Ecobee и другие ZigBee-термостаты с локальным управлением через Home Assistant.
- Некоторые уже делают open-source платы под корпус Nest или возвращаются к 20-$ Honeywell на 50 лет.
- Вывод: покупай только то, что работает без чужого сервера, иначе рано или поздно останешься с кирпичом.
Deploying DeepSeek on 96 H100 GPUs 🔥 Горячее
!5085850510050025050an50 is5AD38ananbeant5an50of If3 of10an: The000an3ad50 isancan open openThe description15able to run, but the process is not
flashcard:
Q: What isgmented is: What is to run, but to is:
Комментарии (76)
- Реальная себестоимость инференса DeepSeek-R1 при 100 % загрузке — ≈ $0,20 за 1 млн выходных токенов на облаке Atlas ($1,80/H100/час).
- Пиковая нагрузка заставляет бронировать GPU на годы, поэтому фактическая утилизация 10–20 %, а цена выше.
- Крупные провайдеры берут 10× маржу; на AWS 8×H100 стоит $31,4/час, у бюджетных хостингов (RunPod и др.) уже $2/час.
- Смягчают пики скидки 50 % на батч-задания и много-региональное распределение.
- Следующее поколение GB200 NVL72 обещает 2,5–3,4× прироста, но стоит $3–4 млн за кластер.
Anything can be a message queue if you use it wrongly enough (2023)
Предупреждение: это сатира, не используйте в проде. Читая, вы клянётесь не повторять описанное.
Проблема
Managed NAT Gateway в AWS тарифицирует исходящий трафик по 0,07 $/ГБ и убивает стартапы счетами за облако.
Решение
Вместо него для веб-хуков можно:
- поднять exit-ноду Tailscale с публичным IP;
- привязать её к той же VPC;
- получить шифрование и экономию до 700 %.
Это единственный безопасный фрагмент статьи.
S3 как очередь
AWS начинался с S3, SQS и EC2. S3 — это malloc() для облака:
- выделяете «память» (бакет);
- кладёте туда объекты любой длины;
- освобождаете, когда надоедает.
Аналогия с C: malloc() → указатель, free() → удаление объекта. Ошибка выделения → ENOMEM, дальше — краш.
Как превратить S3 в очередь
- Писать сообщения в виде объектов с ключом
queue/<uuid>.json. - Читать через
ListObjectsV2иGetObject. - Удалять после обработки.
- Повторять раз в секунду — получаем «очередь» с задержкой ~1 с и бесплатным исходящим трафиком внутри региона.
Плюсы:
- нет платы за NAT Gateway;
- S3 дёшев и масштабируем;
- можно шифровать объекты.
Минусы:
- eventual consistency: сообщения могут дублироваться или задерживаться;
- rate limit 3 500 PUT/COPY/POST/DELETE и 5 500 GET/HEAD на префикс;
- ListObjects дорогой (0,005 $ за 1 000 запросов);
- придётся реализовать ack/nack, dead-letter и backoff самому.
«Продвинутые» техники
- Long polling: ждать, пока в бакете появится новый объект.
- Fan-out: несколько читателей по префиксам.
- Batching: складывать сообщения в один объект gzipом.
- Priority: префиксы
high/,low/. - FIFO: ключ
queue/<timestamp>-<uuid>.json. - DLQ: префикс
failed/. - Крон: Lambda по расписанию чистит старые сообщения.
Итог
S3-очередь — это пародия на архитектуру, но она работает и экономит деньги. Для настоящих задач используйте SQS, Kafka или RabbitMQ.
Комментарии (48)
- Участники вспомнили, как в 90-х использовали Microsoft Exchange вместо дорогого TIBCO, а Amazon Video — S3 вместо очереди, и оба решения оказались «костылями».
- Подчеркивают, что очередь — это просто быстрый конечный автомат, но самописные варианты на SQL или Git-вебхуках быстро ломаются под нагрузкой.
- Некоторые шутят, что любую технологию можно превратить в очередь или базу, если использовать её «достаточно неправильно».
- Обсуждают юридические проблемы с IP, когда хобби-проект пересекается с работой, и сравнивают цены AWS с Whole Foods.
- В итоге сходятся во мнении: костыль может работать, но рано или поздно придётся платить за правильное решение.
Are OpenAI and Anthropic losing money on inference? 🔥 Горячее 💬 Длинная дискуссия
- Тезис: утверждение «OpenAI и Anthropic теряют деньги на инференсе» — сильно преувеличено.
- Метод: считаем только «сырой» H100-компьют за $2/час, игнорируем всё остальное.
- Кластер: 72 H100 → $144/час. 8-GPU инстанс × 9 = 288 параллельных запросов.
Пропускная способность
- Prefill (вход): 1,44 млн токенов/с на инстанс → 46,8 млрд токенов/час.
- Decode (выход): 1 440 токенов/с на инстанс → 46,7 млн токенов/час.
Цена за токен
- Вход: $0,003/млн токенов (почти даром).
- Выход: $3/млн токенов (реальные деньги).
Почему ограничивают контекст
- При >128 k токенов вычисления становятся compute-bound → цена вырастает 2–10×.
- Поэтому Claude Code режет контекст до 200 k: дешевле.
Пользовательская экономика
- ChatGPT Pro $20/мес при 100 k токенов/день: себестоимость ≈ $3/мес → маржа 5–6×.
Комментарии (438)
- Математика статьи критикуется: расчёт пропускной способности префилла завышен минимум в 1000 раз, а достигаемая MFU превышает физический предел GPU.
- Участники соглашаются, что «чистая» инференс-операция, без учёта затрат на обучение, может быть прибыльной: Сам Альтман, данные The Information и Epoch AI указывают на gross margin 50–60 %.
- Основные оговорки: в расчётах не учтены downtime, кэширование, спекулятивное декодирование, KV-cache, а также различия в эффективности между DeepSeek R1 и закрытыми моделями OpenAI/Anthropic.
- Некоторые стартапы (Cursor, Perplexity) уже страдают от отрицательной маржи из-за дорогих токенов, что подчеркивает разрыв между «оптовой» и «розничной» экономикой.
- Общий вывод: инференс в вакууме может быть прибыльным, но полная экономика включает обучение, idle-оборудование и кросс-субсидирование, поэтому точные цифры известны только самим компаниям.
Rethinking the Linux cloud stack for confidential VMs
Конфиденциальные ВМ требуют переработки стека Linux в облаке.
Публичное облако не гарантирует приватности: хост-провайдер может получить доступ к памяти гостя. Confidential computing решает это, шифруя память даже от гипервизора, но приходится балансировать между безопасностью и производительностью.
Изоляция и производительность
Аппаратные уровни привилегий, IOMMU, KVM, cgroups и namespaces обеспечивают изоляцию ВМ. Однако для скорости всё чаще используют прямой доступ к устройствам (DPDK, vDPA), что снижает контроль ОС и усиливает зависимость от железа и прошивок.
Решение: доверенные устройства
AMD SEV-TIO и стандарт TDISP позволяют гостю криптографически убедиться в подлинности устройства и разрешить ему прямой доступ к зашифрованной памяти, избегая медленных bounce-буферов. Реализуется через SR-IOV: физическое устройство создаёт множество виртуальных функций, каждая из которых может быть «доверенной» для конкретной конфиденциальной ВМ.
Комментарии (44)
- Критики считают, что Confidential Computing (CC) — это скорее маркетинговый трюк облачных провайдеров, чем реальная защита: аппаратная основа часто уязвима и не может быть исправлена.
- Даже при шифровании памяти вы всё равно работаете на чужом железе, которое теоретически могут модифицировать для сниффинга или извлечения данных.
- Для многих CC — способ «галочки» под GDPR, особенно в медицинских исследованиях, но реальная польза пока минимальна.
- Apple реализовала собственную версию CC качественно, но она закрыта и только для экосистемы Apple.
- Участники соглашаются: если ваша модель угроз не позволяет доверять провайдеру, используйте физические серверы; «доверие» в облаке всегда остаётся условным.
What could have been
Вместо «умных» функций — просто работающие.
Везде впихивают ИИ, который никто не просил: браузеры, ОС, конференц-приложения ломаются, но деньги текут в «искусственный интеллект».
Gamescom добавил ИИ-расписание: люди получили сотни ненужных встреч, функцию быстро убрали.
Те же деньги могли бы починить DM, поиск, перенос встреч — базовые вещи, из-за которых все возвращаются к почте и LinkedIn.
Мотив один: быстрая прибыль. В итоге продукты гниют, а инвесторы кормят обещания «вот-вот будет AGI».
Один бюджет крупной компании хватило бы на 100 лет развития Godot, Blender, Ladybird — реальных инструментов, которые нужны сегодня.
Потерянные годы не вернуть.
Комментарии (104)
- Участники жалуются, что вместо починки старых багов и улучшения базовых функций компании впихивают «AI-фичи», которые никому не нужны.
- Многие считают, что инвесторы сознательно выбирают технологии, которые трудно децентрализовать, чтобы сохранить контроль и монополию.
- Одни видят в нынешнем AI-хайпе очередную моду, как было с UML, блокчейном и облаками; другие – шанс на прорыв, оправдывающий «пузырь».
- Популярная идея: деньги лучше бы пошли на документацию, API и совместимость, а не на обучение моделей водить мышкой по браузеру.
- Подводный тезис – проблема не в AI, а в концентрации капитала и в том, что «зелёное поле» проще финансировать, чем ремонт «коричневого».
Our European search index goes live
Ecosia начал отдавать часть результатов поиска из нового европейского индекса, созданного совместно с Qwant. Пока это касается Франции: к концу года 50 % запросов там будет обрабатываться собственным индексом, далее — другие страны.
Что это значит
Индекс — это база, из которой поисковик берёт ответы. До сих пор почти все мелкие поисковики зависели от «Большой тройки». Новый индекс Staan даёт альтернативу: быстрый, приватный и подконтрольный Европе.
Зачем независимость
Большая часть европейских облаков, ИИ и поиска сидит на американских стеках. Отключи их — и континент останется без ключевых сервисов. Собственный индекс снижает риски, позволяет развивать этичный ИИ и сохранять приватность.
Что дальше
EUSP открыт для внешних инвестиций и других компаний, создавая конкурентную среду и основу для инноваций. Пользователи Ecosia пока не заметят изменений, но этот шаг укрепляет европейскую цифровую автономию и помогает продвигать климатическую миссию.
Комментарии (104)
- Пользователи жалуются на «грязный» стартовый экран Ecosia и отсутствие настройки выдачи.
- Выпущен французский пилот европейского поискового индекса Staan (Ecosia + Qwant); скорость и качество приятно удивили, но охват пока мал.
- Большинство поддерживает идею «цифрового суверенитета» ЕС, но спорят: ли это реальная демократия или просто замена американского контроля европейским.
- Критика «Chat Control» и цензуры; противники считают, что ЕС всё равно лучше США и Китая, потому что можно голосовать.
- Некоторые сомневаются в честности маркетинга Ecosia («сажают деревья только за клики по рекламе»).
Ask HN: How can ChatGPT serve 700M users when I can't run one GPT-4 locally? 🔥 Горячее 💬 Длинная дискуссия
—
Комментарии (306)
- У OpenAI десятки миллиардов долларов на кластеры GPU (по $20–40 тыс. за карту) и инфраструктуру, чего нет у обычного пользователя.
- Ключевая «фишка» — массовое батчирование запросов: одновременная обработка тысяч пользователей позволяет загружать видеопамять и вычислительные блоки почти на 100 %, тогда как дома GPU простаивает.
- Используются Mixture-of-Experts, спекулятивное декодирование, конвейерная разбивка модели по GPU и прочие оптимизации, снижающие затраты на одного пользователя.
- Большинство пользователей активны лишь доли процента времени, поэтому общая нагрузка оказывается меньше, чем кажется по 700 млн «weekly users».
- Всё это — классический эффект экономии масштаба: высокие фиксированные затраты и почти нулевые переменные на одного юзера делают запуск GPT-4 локально невыгодным.
How AI conquered the US economy: A visual FAQ 🔥 Горячее 💬 Длинная дискуссия
Американская экономика раскололась: бурный ИИ-сектор и вялая потребительская часть.
- В статистике: траты на ИИ в прошлом квартале росли быстрее потребительских расходов; без ИИ рост ВВП был бы слабым.
- В акциях: за два года около 60% прироста рынка дали компании, связанные с ИИ (Microsoft, Nvidia, Meta); без этого бумa доходность была бы посредственной.
- В бизнес-данных: по Stripe, «ИИ-компании» лидируют по росту выручки, опережая остальные группы.
Что это за бум и откуда деньги? ИИ — это чипы, серверы и дата-центры, огромная электроэнергия, сети и охлаждение. Это крайне дорого. За полгода Meta, Google, Microsoft и Amazon вложили $100–200 млрд в чипы и инфраструктуру. Крупнейшие техгиганты строят на рекордных скоростях — крупнейший инфраструктурный проект со времен ранней компьютерной эры или даже железнодорожного бума.
JP Morgan отмечает: доля Nvidia в совокупных капзатратах компаний может стать максимальной со времен пиковой выручки IBM в 1969. По расчетам Пола Кедроски, капвложения в ИИ как доля ВВП уже превысили дотком-уровни и приближаются к масштабам «позолоченного века» железных дорог.
Этот всплеск финансируется беспрецедентной прибылью лидеров технологий. Их доля свободного денежного потока — рекордная со Второй мировой. Сильные действующие модели (реклама Meta, поисковая реклама Google и пр.) генерируют «горы» наличности, позволяя ежегодно направлять сотни миллиардов на ИИ-НИОКР и инфраструктуру.
Комментарии (213)
- Участники спорят, действительно ли ИИ «поддерживает» весь рост экономики США или просто концентрирует капитал в руках 10–15 гигантов.
- Многие сравнивают нынешний бум с «железнодорожной лихорадкой» XIX века и дот-комом 1999–2000 годов: возможен и прорыв, и взрыв пузыря.
- Поднимается вопрос: если ИИ так продуктивен, почему прибыли растут у «продавцов лопат» (Nvidia, Microsoft), а не у клиентов из S&P 490.
- Часть комментаторов считает, что без ИИ деньги всё равно бы не пошли в реальную экономику, а осели бы в выкупе акций или «загородных REIT-ах».
- Скептики предупреждают: рекордные capex на дата-центры могут обернуться масштабным спадом, если спрос на ИИ-сервисы замедлится.