Тег: #alibaba-cloud — Hacker News Digest

Alibaba Cloud says it cut Nvidia AI GPU use by 82% with new pooling system (tomshardware.com) 🔥 Горячее 💬 Длинная дискуссия

Alibaba Cloud представила систему объединения вычислительных ресурсов Aegaeon, которая, по их утверждению, позволяет сократить использование графических процессоров Nvidia на 82%. Новая технология способна обслуживать десятки больших языковых моделей, требуя лишь доли GPU, необходимых ранее.

Во время бета-тестирования на платформе Alibaba Cloud Marketplace в течение более трех месяцев количество необходимых Nvidia H20 GPU для работы с моделями до 72 миллиардов параметров сократилось с 1,192 до 213. Исследователи обнаружили, что 17,7% GPU выделялись для обслуживания всего 1,35% запросов, что свидетельствует о значительной неэффективности в работе с одновременными AI-нагрузками.

Работа была представлена на 31-й Симпозиуме по принципам операционных систем (SOSP) в Сеуле. Один из соавторов исследования - главный технолог Alibaba Cloud Чжоу Цзжэньрен. Aegaeon позиционируется как первая работа, раскрывающая чрезмерные затраты на обслуживание одновременных рабочих нагрузок LLM на рынке.

by hd4 • 20 октября 2025 г. в 12:31 • 501 points

Оригинал • HN

#alibaba-cloud #nvidia #gpu #llm #cloud-computing #deepseek #qwen

Комментарии (286)

Эффективность использования GPU в облаке Alibaba — 17,7 % GPU обрабатывает всего 1,35 % запросов, и вместо 1192 GPU теперь используется 213, что на 82 % меньше.
US-ограничения на экспорт чипов в Китай — вынуждают китайские компании к инновациям, что может привести к созданию более эффективных решений, которые в будущем могут быть использованы в других странах.
Сравнение моделей — DeepSeek и Qwen от Alibaba Cloud являются наиболее популярными моделями для инференса, в то время как большинство других моделей используются очень редко, что приводит к неэффективному использованию ресурсов.
Проблема с лицензиями и открытым исходным кодом — Китайские компании, такие как DeepSeek, начинают отказываться от открытого кода, что может повлиять на развитие AI-сообщества.
Стоимость и доступность GPU — NVIDIA стоит дороже, чем в Китае, но в то же время, китайские компании могут разрабатывать более дешевые и эффективные решения, что может привести к снижению цен на GPU в будущем.

Alibaba cloud FPGA: the $200 Kintex UltraScale+ (essenceia.github.io)

Облачный FPGA-ускоритель Alibaba на базе Kintex UltraScale+ можно приобрести на вторичном рынке всего за $200, что делает его привлекательной альтернативой новым платам стоимостью около $1000. Автор ставит задачу адаптировать эту плату для самостоятельного использования, несмотря на отсутствие документации и ограниченную поддержку в Vivado WebPack.

Ключевые шаги включают проверку работоспособности платы через PCIe, подключение отладчика через JTAG с использованием Segger J-Link и OpenOCD, определение распиновки и запись битстрима. Успешная конфигурация подтверждается через системные мониторы и тестовый дизайн, демонстрируя практическую возможность использования списанного enterprise-оборудования для хобби-проектов.

by signa11 • 04 октября 2025 г. в 06:49 • 235 points

Оригинал • HN

#fpga #alibaba-cloud #kintex-ultrascale+#vivado #pci-e #jtag #openocd #raspberry-pi #ft2232h

Комментарии (73)

Успешное использование Raspberry-PI V для подключения PCIe к плате Lattice Certus-Pro NX с демонстрацией работы в Microsoft Teams.
Обсуждение доступности дешёвых плат с FPGA на вторичном рынке (eBay, AliExpress) и их потенциала для экспериментов, включая создание сетевого оборудования и ускорение баз данных.
Рекомендация использовать адаптер FT2232H для совместимости с Vivado и обсуждение ограничений бесплатной версии ПО.
Критика текущего состояния AI-инфраструктуры: отсутствие долгосрочных преимуществ у аппаратного обеспечения и медленное появление практических сервисов.
Примеры реализации нейросетей на FPGA для высокоскоростного inference в научных задачах, несмотря на ограничения по памяти.

Qwen3-Omni: Native Omni AI model for text, image and video (github.com) 🔥 Горячее

Команда Alibaba Cloud представила Qwen3-Omni — первую в мире модель, способную одновременно обрабатывать текст, аудио, изображения и видео, а также генерировать речь в реальном времени. Она работает как единая end-to-end система, без необходимости разделения задач на отдельные модули, что повышает эффективность и снижает задержки.

Модель поддерживает мультимодальный ввод и вывод, включая распознавание объектов на видео, анализ аудиодорожек и синтез голоса с естественной интонацией. Это открывает возможности для создания более интерактивных приложений, таких как голосовые ассистенты с визуальным контекстом или системы автоматизированного контент-модерации.

by meetpateltech • 22 сентября 2025 г. в 17:50 • 522 points

Оригинал • HN

#alibaba-cloud #multimodal-ai #natural-language-processing #computer-vision #speech-recognition #speech-synthesis #real-time-processing #gpu #github #llm

Комментарии (132)

Обсуждается мультимодальная модель Qwen3 с поддержкой голосового ввода/вывода, переводом в реальном времени и впечатляющими демонстрациями.
Участники отмечают её доступность для локального запуска (70GB весов) и потенциал для интеграции в умный дом и другие приложения.
Поднимаются вопросы о производительности на разных языках, "нативной поддержке видео" и сравнении с закрытыми моделями типа Gemini.
Высказываются опасения о возможном доминировании Китая на рынке открытых AI-моделей и реакции на это со стороны США.
Обсуждаются технические аспекты: необходимое железо (GPU), квантование, портирование на macOS и стоимость использования.