Alibaba Cloud says it cut Nvidia AI GPU use by 82% with new pooling system 🔥 Горячее 💬 Длинная дискуссия
Alibaba Cloud представила систему объединения вычислительных ресурсов Aegaeon, которая, по их утверждению, позволяет сократить использование графических процессоров Nvidia на 82%. Новая технология способна обслуживать десятки больших языковых моделей, требуя лишь доли GPU, необходимых ранее.
Во время бета-тестирования на платформе Alibaba Cloud Marketplace в течение более трех месяцев количество необходимых Nvidia H20 GPU для работы с моделями до 72 миллиардов параметров сократилось с 1,192 до 213. Исследователи обнаружили, что 17,7% GPU выделялись для обслуживания всего 1,35% запросов, что свидетельствует о значительной неэффективности в работе с одновременными AI-нагрузками.
Работа была представлена на 31-й Симпозиуме по принципам операционных систем (SOSP) в Сеуле. Один из соавторов исследования - главный технолог Alibaba Cloud Чжоу Цзжэньрен. Aegaeon позиционируется как первая работа, раскрывающая чрезмерные затраты на обслуживание одновременных рабочих нагрузок LLM на рынке.
Комментарии (286)
- Эффективность использования GPU в облаке Alibaba — 17,7 % GPU обрабатывает всего 1,35 % запросов, и вместо 1192 GPU теперь используется 213, что на 82 % меньше.
- US-ограничения на экспорт чипов в Китай — вынуждают китайские компании к инновациям, что может привести к созданию более эффективных решений, которые в будущем могут быть использованы в других странах.
- Сравнение моделей — DeepSeek и Qwen от Alibaba Cloud являются наиболее популярными моделями для инференса, в то время как большинство других моделей используются очень редко, что приводит к неэффективному использованию ресурсов.
- Проблема с лицензиями и открытым исходным кодом — Китайские компании, такие как DeepSeek, начинают отказываться от открытого кода, что может повлиять на развитие AI-сообщества.
- Стоимость и доступность GPU — NVIDIA стоит дороже, чем в Китае, но в то же время, китайские компании могут разрабатывать более дешевые и эффективные решения, что может привести к снижению цен на GPU в будущем.
Alibaba cloud FPGA: the $200 Kintex UltraScale+
Облачный FPGA-ускоритель Alibaba на базе Kintex UltraScale+ можно приобрести на вторичном рынке всего за $200, что делает его привлекательной альтернативой новым платам стоимостью около $1000. Автор ставит задачу адаптировать эту плату для самостоятельного использования, несмотря на отсутствие документации и ограниченную поддержку в Vivado WebPack.
Ключевые шаги включают проверку работоспособности платы через PCIe, подключение отладчика через JTAG с использованием Segger J-Link и OpenOCD, определение распиновки и запись битстрима. Успешная конфигурация подтверждается через системные мониторы и тестовый дизайн, демонстрируя практическую возможность использования списанного enterprise-оборудования для хобби-проектов.
Комментарии (73)
- Успешное использование Raspberry-PI V для подключения PCIe к плате Lattice Certus-Pro NX с демонстрацией работы в Microsoft Teams.
- Обсуждение доступности дешёвых плат с FPGA на вторичном рынке (eBay, AliExpress) и их потенциала для экспериментов, включая создание сетевого оборудования и ускорение баз данных.
- Рекомендация использовать адаптер FT2232H для совместимости с Vivado и обсуждение ограничений бесплатной версии ПО.
- Критика текущего состояния AI-инфраструктуры: отсутствие долгосрочных преимуществ у аппаратного обеспечения и медленное появление практических сервисов.
- Примеры реализации нейросетей на FPGA для высокоскоростного inference в научных задачах, несмотря на ограничения по памяти.
Qwen3-Omni: Native Omni AI model for text, image and video 🔥 Горячее
Команда Alibaba Cloud представила Qwen3-Omni — первую в мире модель, способную одновременно обрабатывать текст, аудио, изображения и видео, а также генерировать речь в реальном времени. Она работает как единая end-to-end система, без необходимости разделения задач на отдельные модули, что повышает эффективность и снижает задержки.
Модель поддерживает мультимодальный ввод и вывод, включая распознавание объектов на видео, анализ аудиодорожек и синтез голоса с естественной интонацией. Это открывает возможности для создания более интерактивных приложений, таких как голосовые ассистенты с визуальным контекстом или системы автоматизированного контент-модерации.
Комментарии (132)
- Обсуждается мультимодальная модель Qwen3 с поддержкой голосового ввода/вывода, переводом в реальном времени и впечатляющими демонстрациями.
- Участники отмечают её доступность для локального запуска (70GB весов) и потенциал для интеграции в умный дом и другие приложения.
- Поднимаются вопросы о производительности на разных языках, "нативной поддержке видео" и сравнении с закрытыми моделями типа Gemini.
- Высказываются опасения о возможном доминировании Китая на рынке открытых AI-моделей и реакции на это со стороны США.
- Обсуждаются технические аспекты: необходимое железо (GPU), квантование, портирование на macOS и стоимость использования.