Hacker News Digest

Тег: #alibaba-cloud

Постов: 3

Alibaba Cloud says it cut Nvidia AI GPU use by 82% with new pooling system (tomshardware.com) 🔥 Горячее 💬 Длинная дискуссия

Alibaba Cloud представила систему объединения вычислительных ресурсов Aegaeon, которая, по их утверждению, позволяет сократить использование графических процессоров Nvidia на 82%. Новая технология способна обслуживать десятки больших языковых моделей, требуя лишь доли GPU, необходимых ранее.

Во время бета-тестирования на платформе Alibaba Cloud Marketplace в течение более трех месяцев количество необходимых Nvidia H20 GPU для работы с моделями до 72 миллиардов параметров сократилось с 1,192 до 213. Исследователи обнаружили, что 17,7% GPU выделялись для обслуживания всего 1,35% запросов, что свидетельствует о значительной неэффективности в работе с одновременными AI-нагрузками.

Работа была представлена на 31-й Симпозиуме по принципам операционных систем (SOSP) в Сеуле. Один из соавторов исследования - главный технолог Alibaba Cloud Чжоу Цзжэньрен. Aegaeon позиционируется как первая работа, раскрывающая чрезмерные затраты на обслуживание одновременных рабочих нагрузок LLM на рынке.

by hd4 • 20 октября 2025 г. в 12:31 • 501 points

ОригиналHN

#alibaba-cloud#nvidia#gpu#llm#cloud-computing#deepseek#qwen

Комментарии (286)

  • Эффективность использования GPU в облаке Alibaba — 17,7 % GPU обрабатывает всего 1,35 % запросов, и вместо 1192 GPU теперь используется 213, что на 82 % меньше.
  • US-ограничения на экспорт чипов в Китай — вынуждают китайские компании к инновациям, что может привести к созданию более эффективных решений, которые в будущем могут быть использованы в других странах.
  • Сравнение моделей — DeepSeek и Qwen от Alibaba Cloud являются наиболее популярными моделями для инференса, в то время как большинство других моделей используются очень редко, что приводит к неэффективному использованию ресурсов.
  • Проблема с лицензиями и открытым исходным кодом — Китайские компании, такие как DeepSeek, начинают отказываться от открытого кода, что может повлиять на развитие AI-сообщества.
  • Стоимость и доступность GPU — NVIDIA стоит дороже, чем в Китае, но в то же время, китайские компании могут разрабатывать более дешевые и эффективные решения, что может привести к снижению цен на GPU в будущем.

Alibaba cloud FPGA: the $200 Kintex UltraScale+ (essenceia.github.io)

Облачный FPGA-ускоритель Alibaba на базе Kintex UltraScale+ можно приобрести на вторичном рынке всего за $200, что делает его привлекательной альтернативой новым платам стоимостью около $1000. Автор ставит задачу адаптировать эту плату для самостоятельного использования, несмотря на отсутствие документации и ограниченную поддержку в Vivado WebPack.

Ключевые шаги включают проверку работоспособности платы через PCIe, подключение отладчика через JTAG с использованием Segger J-Link и OpenOCD, определение распиновки и запись битстрима. Успешная конфигурация подтверждается через системные мониторы и тестовый дизайн, демонстрируя практическую возможность использования списанного enterprise-оборудования для хобби-проектов.

by signa11 • 04 октября 2025 г. в 06:49 • 235 points

ОригиналHN

#fpga#alibaba-cloud#kintex-ultrascale+#vivado#pci-e#jtag#openocd#raspberry-pi#ft2232h

Комментарии (73)

  • Успешное использование Raspberry-PI V для подключения PCIe к плате Lattice Certus-Pro NX с демонстрацией работы в Microsoft Teams.
  • Обсуждение доступности дешёвых плат с FPGA на вторичном рынке (eBay, AliExpress) и их потенциала для экспериментов, включая создание сетевого оборудования и ускорение баз данных.
  • Рекомендация использовать адаптер FT2232H для совместимости с Vivado и обсуждение ограничений бесплатной версии ПО.
  • Критика текущего состояния AI-инфраструктуры: отсутствие долгосрочных преимуществ у аппаратного обеспечения и медленное появление практических сервисов.
  • Примеры реализации нейросетей на FPGA для высокоскоростного inference в научных задачах, несмотря на ограничения по памяти.

Qwen3-Omni: Native Omni AI model for text, image and video (github.com) 🔥 Горячее

Команда Alibaba Cloud представила Qwen3-Omni — первую в мире модель, способную одновременно обрабатывать текст, аудио, изображения и видео, а также генерировать речь в реальном времени. Она работает как единая end-to-end система, без необходимости разделения задач на отдельные модули, что повышает эффективность и снижает задержки.

Модель поддерживает мультимодальный ввод и вывод, включая распознавание объектов на видео, анализ аудиодорожек и синтез голоса с естественной интонацией. Это открывает возможности для создания более интерактивных приложений, таких как голосовые ассистенты с визуальным контекстом или системы автоматизированного контент-модерации.

by meetpateltech • 22 сентября 2025 г. в 17:50 • 522 points

ОригиналHN

#alibaba-cloud#multimodal-ai#natural-language-processing#computer-vision#speech-recognition#speech-synthesis#real-time-processing#gpu#github#llm

Комментарии (132)

  • Обсуждается мультимодальная модель Qwen3 с поддержкой голосового ввода/вывода, переводом в реальном времени и впечатляющими демонстрациями.
  • Участники отмечают её доступность для локального запуска (70GB весов) и потенциал для интеграции в умный дом и другие приложения.
  • Поднимаются вопросы о производительности на разных языках, "нативной поддержке видео" и сравнении с закрытыми моделями типа Gemini.
  • Высказываются опасения о возможном доминировании Китая на рынке открытых AI-моделей и реакции на это со стороны США.
  • Обсуждаются технические аспекты: необходимое железо (GPU), квантование, портирование на macOS и стоимость использования.