Alibaba Cloud says it cut Nvidia AI GPU use by 82% with new pooling system
Alibaba Cloud представила систему объединения вычислительных ресурсов Aegaeon, которая, по их утверждению, позволяет сократить использование графических процессоров Nvidia на 82%. Новая технология способна обслуживать десятки больших языковых моделей, требуя лишь доли GPU, необходимых ранее.
Во время бета-тестирования на платформе Alibaba Cloud Marketplace в течение более трех месяцев количество необходимых Nvidia H20 GPU для работы с моделями до 72 миллиардов параметров сократилось с 1,192 до 213. Исследователи обнаружили, что 17,7% GPU выделялись для обслуживания всего 1,35% запросов, что свидетельствует о значительной неэффективности в работе с одновременными AI-нагрузками.
Работа была представлена на 31-й Симпозиуме по принципам операционных систем (SOSP) в Сеуле. Один из соавторов исследования - главный технолог Alibaba Cloud Чжоу Цзжэньрен. Aegaeon позиционируется как первая работа, раскрывающая чрезмерные затраты на обслуживание одновременных рабочих нагрузок LLM на рынке.