Hacker News Digest

03 сентября 2025 г. в 17:03 • gimletlabs.ai • ⭐ 170 • 💬 26

OriginalHN

#pytorch#llm#apple

Speeding up PyTorch inference on Apple devices with AI-generated Metal kernels

  • Итог: генератор Metal-ядер на базе LLM ускорил PyTorch-инференс на Apple-устройствах в среднем на 87 % (до 100× на отдельных модулях), не требуя ручной оптимизации.

Зачем AI-генерация ядер?

  • GPU-ядро = узкое место производительности.
  • Metal-ядра для Apple пишут редко и сложно; CUDA-оптимизации не переносятся.
  • Идея: frontier-модель сама пишет быстрый код под любую платформу.

Методика

  • Железо: Mac Studio (M4 Max).
  • Модели: Claude-4/Opus-4, GPT-4o/4.1/5, o3, DeepSeek-v3/R1.
  • Датасет: 215 модулей KernelBench (250 − 31 неподдерживаемых − 4 технических).
  • Базовая линия: PyTorch eager (torch.compile для Metal ещё не готов).
  • Цикл: до 5 попыток генерации → компиляция → проверка корректности → профилировка.

Простой агент

  1. Получает PyTorch-код.
  2. Генерирует Metal-ядро.
  3. Проверяет бит-точность и компиляцию.
  4. При ошибке возвращает лог модели на доработку.

Ключевые находки

  • 87 % средний выигрыш (геом. среднее 1.87×).
  • Десятки случаев 10–100×: агент вырезал лишние вычисления, которых не заметил PyTorch.
  • Профилировка и CUDA-референс резко повышают качество кода.
  • Агент-роутер + специализированные «рабочие» модели эффективнее одиночного большого LLM.

Дальнейшие шаги

  • Автоматизировать подбор tile-size и pipeline-оптимизации.
  • Расширить на другие backend’и (Vulkan, WebGPU, DirectX).