Hacker News Digest

07 августа 2025 г. в 17:49 • github.com • ⭐ 186 • 💬 57

OriginalHN

#ollama#docker#podman#ansible#prometheus#grafana#llama.cpp#rocm#linux#nvidia

Benchmark Framework Desktop Mainboard and 4-node cluster

  • Цель: создать единый фреймворк для тестов производительности Ollama на двух конфигурациях:

    1. настольная материнка (1×CPU, 1×GPU, 128 ГБ ОЗУ);
    2. кластер из 4 узлов (по 64 ГБ ОЗУ, 1×GPU, 10 GbE).
  • Методика

    • Одинаковые образы Docker/Podman на обеих платформах.
    • Набор моделей: llama3.1:8b, codellama:13b, mistral:7b, qwen2.5:32b.
    • Метрики: t/s, TTFT, TPS, Watts, $/1k токенов.
    • Повторять 3×, усреднять, выводить ±σ.
  • Автоматизация

    • Ansible-playbook разворачивает Ollama, node-exporter, prometheus, grafana.
    • Скрипт run-suite.sh последовательно запускает каждую модель с 512, 2 048, 4 096 токенов ввода/вывода.
    • Результаты пишутся в CSV и публикуются в PR как results-<platform>-<date>.md.
  • Сравнение

    • Построить графики «токен/с vs. Watts» и «$/1k токенов vs. модель».
    • Выделить break-even точку, где кластер начинает выигрывать по стоимости при одновременной обработке ≥3 моделей.