Evaluating LLMs for my personal use case
Краткий итог тестов LLM для личных задач
- Цель: найти быструю и дешёвую модель для простых вопросов по Rust, Python, Linux и быту.
- Данные: 130 реальных запросов из
bash
-истории, разбитые на программирование, администрирование, объяснения, общие знания. - Платформа: OpenRouter через собственный Rust-клиент
ort
. - Тестовые модели: Claude-4 Sonnet, DeepSeek-chat-v3, DeepSeek-r1, Gemini 2.5 Flash/Pro, Kimi-k2, GPT-OSS-120B, Qwen3 235B (обычный и thinking), GLM-4.5, а также Mercury-Coder, Devstral, Qwen3-Coder для кода.
Выводы
- Почти все модели справляются; различия в качестве минимальны.
- Критерии победы: цена и скорость. Запросы стоят доли цента, но латентность варьируется в десятки раз.
- Закрытые модели не лидируют: Gemini Pro самый дорогой и многословный; Flash быстрее всех, но не всегда лучше.
- Режим «рассуждений» почти не нужен, кроме творческих заданий (стихи).
- Победители по категориям
- Программирование: Mercury-Coder (сверхбыстрый диффузионный), DeepSeek-r1, GLM-4.5.
- Сисадмин: Gemini 2.5 Flash.
- Объяснения: Qwen3 235B.
- Общие знания: GPT-OSS-120B.
Инсайт: для рутинных задач выбирайте самую дешёвую и быструю модель, которая «достаточно хороша».