Ollama and gguf
Проблема: модель gpt-oss-20b.gguf
не запускается в Ollama.
Симптом: при попытке ollama run
процесс зависает на 0 % и через минуту падает без явной ошибки.
Окружение:
- Ubuntu 22.04, 64 ГБ ОЗУ, RTX 4090
- Ollama 0.3.6 (AppImage и Docker)
- Файл
gpt-oss-20b.q4_0.gguf
взят из официального репозиторияTheBloke
, 11 ГБ
Лог:
ggml_cuda_init: found 1 CUDA device
llama_model_load: error loading model: missing tensor 'token_embd.weight'
llama_load_model_from_file: failed to load model
Причина: в GGUF-файле отсутствует обязательный тензор token_embd.weight
.
Решение:
- Перекачать модель (
curl -L -o gpt-oss-20b.q4_0.gguf …
) и проверить хэш. - Если проблема сохраняется — использовать другой квант (
q4_K_M
илиq5_0
). - Либо конвертировать оригинальные веса самостоятельно через
llama.cpp/convert.py
.
Комментарии (70)
- Ollama отказалась от llama.cpp в пользу собственной обвязки над ggml, что ломает совместимость с GGUF-моделями и вынуждает «переизобретать велосипед».
- Пользователи жалуются на проприетарные квантизации, отсутствие поддержки шардированных GGUF > 48 ГБ и игнорирование upstream.
- Альтернативы: запуск llama-server напрямую или готовые контейнеры Ramalama / Docker Model Runner.
- Сторонники Ollama отмечают удобство установки и готовые модели, но критики считают это «эншитификацией» и подготовкой к монетизации.