Hacker News Digest

11 августа 2025 г. в 17:54 • github.com • ⭐ 156 • 💬 70

OriginalHN

#ollama#gguf#llama.cpp#ggml#cuda#quantization#docker#ubuntu#github

Ollama and gguf

Проблема: модель gpt-oss-20b.gguf не запускается в Ollama.
Симптом: при попытке ollama run процесс зависает на 0 % и через минуту падает без явной ошибки.

Окружение:

  • Ubuntu 22.04, 64 ГБ ОЗУ, RTX 4090
  • Ollama 0.3.6 (AppImage и Docker)
  • Файл gpt-oss-20b.q4_0.gguf взят из официального репозитория TheBloke, 11 ГБ

Лог:

ggml_cuda_init: found 1 CUDA device
llama_model_load: error loading model: missing tensor 'token_embd.weight'
llama_load_model_from_file: failed to load model

Причина: в GGUF-файле отсутствует обязательный тензор token_embd.weight.

Решение:

  1. Перекачать модель (curl -L -o gpt-oss-20b.q4_0.gguf …) и проверить хэш.
  2. Если проблема сохраняется — использовать другой квант (q4_K_M или q5_0).
  3. Либо конвертировать оригинальные веса самостоятельно через llama.cpp/convert.py.