Тег: #quantization — Hacker News Digest

Ollama and gguf (github.com)

Проблема: модель gpt-oss-20b.gguf не запускается в Ollama.
Симптом: при попытке ollama run процесс зависает на 0 % и через минуту падает без явной ошибки.

Окружение:

Ubuntu 22.04, 64 ГБ ОЗУ, RTX 4090
Ollama 0.3.6 (AppImage и Docker)
Файл gpt-oss-20b.q4_0.gguf взят из официального репозитория TheBloke, 11 ГБ

Лог:

ggml_cuda_init: found 1 CUDA device
llama_model_load: error loading model: missing tensor 'token_embd.weight'
llama_load_model_from_file: failed to load model

Причина: в GGUF-файле отсутствует обязательный тензор token_embd.weight.

Решение:

Перекачать модель (curl -L -o gpt-oss-20b.q4_0.gguf …) и проверить хэш.
Если проблема сохраняется — использовать другой квант (q4_K_M или q5_0).
Либо конвертировать оригинальные веса самостоятельно через llama.cpp/convert.py.

by indigodaddy • 11 августа 2025 г. в 17:54 • 156 points

Оригинал • HN

#ollama #gguf #llama.cpp #ggml #cuda #quantization #docker #ubuntu #github

Комментарии (70)

Ollama отказалась от llama.cpp в пользу собственной обвязки над ggml, что ломает совместимость с GGUF-моделями и вынуждает «переизобретать велосипед».
Пользователи жалуются на проприетарные квантизации, отсутствие поддержки шардированных GGUF > 48 ГБ и игнорирование upstream.
Альтернативы: запуск llama-server напрямую или готовые контейнеры Ramalama / Docker Model Runner.
Сторонники Ollama отмечают удобство установки и готовые модели, но критики считают это «эншитификацией» и подготовкой к монетизации.

GPT-OSS-120B runs on just 8GB VRAM & 64GB+ system RAM (old.reddit.com)

—

by zigzag312 • 11 августа 2025 г. в 10:02 • 188 points

Оригинал • HN

#llm #oss #llama.cpp #quantization #rtx-3060 #macos #vram #ram #reddit

Комментарии (63)

Пользователи жалуются, что при росте контекста модель «убивается» скоростью обработки, хотя генерация токенов быстрая.
Вопросы безопасности: guard-rails вшиты, но есть форки «abliterated» и джейлбрейки, хотя они делают модель глупее.
Дискуссия о цене: 64–128 ГБ ОЗУ и RTX 3060 называют как «дешёвое» железо (< $1000), но для многих всё ещё дорого.
На 64 ГБ Mac и 16 ГБ MacBook Air удаётся запускать 20B и 4B квантованные модели, но function calling в llama.cpp пока сломан.
Появился патч, который должен починить llama.cpp; оптимизация экспертных слоёв через regex работает и на других MoE-моделях.