Тег: #gguf — Hacker News Digest

Qwen3-Next (qwen.ai) 🔥 Горячее 💬 Длинная дискуссия

Конечно! Пожалуйста, пришлите текст, который нужно перевести и сократить.

by tosh • 12 сентября 2025 г. в 06:32 • 516 points

#qwen #moe #gpu #gpt-oss #gguf #vram #jevons-effect #offline-conversion

Комментарии (198)

Qwen3-Next: 80B MoE, линейное внимание, MTP без +2 ГБ матриц; 256K контекст, 1M через YaRN.
На чате 80B-A3B работает как 235B-A22B, быстрее 14B-плотных, укладывается в 64 ГБ ОЗУ.
Код: GPT-OSS-20B-уровень, ASCII-арт «СпанчБоб» выдаётся без запоминания, MoE-шум заметен.
Эффективность 10× вызывает споры: Jevons-эффект → тренируют ещё больше, спрос на GPU не падает.
GGUF/VRAM пока не выложены, цена выше GPT-OSS-120B; ждут open-бенчмарков и офлайн-конвертации.

Apertus 70B: Truly Open - Swiss LLM by ETH, EPFL and CSCS (huggingface.co) 🔥 Горячее

Apertus-70B-2509
Модель от швейцарского консорциума ETH Zurich и EPFL: 70 и 8 млрд параметров, полностью открытая (веса, данные, рецепты). Поддержка 1811 языков, 15 трлн токенов, xIELU-активация, AdEMAMix, QRPO-выравнивание. Работает в transformers ≥4.56 и vLLM. Требует согласия на политику конфиденциальности и фильтрацию персональных данных.

by denysvitali • 02 сентября 2025 г. в 20:14 • 275 points

Оригинал • HN

#transformers #vllm #llama #mlx #gguf #huggingface #ethz #epfl #cscs #llm

Комментарии (49)

Apertus — 8B и 70B «полностью открытые» мультиязычные модели (1811 языков, 15T токенов, полные веса, данные и рецепты).
Подчёркивают правовую чистоту: учёт robots.txt ретроспективно, opt-out, фильтр персональных данных, 81 контрольная точка для аудита.
На бенчмарках ≈ Llama-3.1 по общим знаниям, но уступают в коде/рассуждениях; модели уже в MLX, GGUF скоро.
Критика: gated-доступ на HF (нужен договор и контакты), размеры «2-3 поколения назад», нет GGUF/OpenRouter, ускоренный релиз без ярких метрик.
Пользователи спрашивают стоимость обучения, запреты копирайта, весы швейцарских языков и прозрачность фильтров — команда обещает доклады и кастомизацию.

DeepSeek-v3.1 (api-docs.deepseek.com) 🔥 Горячее 💬 Длинная дискуссия

DeepSeek-V3.1 — первый шаг к эпохе агентов

Гибридный режим: одна модель, два режима — Think (рассуждения) и Non-Think (быстрый ответ).
Скорость: Think-режим отвечает быстрее, чем DeepSeek-R1-0528.
Агентские навыки: улучшены работа с инструментами и многошаговые задачи.
Попробовать: chat.deepseek.com

API

deepseek-chat → Non-Think, deepseek-reasoner → Think, контекст 128К.
Поддержка формата Anthropic API и строгого Function Calling (бета).

Инструменты и агенты

Рост результатов на SWE / Terminal-Bench.
Эффективнее многошаговые поисковые задачи.

Модель

База V3.1: дообучена на 840 B токенов для длинного контекста.
Обновлён токенайзер и шаблон чата.
Веса открыты: V3.1-Base, V3.1.

Цены

Новые тарифы с 5 сентября 2025, 16:00 UTC. До этого действуют старые.

by wertyk • 21 августа 2025 г. в 19:06 • 732 points

Оригинал • HN

#deepseek #llm #api #gguf #huggingface #fp8 #nvidia #anthropic #glm

Комментарии (253)

Выпущены GGUF-файлы DeepSeek-V3.1 для локального запуска: ≥250 ГБ RAM+VRAM или медленный off-load на SSD.
На бенчмарках модель уступает GPT-5/Claude 4/GLM-4.5, но конкурентоспособна среди открытых весов.
Пользователи жалуются на навязчивое «Of course.» в ответах, повышенные галлюцинации и устаревшие форматы tool-use.
Цена API: $0,56 вход / $1,68 выход за 1 M токенов — дёшево, но без прежней ночной скидки.
Китайские СМИ: V3.1 обучена на FP8 для будущих отечественных AI-чипов, что может ударить по позициям NVIDIA.

Ollama and gguf (github.com)

Проблема: модель gpt-oss-20b.gguf не запускается в Ollama.
Симптом: при попытке ollama run процесс зависает на 0 % и через минуту падает без явной ошибки.

Окружение:

Ubuntu 22.04, 64 ГБ ОЗУ, RTX 4090
Ollama 0.3.6 (AppImage и Docker)
Файл gpt-oss-20b.q4_0.gguf взят из официального репозитория TheBloke, 11 ГБ

Лог:

ggml_cuda_init: found 1 CUDA device
llama_model_load: error loading model: missing tensor 'token_embd.weight'
llama_load_model_from_file: failed to load model

Причина: в GGUF-файле отсутствует обязательный тензор token_embd.weight.

Решение:

Перекачать модель (curl -L -o gpt-oss-20b.q4_0.gguf …) и проверить хэш.
Если проблема сохраняется — использовать другой квант (q4_K_M или q5_0).
Либо конвертировать оригинальные веса самостоятельно через llama.cpp/convert.py.

by indigodaddy • 11 августа 2025 г. в 17:54 • 156 points

Оригинал • HN

#ollama #gguf #llama.cpp #ggml #cuda #quantization #docker #ubuntu #github

Комментарии (70)

Ollama отказалась от llama.cpp в пользу собственной обвязки над ggml, что ломает совместимость с GGUF-моделями и вынуждает «переизобретать велосипед».
Пользователи жалуются на проприетарные квантизации, отсутствие поддержки шардированных GGUF > 48 ГБ и игнорирование upstream.
Альтернативы: запуск llama-server напрямую или готовые контейнеры Ramalama / Docker Model Runner.
Сторонники Ollama отмечают удобство установки и готовые модели, но критики считают это «эншитификацией» и подготовкой к монетизации.