Тег: #rtx-3060 — Hacker News Digest

GPT-OSS-120B runs on just 8GB VRAM & 64GB+ system RAM (old.reddit.com)

—

by zigzag312 • 11 августа 2025 г. в 10:02 • 188 points

Пользователи жалуются, что при росте контекста модель «убивается» скоростью обработки, хотя генерация токенов быстрая.
Вопросы безопасности: guard-rails вшиты, но есть форки «abliterated» и джейлбрейки, хотя они делают модель глупее.
Дискуссия о цене: 64–128 ГБ ОЗУ и RTX 3060 называют как «дешёвое» железо (< $1000), но для многих всё ещё дорого.
На 64 ГБ Mac и 16 ГБ MacBook Air удаётся запускать 20B и 4B квантованные модели, но function calling в llama.cpp пока сломан.
Появился патч, который должен починить llama.cpp; оптимизация экспертных слоёв через regex работает и на других MoE-моделях.