Hacker News Digest

Тег: #rtx-3060

Постов: 1

GPT-OSS-120B runs on just 8GB VRAM & 64GB+ system RAM (old.reddit.com)

by zigzag312 • 11 августа 2025 г. в 10:02 • 188 points

ОригиналHN

#llm#oss#llama.cpp#quantization#rtx-3060#macos#vram#ram#reddit

Комментарии (63)

  • Пользователи жалуются, что при росте контекста модель «убивается» скоростью обработки, хотя генерация токенов быстрая.
  • Вопросы безопасности: guard-rails вшиты, но есть форки «abliterated» и джейлбрейки, хотя они делают модель глупее.
  • Дискуссия о цене: 64–128 ГБ ОЗУ и RTX 3060 называют как «дешёвое» железо (< $1000), но для многих всё ещё дорого.
  • На 64 ГБ Mac и 16 ГБ MacBook Air удаётся запускать 20B и 4B квантованные модели, но function calling в llama.cpp пока сломан.
  • Появился патч, который должен починить llama.cpp; оптимизация экспертных слоёв через regex работает и на других MoE-моделях.