Experimenting with Local LLMs on macOS

Скептик, но люблю эксперименты: качаю 12-ГБ модель и мак говорит почти как человек.
Плюсы LLM: кратко пересказать текст, «погуглить» бытовые советы, выговориться в 4 часа ночи.
Минусы: врут, не умеют творить, вызывают антропоморфизацию. Не доверяю корпорациям — хранят и тренируются на данных.

Зачем локально:

Как запустить на macOS:

Llama.cpp (open-source)

nix profile install nixpkgs#llama-cpp
llama-server -hf ggml-org/gemma-3-4b-it-qat-GGUF

Открыть http://127.0.0.1:8080 — минималистичный чат.

LM Studio (проприетарный, но красивый)
Скачать → выбрать модель → готово. Следит, чтобы не упал RAM, но риск эншитификации есть.

Локальные LLM уже умещаются в 10 ГБ и запускаются на GPU, но 12–20B-модели требуют ≥32 ГБ ОЗУ; на 16 ГБ лучше 4–8B.
Apple Neural Engine пока не задействован: llama.cpp/MLX работают на GPU, а CoreML/ANE – только для статических INT8/FP16.
Популярные инструменты: LM Studio, Ollama, llamafile, MLX, Pico AI Server, On-Device AI, Osaurus; DEVONthink 4 встроил локальные модели.
Юз-кейсы: приватные дневники/журналы, транскрибация, суммаризация, автокод, автокатегоризация, «разговор с заметками» без облака.
Кто сколько RAM: 48–128 ГБ M4-Macbook уже тянут 30–120B-кванты почти как облачные фронтиры; старый MacPro 2013 с 64 ГБ DDR3 тоже справляется.