Gemma 3 270M re-implemented in pure PyTorch for local tinkering
Назначение : ноутбук 12_gemma3.ipynb
показывает, как загрузить и запустить модель Gemma-3 (1B/4B/12B/27B) с помощью Hugging Face Transformers и KerasNLP без обучения.
Установка : pip install transformers keras-nlp
(Keras 3 + JAX/TF/PyTorch).
Код :
Авторизация через huggingface-cli login
и keras_nlp.models.GemmaCausalLM.from_preset("gemma3_1b_en")
.
Генерация текста: model.generate("AI is", max_length=50)
.
Особенности Gemma-3 : поддержка 140 языков, контекст до 128k токенов, инструмент-вызовы, улучшенные математика и код.
Внимание : модели весят 1–27 ГБ; требуется GPU/CPU с 8–48 ГБ ОЗУ.
Автор модели canyon289 представил Gemma 270M, ответил на вопросы и поделился туториалами.
Пользователи спрашивали: как перейти от классического ML к DL, где взять гайд по тонкой настройке для NER, какие бывают применения мелких моделей и нужен ли для них дополнительный трейнинг.
Обсуждали скорость работы на Mac CPU vs A100 GPU, качество эмбеддингов и возможность до-обучения.
canyon289 подтвердил, что модель полезна не только для учёбы, но и для продакшена: локальная классификация, суммаризация, тегирование, быстрый дев-цикл.