What's the strongest AI model you can train on a laptop in five minutes? 🔥 Горячее 💬 Длинная дискуссия
Сильнейшая модель за 5 минут на ноутбуке
Победитель: 1.8-млн-параметровный GPT-подобный трансформер, обученный на ~20 млн токенов TinyStories и показавший 9.6 перплексии. Пример:
Once upon a time, there was a little boy named Tim…
Ограничение времени
5 минут — это ~300 млн токен-шагов. Большие модели не успевают, мелкие (10 k) быстро выходят на плато. Оптимум — 1-2 млн параметров.
Скорость
На M1 Pro (MPS) достигал 3000 ток/с.
torch.compile
,float16
, MLX — без выгоды.- Градиентное накопление тормозит.
- Главное: минимальный размер модели и MPS.
Датасет
Simple Wikipedia давала факты без смысла («Paris, France is a city in North Carolina»).
TinyStories (рассказы уровня 4-летнего) — простые паттерны, мало имён, быстрая сходимость.
Комментарии (181)
- Обсуждение вращается вокруг тренировки маленьких языковых моделей на ноутбуке: почему это важно для науки и практики.
- Участники сравнивают ограничения по времени, энергии (джоулям) и железу; предлагают «AI-олимпиаду» за лучший результат на данный бюджет.
- Приводятся конкретные приёмы: Muon-оптимизатор, улучшенная инициализация, «cramming» за день на лэптопе, идея специализированных моделей «под задачу».
- Задаются вопросы о данных, переобучении, диффузных архитектурах и о том, когда марковская цепь окажется достаточной.
- В целом тон оптимистичен: даже на обычном ноутбуке можно быстро экспериментировать и учиться, не дожидаясь супер-кластеров.