Hacker News Digest

12 августа 2025 г. в 13:15 • seangoedecke.com • ⭐ 504 • 💬 181

OriginalHN

#llm#transformers#pytorch#mlx#machine-learning#natural-language-processing#tiny-stories#mps#optimization#model-training

What's the strongest AI model you can train on a laptop in five minutes?

Сильнейшая модель за 5 минут на ноутбуке
Победитель: 1.8-млн-параметровный GPT-подобный трансформер, обученный на ~20 млн токенов TinyStories и показавший 9.6 перплексии. Пример:

Once upon a time, there was a little boy named Tim…

Ограничение времени

5 минут — это ~300 млн токен-шагов. Большие модели не успевают, мелкие (10 k) быстро выходят на плато. Оптимум — 1-2 млн параметров.

Скорость

На M1 Pro (MPS) достигал 3000 ток/с.

  • torch.compile, float16, MLX — без выгоды.
  • Градиентное накопление тормозит.
  • Главное: минимальный размер модели и MPS.

Датасет

Simple Wikipedia давала факты без смысла («Paris, France is a city in North Carolina»).
TinyStories (рассказы уровня 4-летнего) — простые паттерны, мало имён, быстрая сходимость.