Hacker News Digest

Тег: #mps

Постов: 1

What's the strongest AI model you can train on a laptop in five minutes? (seangoedecke.com) 🔥 Горячее 💬 Длинная дискуссия

Сильнейшая модель за 5 минут на ноутбуке
Победитель: 1.8-млн-параметровный GPT-подобный трансформер, обученный на ~20 млн токенов TinyStories и показавший 9.6 перплексии. Пример:

Once upon a time, there was a little boy named Tim…

Ограничение времени

5 минут — это ~300 млн токен-шагов. Большие модели не успевают, мелкие (10 k) быстро выходят на плато. Оптимум — 1-2 млн параметров.

Скорость

На M1 Pro (MPS) достигал 3000 ток/с.

  • torch.compile, float16, MLX — без выгоды.
  • Градиентное накопление тормозит.
  • Главное: минимальный размер модели и MPS.

Датасет

Simple Wikipedia давала факты без смысла («Paris, France is a city in North Carolina»).
TinyStories (рассказы уровня 4-летнего) — простые паттерны, мало имён, быстрая сходимость.

by ingve • 12 августа 2025 г. в 13:15 • 504 points

ОригиналHN

#llm#transformers#pytorch#mlx#machine-learning#natural-language-processing#tiny-stories#mps#optimization#model-training

Комментарии (181)

  • Обсуждение вращается вокруг тренировки маленьких языковых моделей на ноутбуке: почему это важно для науки и практики.
  • Участники сравнивают ограничения по времени, энергии (джоулям) и железу; предлагают «AI-олимпиаду» за лучший результат на данный бюджет.
  • Приводятся конкретные приёмы: Muon-оптимизатор, улучшенная инициализация, «cramming» за день на лэптопе, идея специализированных моделей «под задачу».
  • Задаются вопросы о данных, переобучении, диффузных архитектурах и о том, когда марковская цепь окажется достаточной.
  • В целом тон оптимистичен: даже на обычном ноутбуке можно быстро экспериментировать и учиться, не дожидаясь супер-кластеров.