Hacker News Digest

06 октября 2025 г. в 08:13 • gregorygundersen.com • ⭐ 235 • 💬 17

OriginalHN

#llm#transformers#attention-mechanism#pretraining#scalability#bert#nlp#agi#neural-networks

A History of Large Language Models

TL;DR
Статья представляет собой глубокий анализ эволюции идей, лежащих в основе современных LLM. От распределённых представлений и трансформеров до предобучения и масштабируемости. Автор прослеживает путь от идей 1980-х годов до современных моделей, подчеркивая, что прогресс был не линейным, а скорее серией прыжков, сделанных возможными благодаря вычислительной мощности и объёму данных. Он также подчеркивает, что многие ключевые идеи были предвосхищены десятилетиями раньше, но не были реализованы до недавнего времени из-за ограничений в вычислениях. В конце он размышляет о том, что следующий прыжок может быть связан с генеративностью и способностью моделей к обобщению, и что мы можем быть на пороге следующего качественного скачка.

Основные идеи и факты:

  • Распределённые представления и трансформер как центральные идеи, которые были предвосхищены в 1980-х годах, но не могли быть реализованы до недавнего времени из-за ограничений в вычислениях.
  • Предобучение и масштабируемость как ключевые факторы, которые позволили LLM достичь их современного уровня.
  • Attention is all you need - это не только архитектура, но и философия, которая подчеркивает важность масштабируемости и эффективного использования вычислительных ресурсов.
  • Масштабируемость и предобучение как два кита, на которых стоит современный успех LLM.