Hacker News Digest

03 октября 2025 г. в 20:59 • centralflows.github.io • ⭐ 289 • 💬 23

OriginalHN

#gradient-descent#deep-learning#neural-networks#optimization#machine-learning#stochastic-gradient-descent#central-flow

How does gradient descent work?

Градиентный спуск в глубоком обучении работает вопреки классическим представлениям. Традиционный анализ предсказывает, что алгоритм должен оставаться в «стабильной области», где острота функции потерь (максимальное собственное значение гессиана) не превышает порога 2/η. Если острота становится выше, градиентный спуск на квадратичной аппроксимации начинает расходиться.

Однако на практике при обучении нейросетей острота часто растёт и достигает этого порога, но градиентный спуск не расходится, а продолжает сходиться. Это происходит потому, что реальная динамика оптимизации сложнее локальной квадратичной аппроксимации. Алгоритм стабилизируется за счёт нелинейных эффектов и взаимодействия параметров, что позволяет ему эффективно работать даже вне теоретически стабильной области.