Тег: #stochastic-gradient-descent

How does gradient descent work? (centralflows.github.io) 🔥 Горячее

Градиентный спуск в глубоком обучении работает вопреки классическим представлениям. Традиционный анализ предсказывает, что алгоритм должен оставаться в «стабильной области», где острота функции потерь (максимальное собственное значение гессиана) не превышает порога 2/η. Если острота становится выше, градиентный спуск на квадратичной аппроксимации начинает расходиться.

Однако на практике при обучении нейросетей острота часто растёт и достигает этого порога, но градиентный спуск не расходится, а продолжает сходиться. Это происходит потому, что реальная динамика оптимизации сложнее локальной квадратичной аппроксимации. Алгоритм стабилизируется за счёт нелинейных эффектов и взаимодействия параметров, что позволяет ему эффективно работать даже вне теоретически стабильной области.

by jxmorris12 • 03 октября 2025 г. в 20:59 • 289 points

Оригинал • HN

#gradient-descent #deep-learning #neural-networks #optimization #machine-learning #stochastic-gradient-descent #central-flow

Комментарии (23)

Обсуждение посвящено концепции "центрального потока" (central flow) — теоретической модели, объясняющей динамику градиентного спуска в глубоком обучении через проекцию градиента потерь на градиент "остроты" (sharpness).
Участники отмечают, что модель предсказывает поведение функции потерь и объясняет, как нестабильность и осцилляции используются для самоисправления и обучения, а не просто избегаются.
Поднимается вопрос о практической применимости модели: является ли она лишь теоретическим инструментом для понимания или может быть использована для ускорения сходимости на практике, например, через скользящее среднее.
Обсуждается ограничение модели — её детерминистическая природа и необходимость проверки её работы со стохастическими градиентами (SGD), используемыми в реальных задачах.
Упоминается, что авторы статьи видят центральный поток как инструмент для анализа, а не как готовый практический метод оптимизации.

A Random Walk in 10 Dimensions (2021) (galileo-unbound.blog)

Случайное блуждание в 10 измерениях

Представьте точку, скачущую в 10-мерном пространстве: каждый шаг — равновероятный сдвиг по любой из координат. В одномерном случае расстояние от начала растёт как √n, где n — число шагов. В d измерениях это правило превращается в √(n·d): «объём» доступного пространства растёт, но каждая координата всё ещё дрожит независимо.

Интуиция подсказывает, что в 10D точка должна «улететь» далеко, однако симуляция показывает иное: медианное расстояние после 1000 шагов — всего ≈10 единиц. Почему? Плотность вероятности в высоких размерностях концентрируется в тонкой оболочке гиперсферы; случайные векторы почти ортогональны, и их длины редко бывают экстремальными.

Этот эффект лежит в основе многих задач: от статистической механики до машинного обучения, где «проклятие размерности» заставляет методы искать структуру в разреженных данных.

by just_human • 03 сентября 2025 г. в 15:20 • 116 points

Оригинал • HN

#mathematics #statistics #machine-learning #random-walks #dimensionality #gradient-descent #stochastic-gradient-descent #hamiltonian-monte-carlo #curse-of-dimensionality

Комментарии (16)

В высоких размерностях случайное блуждание почти вся «растягивается» вдоль первых двух главных компонент (>80 % дисперсии), что противоречит интуиции.
Уточнили модель шага: выбирается одно из 10 измерений (вер. 1/10), затем направление ±1 (вер. ½), т.е. 20 возможных переходов.
Ошиблись в расчёте «горных пиков» в 10-D решётке: правильная вероятность ≈ 2 %, а не 18 %.
Обсудили, почему такие эффекты делают глубокое обучение возможным: случайные блуждания по ландшафту потерь помогают вместе с градиентным спуском.
Упомянули связанные методы (SGD, Hamiltonian MCMC) и классическую теорему Пойа: в 1-2-D блуждание возвращается, в ≥3-D может «потеряться навсегда».