Комментарии (88)
- В обсуждении поднимается вопрос о том, насколько можно доверять утверждению, что модель может "интроспектировать" свои собственные внутренние состояния, и насколько это вообще имеет смысл, если мы не знаем, как именно она работает.
- Участники обсуждения указывают на то, что статья может быть просто маркетинговым материалом Anthropic, и что в ней могут быть конфликты интересов.
- Также обсуждается, что если модель может быть "инъектирована" с концептом, то она может быть и "инъектирована" с другими концептами, и что это может быть использовано для извлечения скрытых влияний.
- Некоторые участники подчеркивают, что статья не предоставляет достаточной информации о том, как именно происходило вмешательство в активации, что делает трудным или невозможным воспроизвести эксперимент.
'Attention is all you need' coauthor says he's 'sick' of transformers 🔥 Горячее 💬 Длинная дискуссия
—
Комментарии (176)
- Ведущие исследователи, включая одного из соавторов оригинальной статьи "Attention is all you need", открыто заявляют, что уходят от трансформеров и ищут «следующую большую идею», вызывая вопрос, действительно ли это поиск новой архитектуры или просто PR-ход.
- Участники обсуждения отмечают, что трансформеры стали не только архитектурой, но и целой инфраструктурой: от GPU и TPU до всего стека LLM-стека, что делает любую альтернативу экономически невыгодной.
- Некоторые комментаторы поднимают вопрос о том, что если следующий прорыв будет зависеть от новой архитектуры, то это может быть не только научный, но и экономический выбор, который может быть не в интересах общества или даже безопасности.
- Другие спорят, что фокус на трансформерах может отвлекать от других направлений, таких как обучение с подкреплением, которые могут быть более критически важны для AGI.
- И хотя некоторые участники высказывают, что трансформеры могли быть "пыльной доской" для следующего прогресса, другие считают, что они могут быть просто "сингуларностью в зародыше", и что мы должны быть осторожны в том, чтобы не убить золотую курицу, которая может быть просто медленно варится.
Neural audio codecs: how to get audio into LLMs 🔥 Горячее
Текущие речевые LLM работают как обертка: преобразуют речь в текст, обрабатывают его и затем синтезируют ответ обратно в речь, что не позволяет улавливать нюансы интонации, сарказма или эмоций. Даже передовые модели вроде Gemini или ChatGPT с продвинутым голосовым режимом не могут ответить на вопрос о высоте голоса, демонстрируя отставание речевых моделей от текстовых. Проблема в том, что за одну секунду аудио содержится десятки тысяч выборок, в отличие от нескольких слов в тексте, что делает обработку аудио значительно сложнее.
Решением являются нейроаудио-кодеки, такие как Mimi от Kyutai, которые сжимают аудио в более управляемые дискретные токены, аналогично токенизации текста. Вместо предсказания аудио выборка за выборкой, как в ранних моделях вроде WaveNet, кодеки преобразуют непрерывные значения в 256 дискретных "вёдер" с помощью μ-law алгоритма. Этот подход позволяет LLM обрабатывать аудио как последовательность токенов, предсказывать продолжение и затем декодировать обратно в аудио, открывая путь к настоящему пониманию речи.
Комментарии (115)
- Обсуждение охватывает широкий спектр тем: от токенизации аудио до фундаментальных вопросов о том, как моделируются речь и звук, и почему это важно для будущего ИИ.
- Участники обсуждают, что вместо попыток заставить модели распознавать и генерировать речь, мы должны сосредоточиться на создании моделей, которые могут работать с непрерывными сигналами и, таким образом, избегая необходимости в токенизации аудио.
- Обсуждается, что вместо того, чтобы полагаться на существующие аудио кодеки, такие как MP3, мы должны развивать нейрональные кодеки, которые могут быть обучены вместе с моделью и, таким образом, позволяя ей напрямую работать с компактным, дискретным представлением аудио.
- Участники также обсуждают, что вместо того, чтобы пытаться обучить модель на транскрибированном тексте, мы должны использовать аудио-ориентированные данные, которые включают в себе всю информацию, которая теряется при транскрибции. Это может включать в себе обучение модели на транскрибированном тексте, который может быть использован для тренировки TTS-моделей.
Andrej Karpathy – It will take a decade to work through the issues with agents 🔥 Горячее 💬 Длинная дискуссия
Андрей Карпати из OpenAI объясняет, почему до общего искусственного интеллекта (AGI) остаётся ещё около десятилетия. Хотя современные ИИ-агенты вроде Claude и Codex впечатляют, они пока неспособны автономно выполнять комплексные задачи, как человек-ассистент. Основные ограничения включают недостаточную многомодальность (неспособность работать с разными типами данных), неумение взаимодействовать с компьютерными системами и отсутствие непрерывного обучения на основе опыта.
Эти проблемы решаемы, но сложны — требуется масштабирование вычислительных мощностей, улучшение алгоритмов (особенно обучения с подкреплением, которое сейчас "ужасно"), и создание более сложных архитектур для обработки контекста и планирования. Как и с беспилотными автомобилями, прогресс будет постепенным, а не взрывным.
Когда AGI finalmente появится, оно, вероятно, интегрируется в экономику так же плавно, как и предыдущие технологические прорывы, поддерживая ~2% рост ВВП без резких скачков. Даже AGI не приведёт к немедленному преобразованию общества; изменения будут постепенными и управляемыми.
В конечном счёте, несмотря на текущие достижения, до AGI остаётся значительная работа, и пройдёт около десятилетия, прежде чем мы увидим системы, способные полностью заменить человеческий труд в сложных контекстах.
Комментарии (949)
- Обсуждение в основном вращается вокруг того, что AGI/AGI-образные системы всё ещё далеки, и что «десятилетие» стало универсальным эвфемизмом для «мы не знаем, когда это будет».
- Участники спора подчеркнули, что текущие модели не решают фундаментальные проблемы, такие как постоянное обучение, причинность и планирование, и что мы по-прежнему полагаемся на эвристики, которые не масштабируются.
- Были выдвинуты предположения, что AGI может потребовать качественно иной архитектуры, и что текущий путь может быть тупиковым.
- Некоторые комментаторы выразили обеспокоенность тем, что гипер-оптимизм может вести к недооценке рисков и переоценке способностей текущих систем.
- В целом, обсуждение подчеркнуло, что прогресс в ИИ-технологии не линеен и что прогнозы о сроках AGI часто оказываются неверными.
Intercellular communication in the brain through a dendritic nanotubular network 🔥 Горячее 💬 Длинная дискуссия
—
Комментарии (217)
- Пенроуза 30 лет назад казалась невероятной идея о квантовых микротрубочках как источнике сознания, но новые данные о транспорте кальция и митохондрий между нейронами возвращает ей актуальность.
- Однако это не подтверждает гипотезу Penrose-Hameroff о квантовом сознании, так как речь идет о транспорте макромолекул, а не о квантовых эффектах.
- Даже если квантовые эффекты в мозге играют роль, это не обязательно квантовые вычисления в привычном смысле слова, и мы все еще не имеем ни малейшего представления о том, что такое сознание.
- Сознание может быть не вычислимо, но это не делает квантовую теорию сознания правдоподобной.
- В отличии от нейронных сетей, которые мы не можем исследовать внутри них, мы не можем исследовать внутри мозга, и это может быть препятствием для понимания, как работает мозг.
Who invented deep residual learning?
Глубокое остаточное обучение с остаточными соединениями было изобретено не в 2015 году с появлением ResNet, а имеет долгую историю, уходящую корнями в 1991 год. Sepp Hochреитер в своей дипломной работе под руководством Jürgen Schmidhuber представил остаточные соединения для рекуррентных нейронных сетей, чтобы решить фундаментальную проблему исчезающих градиентов. Эти соединения с весом 1.0 обеспечивают постоянный поток ошибок в глубоких сетях, позволяя градиентам распространяться на миллионы шагов без затухания.
Эволюция продолжилась с LSTM в 1997 году, ставшей самой цитируемой работой по ИИ 20 века, где остаточные соединения назывались "constant error carrousels". В 1999 году появились управляемые остаточные соединения с forget gates, изначально открытыми (вес 1.0). К 2005 году LSTM была "развернута" из рекуррентной в feedforward архитектуру, что в 2015 году привело к появлению Highway Net и затем ResNet - по сути открытого управляемого Highway Net или развернутого 1997 LSTM.
Комментарии (33)
- Стороны обсуждают, кто именно «изобрёл» residual-соединения, и кто должен получить признание за идею, которая в действительности развивалась постепенно и коллективно.
- Обсуждается, что в ML-исследованиях редко бывает, что идея принадлежит одному человеку, и что «изобретение» часто является результатом множества вкладов, которые со временем приписываются одному человеку.
- Участники обмениваются мнениями о том, что важнее — первоначальная идея или же ее популяризация и демонстрация ее важности.
- Также затрагивается вопрос о том, что если идея не была оценена по достоинству в свое время, то это может быть выгодно только тому, кто ее позже популяризирует.
AMD and Sony's PS6 chipset aims to rethink the current graphics pipeline 🔥 Горячее 💬 Длинная дискуссия
AMD и Sony в рамках проекта Amethyst разрабатывают чипсет для PlayStation 6, который отказывается от классического конвейера рендеринга в пользу машинного обучения. Вместо того чтобы гнаться за полигонами, новая архитектура сфокусирована на эффективном запуске нейросетей, которые обрабатывают сцену и апскейлят изображение. Это позволит в будущем отказаться от дорогих и прожорливых GPU, а вместо этого полагаться на более дешёвые и компактные чипы с машинным обучением.
Комментарии (362)
- Сомневается, что PS6 принесёт значимый прирост производительности из-за дорожающих чипов и фокуса на апскейл/фреймген.
- Считает, что PS5-генерация оказалась худшей за всю историю PlayStation из-за отсутствия игр и дороговизны.
- Указывает, что вместо новых консолей вендоры и разработчики игр вступают в порочный круг: не выгодно делать эксклюзивы под слабое железо, а без эксклюзивов никто не покупает консоль.
- Подчеркивает, что в то время как рынок ПК-видеокарт и консолей соревнуются в том, кто лучше умеет апскейлить старые игры, в то время как игры всё более требовательны к железу и всё меньше игр выходят вовремя.
A History of Large Language Models
TL;DR
Статья представляет собой глубокий анализ эволюции идей, лежащих в основе современных LLM. От распределённых представлений и трансформеров до предобучения и масштабируемости. Автор прослеживает путь от идей 1980-х годов до современных моделей, подчеркивая, что прогресс был не линейным, а скорее серией прыжков, сделанных возможными благодаря вычислительной мощности и объёму данных. Он также подчеркивает, что многие ключевые идеи были предвосхищены десятилетиями раньше, но не были реализованы до недавнего времени из-за ограничений в вычислениях. В конце он размышляет о том, что следующий прыжок может быть связан с генеративностью и способностью моделей к обобщению, и что мы можем быть на пороге следующего качественного скачка.
Основные идеи и факты:
- Распределённые представления и трансформер как центральные идеи, которые были предвосхищены в 1980-х годах, но не могли быть реализованы до недавнего времени из-за ограничений в вычислениях.
- Предобучение и масштабируемость как ключевые факторы, которые позволили LLM достичь их современного уровня.
- Attention is all you need - это не только архитектура, но и философия, которая подчеркивает важность масштабируемости и эффективного использования вычислительных ресурсов.
- Масштабируемость и предобучение как два кита, на которых стоит современный успех LLM.
Комментарии (17)
- Обсуждение подчеркнуло, что ранние LLM-архитектуры (GPT-1, GPT-2) часто упускаются из виду, хотя именно они положили начало современному направлению.
- Участники отметили, что статья недооценивает значение BERT как промежуточного этапа, несмотря на его влияние на многочисленные бенчмарки и задачи.
- Сообщество отметило, что LLM не столько «решили» задачи, сколько стали вычислять вероятности последовательностей, и это вызвало скепсис в отношении заявлений о приближении к AGI.
- Была затронута тема, что вместо специализированных моделей классификации или регрессии, которые раньше использовали предобученные репрезентации, теперь используют LLM как универсальный инструмент, и это вызывает вопросы о том, как именно LLM влияют на поле AI-исследований.
Rule-Based Expert Systems: The Mycin Experiments (1984)
MYCIN — один из первых экспертных систем, разработанных в Стэнфордском проекте эвристического программирования в 1970-х. Эта система использовала правила для диагностики бактериальных инфекций и рекомендации лечения антибиотиками. Её архитектура стала образцом для многих последующих систем: она включала базу знаний с сотнями правил вида «если-то», механизм логического вывода и средства объяснения своих решений.
Ключевые инновации MYCIN — работа с неопределённостью через факторы уверенности, разделение знаний и логики, а также генерация понятных пользователю объяснений. На её основе создали EMYCIN — инструмент для построения других экспертных систем. Книга подводит итог десятилетним экспериментам, анализируя сильные и слабые стороны подхода, и подчёркивает важность практических исследований для развития ИИ.
Комментарии (19)
- Вспоминают ранние подходы к ИИ, включая экспертные системы и перцептроны, как исторический контекст.
- Отмечают практическую пользу экспертных систем и логического программирования (например, на Prolog) для обработки данных.
- Обсуждают, что современные LLM выиграли гонку, но им не хватает логического обоснования и семантики.
- Указывают на ограничения экспертных систем из-за нехватки вычислительных мощностей в прошлом.
- Сравнивают успехи статистических методов (нейросети) с символическим ИИ, признавая победу первых.
How does gradient descent work? 🔥 Горячее
Градиентный спуск в глубоком обучении работает вопреки классическим представлениям. Традиционный анализ предсказывает, что алгоритм должен оставаться в «стабильной области», где острота функции потерь (максимальное собственное значение гессиана) не превышает порога 2/η. Если острота становится выше, градиентный спуск на квадратичной аппроксимации начинает расходиться.
Однако на практике при обучении нейросетей острота часто растёт и достигает этого порога, но градиентный спуск не расходится, а продолжает сходиться. Это происходит потому, что реальная динамика оптимизации сложнее локальной квадратичной аппроксимации. Алгоритм стабилизируется за счёт нелинейных эффектов и взаимодействия параметров, что позволяет ему эффективно работать даже вне теоретически стабильной области.
Комментарии (23)
- Обсуждение посвящено концепции "центрального потока" (central flow) — теоретической модели, объясняющей динамику градиентного спуска в глубоком обучении через проекцию градиента потерь на градиент "остроты" (sharpness).
- Участники отмечают, что модель предсказывает поведение функции потерь и объясняет, как нестабильность и осцилляции используются для самоисправления и обучения, а не просто избегаются.
- Поднимается вопрос о практической применимости модели: является ли она лишь теоретическим инструментом для понимания или может быть использована для ускорения сходимости на практике, например, через скользящее среднее.
- Обсуждается ограничение модели — её детерминистическая природа и необходимость проверки её работы со стохастическими градиентами (SGD), используемыми в реальных задачах.
- Упоминается, что авторы статьи видят центральный поток как инструмент для анализа, а не как готовый практический метод оптимизации.
Random Attractors – Found using Lyapunov Exponents (2001)
Двумерные квадратичные отображения с случайными параметрами могут порождать хаотические аттракторы — сложные структуры, возникающие при итерациях нелинейных уравнений. Ключевым индикатором хаоса служит положительный показатель Ляпунова, отражающий экспоненциальное расхождение близких траекторий и потерю информации о начальных условиях. Около 98% случайных комбинаций параметров приводят к расходимости, лишь 0.5% — к периодическим орбитам, и ещё меньше — к визуально богатым хаотическим режимам.
Метод включает отбрасывание начальных итераций для стабилизации системы, расчёт показателя Ляпунова и визуализацию траекторий. Интересно, что даже двумерные системы могут создавать иллюзию трёхмерности, а детектирование хаоса требует учёта численных погрешностей, например, при схождении к точке или уходе в бесконечность.
Комментарии (27)
- Упомянуты книги и ресурсы по теории хаоса и аттракторам, включая "Strange Attractors" Джулиана Спротта и работы Пола Бурка.
- Обсуждается применение теории хаоса за пределами визуализации: в нейросетях, анализе ЭКГ, системах управления и для повышения надежности ИИ.
- Участники делятся личными проектами, например, генератором аттракторов и аналоговой схемой, демонстрирующей хаотическое поведение.
- Высказано мнение, что LLM можно рассматривать как динамические системы и изучать на предмет хаотического поведения.
- Отмечена эстетическая ценность визуализаций хаоса и их сравнение с музыкой или "визуальным джазом".
Комментарии (108)
- Обсуждается гипотеза, что аутизм может быть эволюционным побочным эффектом отбора генов, ответственных за высокий интеллект у людей.
- Участники спорят о наличии корреляции между высоким IQ и аутизмом у отдельных индивидов, приводя личные примеры и контраргументы.
- Поднимается вопрос о возможном компромиссе (trade-off) между социальным и общим интеллектом.
- Обсуждаются различные теории происхождения аутизма, включая аналогии с ИИ (нейросети, LLM) и ссылки на другие исследования.
- Отмечается, что не все формы аутизма можно выявить современными тестами, и что определение спектра стало шире.
Computer Vision: Algorithms and Applications, 2nd ed
Второе издание фундаментального учебника по компьютерному зрению охватывает алгоритмы и практические приложения, от классических методов до современных нейросетевых подходов. Книга основана на курсах автора в Университете Вашингтона и Стэнфорда, с акцентом на глубину и доступность материала. Электронная версия в формате PDF оптимизирована для онлайн-чтения, с гиперссылками и возможностью комментирования.
Текст дополнен визуальными примерами, включая маски сегментации Mask R-CNN и 3D-реконструкции. Для преподавателей и студентов указаны ссылки на слайды и курсы ведущих университетов, таких как MIT, Корнелл и CMU. Автор приветствует обратную связь по ошибкам и планирует периодически обновлять электронную версию.
Комментарии (13)
- Пользователи высоко оценивают книгу как отличный фундаментальный учебник по компьютерному зрению.
- Обсуждается отсутствие продвинутых учебников, покрывающих современные практики, и предлагается искать актуальные знания на arXiv и GitHub.
- Поднимается вопрос о том, почему старый пост (2022 г.) публикуется снова, и предлагается добавлять дату в заголовок для ясности.
- Указывается на наличие слайдов и лекций к книге на сайте автора.
- Отмечается, что область компьютерного зрения очень широка и быстро развивается, что затрудняет создание актуальных учебников.
Modular Manifolds
Нормализация тензоров в больших нейросетях — ключевой аспект их стабильного обучения. Она предотвращает проблемы численной нестабильности, такие как переполнение или исчезновение градиентов, и упрощает проектирование алгоритмов, обеспечивая предсказуемость размеров весов, активаций и обновлений. Хотя нормализация активаций (например, layer norm) и градиентов уже стала стандартом, нормализация весовых матриц применяется реже, несмотря на потенциальные преимущества.
Ограничение норм весов помогает контролировать относительный размер обновлений, избегать взрыва норм и улучшать condition number матриц, делая их поведение более предсказуемым. Это позволяет сосредоточить усилия по настройке гиперпараметров на наиболее значимых тензорах. Практические реализации, такие как в EDM2, показывают, что такие методы могут улучшать устойчивость и эффективность обучения больших моделей.
Комментарии (53)
- Обсуждение возможности ограничения весов нейронных сетей на многообразиях и переосмысления оптимизации с такими ограничениями.
- Вопросы о новизне подхода, учитывая существующие работы и библиотеки (Pymanopt) по оптимизации на многообразиях.
- Критика и сомнения в представленных эмпирических результатах (низкая точность на CIFAR-10, малый масштаб модели).
- Обсуждение формата публикации (блогпост vs. научная статья) и мотивов авторов.
- Замечания о дизайне и UX сайта с блогпостом (положительные и отрицательные).
Bit is all we need: binary normalized neural networks
Новая архитектура бинарных нормализованных нейросетей (BNNN) показывает, что для эффективного представления весов достаточно всего одного бита. Вместо традиционных 32-битных значений BNNN использует бинарные веса (±1), что резко сокращает требования к памяти и вычислительной сложности. Это особенно важно для развёртывания моделей на устройствах с ограниченными ресурсами, таких как микроконтроллеры или мобильные телефоны.
Эксперименты подтверждают, что BNNN сохраняет конкурентную точность на задачах классификации изображений, несмотря на экстремальное сжатие. Метод включает нормализацию активаций, что компенсирует потерю информации от бинаризации. Практический вывод: бинарные представления могут быть достаточны для многих приложений, открывая путь к более энергоэффективному ИИ.
Комментарии (35)
- Критика новизны подхода и ссылки на более ранние исследования в области квантованных сетей
- Обсуждение недостатков метода: значительное увеличение времени обучения и отсутствие квантования активаций
- Указание на то, что метод предназначен в основном для инференса, а не для обучения
- Сомнения в корректности выводов работы и её названия, указывающие на игнорирование предыдущих исследований
- Обсуждение технических деталей, таких как хранение параметров в двух формах и возможность более низкой битности
Cosmic simulations that once needed supercomputers now run on a laptop
Новый эмулятор Effort.jl позволяет проводить сложнейшие космологические симуляции на обычном ноутбуке, тогда как раньше для этого требовались суперкомпьютеры. Он имитирует поведение модели EFTofLSS, которая статистически описывает крупномасштабную структуру Вселенной, и выдаёт результаты с той же точностью — иногда даже с большей детализацией — всего за несколько минут.
Ключевой прорыв заключается в комбинации нейросетей с заранее заложенными физическими знаниями о том, как меняются предсказания при изменении параметров. Это резко сокращает время обучения и вычислений. Эмулятор уже протестирован на данных обзора DESI и готов к работе с новыми масштабными проектами, такими как Euclid, открывая возможность быстрого анализа растущих объёмов астрономических данных без потери научной строгости.
Комментарии (43)
- Критика вводящего в заблуждение заголовка: инструмент является не симуляцией, а эмулятором на основе нейросетей, созданным для аппроксимации результатов дорогих вычислений.
- Обсуждение потенциальных ограничений метода: возможность накопления ошибок при последовательном прогнозировании и сомнения в заявлениях о превосходстве над оригинальной моделью.
- Подчеркивание практической ценности эмуляторов для астрофизики и других областей как быстрых и дешевых инструментов для исследования параметров.
- Проведение параллелей с аналогичными гибридными подходами в других областях (прогноз погоды, предсказание структуры белка, DLSS).
- Упоминание реализации проекта на языке Julia и обсуждение его потенциала в ML/AI на фоне доминирования Python.
The Beginner's Textbook for Fully Homomorphic Encryption
Полностью гомоморфное шифрование (FHE) позволяет выполнять вычисления на зашифрованных данных без их расшифровки, сохраняя конфиденциальность. Эта технология особенно важна для облачных вычислений, приватного машинного обучения и безопасной обработки данных. В статье представлен учебник для начинающих, который объясняет основы FHE, включая математические концепции, такие как решетки и полиномиальные кольца, а также практические аспекты реализации.
Особое внимание уделяется доступности материала: авторы стремятся сделать сложные криптографические идеи понятными даже для тех, кто не имеет глубокого математического бэкграунда. Приводятся примеры использования FHE в реальных сценариях, например, для шифрования запросов к базе данных или выполнения аналитики на чувствительной информации. Учебник также охватывает современные библиотеки и инструменты, такие как Microsoft SEAL и OpenFHE, что помогает читателям быстро приступить к экспериментированию.
Практический вывод: FHE постепенно переходит из академической области в промышленность, и понимание его основ становится ключевым навыком для разработчиков, работающих с конфиденциальными данными.
Комментарии (39)
- Обсуждаются технические ограничения и практическая применимость Fully Homomorphic Encryption (FHE), отмечается его высокая вычислительная стоимость (в миллионы раз медленнее обычных вычислений) и непригодность для больших моделей ИИ.
- Поднимается вопрос о других потенциальных применениях FHE помимо машинного обучения, например, в операционных системах или мессенджерах, но отмечается, что ценность есть только при обработке данных на чужом оборудовании.
- Упоминаются альтернативные подходы, такие как компактные zero-knowledge доказательства (ZK), как более практичное решение для конфиденциальности в машинном обучении (ZKML).
- Обсуждается принцип работы FHE, включая возможность бутстрэппинга для сброса "шума" и выполнения неограниченного количества операций, а также его абстрактная применимость к любым вычислимым функциям.
- Отмечается, что для нейросетей, использующих функции вроде ReLU, требуются эффективно вычисляемые приближения, так как сами они не полностью дифференцируемы или гомоморфны.
Writing a competitive BZip2 encoder in Ada from scratch in a few days – part 3
Разработчик создал конкурентный энкодер BZip2 на Ada, добавив в третьей части неожиданный элемент машинного обучения для оптимизации энтропийного кодирования. Вместо стандартного подхода он использовал нейросеть для предсказания вероятностей символов, что позволило улучшить сжатие данных. Это решение оказалось эффективнее традиционных статистических методов, демонстрируя гибкость подхода.
Ключевой идеей стало применение простой двухслойной нейросети, обученной на лету, что дало прирост в 2–3% по сравнению с классическим Huffman-кодированием. Такой гибридный метод показывает, как даже базовое ML может решать узкоспециализированные задачи, где точность предсказаний критична. Практический вывод: машинное обучение может быть интегрировано в низкоуровневые системы для нетривиального улучшения производительности.
Комментарии (8)
- Автор выражает разочарование отсутствием связи между обсуждаемым алгоритмом BZip2/BZip3 и языком программирования Ada в статье.
- Несколько пользователей жалуются на чрезмерно навязчивую и мешающую чтению рекламу на сайте.
- Обсуждается использование блокировщиков рекламы (AdBlock, Pi-hole, NextDNS) как необходимое средство для комфортного просмотра сайтов.
- Один пользователь отмечает, что не видит рекламы без блокировщика, что вызывает удивление у других.
- Упоминается, что даже ФБР рекомендует использовать блокировщики рекламы в целях безопасности.
An untidy history of AI across four books
История искусственного интеллекта — это не линейный прогресс, а хаотичный путь с неожиданными поворотами. Исследования начались после Второй мировой с символического подхода, пытавшегося запрограммировать логику и семантику, но он упёрся в ограничения. Машинное обучение, долго игнорируемое из-за нехватки данных и вычислительной мощности, прорвалось благодаря интернету и GPU — технологиям из игровой индустрии.
Ключевым моментом стал 2011 год, когда нейросеть команды Крижевского, Сатсквера и Хинтона показала 85% точности в ImageNet, перевернув поле. OpenAI, основанная в 2015 году, выпустила ChatGPT почти без рекламы в 2022-м и столкнулась с неожиданным ажиотажем. Сегодня индустрия переоценена: OpenAI оценивают в $300 млрд, хотя реальные возможности ИИ часто преувеличиваются. Книга «AI Snake Oil» призывает трезво оценивать заявления об ИИ, отделяя факты от маркетинговой шумихи.
Комментарии (37)
- Участники обсуждают рекомендуемые книги по истории и философии ИИ, отмечая недостаток европейского и восточного вклада в некоторых из них.
- Критикуется качество публичного дискурса об ИИ, который часто ведут неэксперты, и поверхностность статьи, не раскрывающей фундаментальные ограничения современных подходов к машинному обучению.
- Высказываются сомнения в экспертизе некоторых авторов (например, Генри Киссинджера) и политической нейтральности издания The Hedgehog Review.
- Обсуждается отсутствие в списке классической работы «Machines Who Think» и упоминается собственная книга участника дискуссии.
- Несколько пользователей делятся личным опытом: уже прочитали некоторые из рекомендованных книг или ищут новые материалы для изучения.
Were RNNs all we needed? A GPU programming perspective
Упрощённые версии GRU и LSTM (minGRU и minLSTM) позволяют заменить последовательные вычисления на параллельные, устраняя зависимость скрытого состояния от предыдущего шага. Это достигается за счёт переопределения гейтов так, чтобы они зависели только от текущего входа, что превращает рекуррентное обновление в линейную форму, разрешимую алгоритмом параллельного сканирования (scan). Такой подход сокращает сложность с O(T) до O(log T), что критично для ускорения на GPU.
Реализация на CUDA демонстрирует значительное ускорение: для последовательностей длиной 65 536 шагов время выполнения сокращается с ~13 секунд на CPU до ~5,3 секунд на GPU для GRU и с ~13 до ~6,7 секунд для LSTM. На коротких последовательностях (T < 2048) преимущество менее выражено из-за накладных расходов на распараллеливание, но с ростом длины масштабирование становится явным. Это подтверждает, что даже минимальные изменения в архитектуре RNN могут радикально улучшить их производительность на параллельных вычислениях.
Комментарии (23)
- Обсуждаются архитектурные ограничения классических RNN/LSTM, в частности их последовательная природа, препятствующая эффективному распараллеливанию на GPU.
- Представлены упрощённые модели (minGRU, minLSTM) и альтернативные архитектуры (например, RWKV), которые пытаются устранить эти ограничения и конкурировать с трансформерами.
- Поднимается вопрос о возможности параллельного обучения RNN на разных независимых текстах (книгах) и обсуждаются сложности синхронизации градиентов.
- Уточняется, что мозг человека вряд ли является RNN, и выдвигаются альтернативные гипотезы о его работе, например, как модели поиска устойчивого состояния (equilibrium model).
- Обсуждается исторический контекст: почему трансформеры, несмотря на потенциальную эффективность RNN, стали доминировать благодаря лучшей параллелизации обучения.
Conway's Game of Life, but musical
Мелодии, которые размножаются
Я построил «разводильню мелодий»: выбираете до трёх понравившихся фраз, они «спариваются», мутируют и рождают новое поколение. За считанные секунды прокручивается то, что в природе заняло бы столетия. Работает как цифровой организм: нейросети играют роль ДНК, клики пользователей — отбор, кроссинговер и мутации — алгоритмы.
Живая музыка Конвея
Правила «Жизни» Конвея превратились в симфонию: рождение клетки — аккорд, смерть — диссонанс. Планеры становятся мелодиями, пушки — ритм-машинами. Сложность из простых правил, только теперь со звуком.
Культурные вирусы
Взлет хайпа на дизайнерских игрушках Labubu повторяет кривую пандемии: экспонента, географические вспышки, спад. Те же уравнения эпидемиологии описывают и мемы, и вирусы. Информация, будь то ген, бит или тренд, течёт по одним и тем же сетям.
Код как микроскоп
Программирование превращает душевые размышления в интерактивные лаборатории. За ночь можно прогнать тысячи поколений мелодий или увидеть, как вирус и хит TikTok рисуют одну кривую. Это и есть суперсила разработчика: делать невидимое — видимым.
Комментарии (32)
- Участники обсуждают «музыкальное» Conway’s Game of Life: каждая клетка рождает/умирает → звучит нота, зависящая от столбца (тон) и строки (октава).
- Похваляют демо, но спорят о «функции пригодности»: без модели «человеческого вкуса» эволюция генерирует случайный шум.
- Вспоминают похожие инструменты: Wolfram Tones, Eurorack-sequencer NLC, Reaktor-дамап, iOS-sequencer ZOA, Otomata, собственные DIY-Launchpad и «Tone of Life».
- Предлагают улучшения: ритм по числу живых клеток, hex-решётка вместо квадратной, MIDI-экспорт, интерактивная веб-версия.
- Проблемы: сафари на iPhone может не играть (выключить беззвучный режим), сайт Wolfram Tones часто лежит, старые Flash-sequencerы умерли.
TikTok has turned culture into a feedback loop of impulse and machine learning 💬 Длинная дискуссия
TikTok победил: теперь всё — 60 секунд
170 млн американцев тратят по часу в день на приложение, которое превратило внимание в товар. Пока Конгресс спорит о данных, TikTok уже промышленно перерабатывает человеческое внимание: вместо сюжетов — бесконечная лента импульсов и нейросетей.
Короткие видео и алгоритмы были и раньше, но TikTok впервые объединил их в систему добычи внимания. Его лента учится не на лайках, а на микродвижениях: сколько миллисекунд вы задержались перед свайпом — и сразу перестраивает ленту.
Последствия уже везде:
- Новости — 30-секундные ролики Washington Post
- Образование — студенты не читают длинных текстов
- Музыка — интро сократилось с 20 до 5 секунд
- Кино — трейлеры стали монтажом «моментов для клипа»
Культура превратилась в тренировку алгоритма: мы не выбираем, нас кормят. Успех приносит не талант, а узкая ниша: мойка ковров, смешение красок, один и тот же танец в новом месте.
Платформа, выжившая в гладиаторской битве за секунды внимания, теперь задаёт стандарт всему интернету. Мы получаем мгновенную дозу удовольствия, но теряем скуку, медитацию, случайные открытия. Сделали ли мы этот обмен осознанно?
Комментарии (182)
- TikTok и короткие 60-секундные видео формируют новую медианорму: всё, что короче 10 минут, стремится уложиться в минуту, а лонгформ тянут до 30-90 минут.
- Пользователи жалуются на «засорение» внимания: сложно вернуться к медленным форматам, пропадает терпение на статьи и полуторачасовые видео.
- Платности и алгоритмы подталкивают авторов: YouTube разрешает вставлять рекламу каждую минуту после 8 минут, поэтому ролики раздувают интро и повторы.
- Многие считают shorts «телевидением²» и «ультрапереработанным контентом»; кто-то удаляет приложения, кто-то использует как инструмент, подписавшись на полезные темы.
- Виноваты не только TikTok: Instagram, Twitter, YouTube Shorts, Facebook тоже сводят взаимодействие к бесконечному скроллу и «лайкам», превращая информацию в спектакль.
Knowledge and memory
- Клод придумал три несуществующих метода Ruby; я бы тоже мог так «угадать», но не делаю этого, потому что помню, где и когда учил каждую деталь.
- Моя память «осадочная»: факты ощущаются плотными или пустыми, и я чувствую разницу между знанием и догадкой.
- У биологов до сих пор нет модели, что именно в мозге есть память; это центральная тайна человечества.
- У языковых моделей памяти нет: веса — как ДНК, а не как личный опыт. Контекстное окно — лишь блокнот в чужом номере.
- Чтобы перестать галлюцинировать, ИИ должен жить во времени и причинности, а не просто обрабатывать текст.
Комментарии (43)
- Участники спорят, почему LLM «галлюцинируют»: кто-то винит сжатие знаний, кто-то — статистическую природу моделей.
- Нейробиологи и пациенты уточняют: человеческая память тоже ненадёжна, но у нас есть метапамять и эпизодические «якоря», которых у LLM нет.
- Документированная письменная база знаний считается лучшим способом снизить ошибки ИИ, пока не появятся принципиально новые архитектуры.
- Некоторые считают термин «галлюцинация» маркетинговым и предлагают называть это просто «ошибкой» или «склейкой».
Analog optical computer for AI inference and combinatorial optimization
Аналоговый оптический компьютер для ИИ и комбинаторной оптимизации
Создан фотонный процессор, выполняющий вывод нейросетей и решающий задачи оптимизации за пикосекунды и с энергией <1 нДж на операцию. Устройство использует лазерные импульсы и микрорезонаторы для матричных вычислений и поиска минимума в Ising-модели; точность 97–99 % достигнута на MNIST и Max-Cut. Система масштабируема до 100 000 узлов, не требует АЦП/ЦАП и на 2–3 порядка экономичнее GPU/ASIC.
Комментарии (18)
- Участники спорят: аналогово-оптические компьютеры либо перевернут ИИ, либо очередной «вечный завтрашний день».
- Скептики напоминают, что за десятилетия ни тройные, ни бес-тактовые, ни оптические схемы не победили простоту и масштабируемость цифровой CMOS.
- У новой работы пока нет данных по трансформерам, иерархии памяти и реальным рабочим нагрузкам ИИ; демо лишь 16 микро-светодиодов и 16 фотодетекторов.
- Световые модуляторы на порядки медленнее CPU-тактов, поэтому вопрос: сколько таких чипов понадобится, чтобы догнать один H100?
- Но Moore-уже мёртв, а ИИ-дизайн метаматериалов позволяет быстро искать оптические схемы; исследовать границы технологии всё равно стоит.
'World Models,' an old idea in AI, mount a comeback
Мир внутри ИИ
Полвека назад «модели мира» были фундаментом ИИ: система хранила внутреннюю копию окружения и планировала действия, прогоняя возможные будущие. С приходом больших данных и LLM идея ушла в тень, но теперь возвращается как ключ к AGI.
Почему снова актуально
- Проблема LLM: они предсказывают слова, а не последствия; не умеют планировать и обобщать.
- Плюс модели мира: позволяет «воображать» сцены, тестировать действия безопасно, переносить знания в новые задачи.
- Сдвиг в масштабе: современные нейросети могут обучать модели с миллионами параметров на видео и симуляциях, чего раньше не хватало.
Как строят сегодня
- Видеопредсказание: нейросети, обученные на YouTube, генерируют следующие кадры и учатся физике столкновений, трения, гравитации.
- Игра в уме: агенты Dreamer и MuZero учатся в «галлюцинациях» без внешнего мира, экономя время и энергию.
- Композиция знаний: новые архитектуры объединяют языковые модели с пространственными представлениями, позволяя отвечать «что будет, если…».
Где уже работает
- Роботы-манипуляторы от Google DeepMind учатся складывать блоки, «прокручивая» будущее в голове.
- Дроны и автономные машины используют модели мира для планирования траекторий в сложной местности.
- Генеративные видео-системы (Sora, Veo) не просто рисуют картинки, а моделируют физику сцены.
Ограничения и риски
- Пока модели мира хрупки: ошибаются в редких событиях и плохо переносятся между доменами.
- Требуют огромных данных и вычислений.
- Открыты вопросы безопасности: если ИИ «воображает» опасные сценарии, кто контролирует, что он не начнёт их реализовывать?
Вывод
Модели мира — не серебряная пуля, но без них путь к универсальному ИИ выглядит тупиковым. Следующий прорыв может случиться, когда языковые модели научатся не только говорить, но и «видеть» последствия своих слов.
Комментарии (67)
- Современные шахматные движки всё ещё опираются на полную реализацию логики игры и глубокий перебор, но уже используют нейросети для оценки позиций.
- Попытки заменить это «чистыми» нейромоделями приводят к невалидным ходам и глупым ошибкам, если нет явной проверки правил.
- Участники подчёркивают, что мир «в голове» ИИ должен быть неполным и постоянно корректироваться по новым данным, иначе возникает фрейм-проблема.
- Обсуждаются альтернативы: гауссовы сплэттинги, пользовательские грамматики, солипсистические модели, но все они либо узки, либо требуют ручной настройки.
- Итог: пока нет универсального способа построить надёжную world-model; нужен гибрид символики, нейросетей и постоянной адаптации.
What Is Complexity in Chess?
Что такое сложность?
Если бы мы знали ответ, все были бы мастерами.
В мае 2020-го на форуме предложили ввести метрику «сложности» позиций. Я критиковал статью FM Дэвида Пэна и сопутствующий код. С тех пор интерес к теме вырос, а Lichess обзавёлся блогами — пора довести критику до конца.
Золотая курица
Автор обещает революцию: позиционные тренажёры, «человечные» движки, диагностику слабых мест. Если бы это было реально, продукты уже продавались бы массово, а читеры получили бы инструмент оценки риска.
Тезисы
- Сложность — одномерная величина, передаваемая нейросети через потери в сантиходах (ACPL).
- Она же должна мгновенно показывать, насколько позиция трудна.
Интуиция не заменяет доказательств.
Логика
Даже принимая тезисы, выводы сомнительны:
- «Сложные» позиции не обязаны быть интересными или полезными для тренировки.
- Текущая система рейтинга головоломок (Эло) медленна, но работает.
- Автоматическое «понимание» дебютов вместо зубрёки — фантазия.
- Сложность ≠ интерес ≠ польза.
5–6. Разница в ошибках между сильными и слабыми игроками не даёт готовых учебников или экзаменов. - Большие базы данных снабжены метаданными (контроль времени, рейтинг), но это не делает «интуитивные» позиции измеримыми.
Итог
Метрика, основанная на ACPL, — это маркетинг, а не наука. Настоящая сложность требует глубже: учёта человеческого восприятия, стиля, психологии.
Комментарии (58)
- Ищут позиции, которые сложны для слабых и легки для сильных игроков; простой способ — сравнивать лучший ход на мелкой и глубокой глубине.
- Обсуждают различие «сложности» (количество вариантов) и «остроты» (цена ошибки), а также проблему формализации этих понятий.
- Показывают проекты: MCP-сервер со Stockfish и Maia для имитации игроков разного уровня, тренажёры, визуализацию линий.
- Отмечают, что LLM плохо объясняют позиции, а решение шахмат полным перебором практически невозможно из-за размера пространства.
The Math Behind GANs (2020)
GAN: математика в двух словах
- Модели: генератор
G(z)и дискриминаторD(x)играют в минимакс-игру. - Обозначения:
x– реальные данные,z– скрытый вектор,D(x)– вероятность «реальности». - Функции ошибок
- Дискриминатор:
L_D = –[log D(x) + log(1 – D(G(z)))](минимизирует). - Генератор:
L_G = –log D(G(z))(хочетD(G(z)) ≈ 1).
- Дискриминатор:
- Оптимизация
- Фиксируем
G, обучаемD, максимизируяlog D(x) + log(1 – D(G(z))). - Фиксируем
D, обучаемG, минимизируяlog(1 – D(G(z)))(или максимизируяlog D(G(z))– стабильнее).
- Фиксируем
- Итог: игра
min_G max_D [log D(x) + log(1 – D(G(z)))]сводится к минимизации расстояния JS между реальным и сгенерированным распределениями.
Комментарии (26)
- Для многоклассовых задач GAN лучше подавать классы как side-information, а не встраивать в основную цель.
- GAN «древние», но всё ещё живы: обучают VAE/VQ-VAE для латентных пространств diffusion-моделей и добавляют adversarial-loss в декодеры.
- Сами архитектуры меняются, а adversarial-training как метод остаётся релевантным, хотя diffusion сейчас предпочтительнее из-за стабильности.
- Главная проблема GAN — нестабильность и mode collapse, поэтому их чаще используют как небольшую регуляризацию, а не для полной генерации.
- Знание GAN всё ещё полезно для вдохновения и понимания истории нейросетей, даже если вы не собираетесь их тренировать с нуля.
The Annotated Transformer (2022)
Суть статьи в двух словах
- Transformer — архитектура нейросети, где всё держится на механизме внимания; свёртки и рекуррентные слои не нужны.
- Ключевые компоненты:
- Multi-Head Attention — параллельные «головы» вычисляют взвешенные суммы входов.
- Positional Encoding — добавляет информацию о порядке токенов.
- Feed-Forward — простые линейные слои между блоками внимания.
- Тренировка:
- Оптимизатор Adam с тёплым стартом и дропаутом.
- Label Smoothing (коэффициент 0.1) уменьшает переобучение.
- Результаты:
- На WMT 2014 английский↔немецкий BLEU 28.4 (новый SOTA).
- Обучение на 8 GPU занимает 12 часов до сходимости.
- Вывод: «Внимание — всё, что нужно»; модель легко масштабируется и обучается параллельно.
Комментарии (11)
- @srush напомнил, что статья была переписана командой авторов, и поделился ссылками на свои материалы по CUDA и тензорам.
- Участники хвалят качество объяснения attention и детализацию визуализации.
- @ActorNightly спорит, что термины Key/Query/Value не несут особого смысла, так как матрицы произвольны.
- @gchadwick возражает, подчёркивая разные роли K, Q, V при декодировании.
- @roadside_picnic предлагает смотреть на attention как на kernel smoothing, что делает его интуитивнее.
AGI is an engineering problem, not a model training problem 💬 Длинная дискуссия
AGI — задача инженерии, а не обучения моделей
Масштабирование LLM стало давать убывающий прирост. GPT-5, Claude, Gemini — вершина кривой, но не путь к AGI. Нужно строить системы, где модели, память, контекст и детерминированные процессы объединяются в нечто большее.
Почему рост остановился
Современные LLM — мощные генераторы текста, но:
- не сохраняют контекст между сессиями,
- не имеют постоянной памяти,
- стохастичны и ненадёжны в сложных цепочках рассуждений.
Как и полупроводники в 2000-х, AI пришёл к пределу. Выход — не «ещё больше параметров», а новая архитектура.
Что строить
-
Управление контекстом как инфраструктура
- Динамический поиск и фильтрация релевантных данных.
- Живые знания-графы, обновляемые в реальном времени.
- Обработка противоречий и неопределённости.
-
Память как сервис
- Обновление убеждений при новых фактах.
- Консолидация опыта в принципы, забывание мусора.
- Метазнания о надёжности источников.
-
Детерминированные процессы со стохастическими узлами
- Жёсткие workflow, где нужно, и вероятностные оптимизации, где можно.
- Откат и проверка результатов перед фиксацией.
- Неопределённость — объект первого класса.
-
Модульные специализированные модели
- Языковые — для текста, символьные — для логики, пространственные — для визуальных задач.
- Оркестрация через маршрутизацию запросов и слияние результатов.
Итог
AGI появится не из одной супер-модели, а из экосистемы взаимодействующих компонентов, спроектированных как надёжная инженерная система.
Комментарии (260)
- Стороны спорят, является ли путь к AGI «чистой» инженерной задачей или фундаментальной научной проблемой: многие считают, что мы пока не понимаем, что такое интеллект и сознание.
- LLM-критики подчеркивают, что современные модели — это всего лишь статистические машины без настоящего мышления, а их «выравнивание» не приближает к универсальному интеллекту.
- Сторонники масштабирования и «горького урока» утверждают, что дальнейшие данные и вычисления могут породить новые способности, но даже они сомневаются, что LLM-архитектура способна дойти до AGI.
- Ряд участников предлагает искать вдохновение в биологии, эволюции и эмоциях, считая, что без понимания «живого» интеллекта инженерные решения обречены.
- Общий вывод: AGI пока не определено, не измерено и, возможно, не достижимо в рамках существующих подходов; дискуссия остаётся открытой.
How can AI ID a cat?
Как ИИ узнаёт кота? Краткий путеводитель
Нейросеть — это просто карта высокой размерности. Чтобы понять, как она отличает кота от собаки, представьте:
-
Пиксель → координата
Каждый пиксель картинки — это ось в многомерном пространстве. 1-мегапиксель = 1 млн осей. -
Слои = фильтры
Первые слои выделяют простые черты: края, текстуры. Следующие комбинируют их в уши, усы, глаза. Последний слой решает: «кот» или «не кот». -
Границы классов
Внутри пространства сети строит гиперплоскости, разделяющие «котов» и «собак». Обучение — это подбор положения этих плоскостей так, чтобы ошибок было меньше. -
Точки и расстояния
Похожие картинки оказываются рядом. Если точка оказалась по «ту сторону» границы, сеть штрафуется и корректирует веса. -
Тысячи измерений
Мы не можем их увидеть, но алгоритм «гуляет» по этому лабиринту и выводит: «Это 97 % кот».
Главное: никакой магии — только геометрия в пространстве с миллионами осей.
Комментарии (48)
- Современные нейросети не выделяют «сущность кошачности», а просто учатся разделять пространство признаков.
- Apple/Google Photos хорошо группируют котов, но путают серых полосатых братьев и кроликов.
- Explainable-AI (saliency-карты) показывает, что модели часто опираются на глаза или цвет шерсти.
- Идея «кошачьего Face-ID» реальна, но требует большого и сложного набора данных.
- Практически уже работают дверцы с RFID-чипами, а в DIY-проектах используют камеры и Raspberry Pi.
Show HN: I built a toy TPU that can do inference and training on the XOR problem
Tiny-TPU: почему и как
Мы решились на безумное: собрать собственный TPU, не имея опыта в железе. Движимы желанием «переизобрести» ускоритель, а не копировать Google, мы пошли «кривым» путём: сначала пробуем самые простые идеи, потом читаем документацию. Цель — научиться думать без ИИ и понять, как устроены нейросети и чипы.
TPU — это ASIC, заточенный под матричные умножения (до 95 % вычислений в трансформерах). В отличие от GPU, он не умеет рисовать кадры, зато делает одно дело быстро и эффективно.
Как работает железо
- Тактовый цикл — базовая единица времени (пико-наносекунды). Всё происходит между «тиками».
- Verilog описывает логику:
Регистры обновляются раз в цикл, а не мгновенно, как в софте.always @(posedge clk) c <= a + b;
Путь к игрушечному TPU
- XOR-MLP 2→2→1 — разобрали вручную: прямой и обратный проходы, градиенты.
- Философия — рисуем всё на бумаге, кодим без ИИ, проверяем «тупые» идеи.
- Результат — работающий «той» TPU, который учится и выводит. Это не клон Google-TPU, а наша версия «как бы мы сделали».
Комментарии (18)
- Проект описывает «игрушечный TPU», реализованный пока только в симуляции на Verilog.
- Участники обсуждают следующий шаг — запуск на FPGA (LiteX, отсутствие опыта пока не мешает).
- Вопросы о конечной цели: потребительские устройства, edge-вычисления или просто proof-of-concept.
- Некоторые советуют перейти с SystemVerilog на Chisel, как Google, но другие считают это избыточным для маленького проекта.
- Общий тон: восхищение работой и любопытство, что именно было «собрано».
Who Invented Backpropagation?
Кто изобрел обратное распространение ошибки (backpropagation)
Современный backpropagation (BP) впервые опубликовал в 1970 г. финский магистрант Сеппо Линнайнмаа [BP1][R7]; 2020 г. отмечали 50-летие метода. Предшественник — работа Келли 1960 г. [BPA].
BP — это обратный режим автоматического дифференцирования: стоимость вычисления градиента примерно равна стоимости прямого прохода. Линнайнмаа дал алгоритм для произвольных разреженных сетей и привёл код на FORTRAN; все современные фреймворки (TensorFlow и др.) опираются на его метод.
В 1960-е уже применяли цепное правило Лейбница для градиентного спуска в многослойных системах (Келли, Брайсон, Дрейфус и др.), но без учёта эффективности для разреженных сетей.
Первое применение BP к обучению весов нейросетей — Дрейфус 1973 г.; первое NN-специфическое описание — Вербос 1982 г. [BP2] (в диссертации 1974 г. его ещё нет).
Уже в 1967 г. Амари с учеником Сайто обучал пятислойный перцептрон SGD, получая внутренние представления; это было глубокое обучение задолго до 1980-х. Параллельно Ивахненко строил глубокие сети GMDH (с 1965 г.).
К 1985 г. вычисления подешевели в 1000 раз; Румелхарт и др. показали, что BP формирует полезные скрытые представления.
Комментарии (86)
- Суть спора: кто «изобрёл» backpropagation — Хинтон/Румелхарт (1980-е) или она была раньше в теории управления и автоматическом дифференцировании (1960-е, Kelley, Amari и др.).
- Большинство участников считают, что это лишь эффективное применение цепного правила, которое переоткрывалось множество раз.
- Юрген Шмидхубер подаётся как главный «скептик», обвиняющий академическое сообщество в игнорировании более ранних работ.
- Некоторые подчеркивают, что решающим стало не само «изобретение», а переход к GPU и масштабируемым фреймворкам в 2010-х.
Комментарии (12)
- Участники спорят, достаточно ли просто добавить «имя» к сетям, чтобы объявить новый парадигму.
- Сомнения в «интерпретируемости»: проблема не в функции активации, а в миллиардах связей.
- Уточняют, применима ли идея к регрессии.
- Критикуют выбор бенчмарка для классификации изображений.
- Шутят, что трёхбуквенная аббревиатура (ATN) продала бы идею втридорога.
- Некоторые признают, что визуальные прототипы всё-таки чуть понятнее, но «интерпретируемость» всё равно преувеличена.
ARM adds neural accelerators to GPUs
- Arm Neural Technology — первое в мире решение, встраивающее нейро-акселераторы в мобильные GPU Arm. С 2026 г. оно сокращает нагрузку на GPU до 50 % и открывает путь к ПК-качеству графики на смартфонах.
- Neural Super Sampling (NSS) — стартовая функция: апскейл 540p → 1080p за 4 мс на кадр.
- Открытый набор разработчика уже доступен: плагин Unreal Engine, эмулятор Vulkan, профайлеры, модели на GitHub и Hugging Face. Поддержка от Epic, Tencent, NetEase и др.
- Расширения Vulkan добавляют «Graph Pipeline» для вывода нейросетей прямо в рендер-процесс.
Комментарии (38)
- Участники обсуждают, как ИИ-апскейлинг (типа DLSS/FSR) позволит инди-студиям делать игры «АА-качества» из минимальной графики, высвобождая ресурсы для гейм-дизайна.
- ARM анонсировала «первую в отрасли» встроенную нейро-ускоряющую часть в GPU, но многие указывают, что NPU в SoC уже есть с 2017 г. (Kirin 970) и новизна, вероятно, в интеграции именно в GPU, а не рядом.
- Поддержка Vulkan-расширений вместо проприетарных API считается плюсом, но вызывает опасения «extension spaghetti».
- Скепсис вызывают сроки (IP анонсирована за два года до чипов) и маркетинговые формулировки «Arm как компания» vs «ARM как архитектура».
- Участники перечисляют три пути ускорения ИИ: GPU compute, tensor-cores, NPU; последние пока используются мало, кроме как для lock-in Microsoft ONNX.
Hand-picked selection of articles on AI fundamentals/concepts
- Основы ИИ: статьи о полном цикле — от построения нейросетей до оценки результатов.
- Алгоритмы/архитектуры: линейная и логистическая регрессия, k-ближайших соседей, кластеризация, SVM, наивный Байес, деревья решений, ансамбли, GAN, диффузия, GNN, внимание, CNN, RL, MoE, SSM, агенты, FlashAttention, ускорение моделей, спекулятивное декодирование, кросс-валидация.
- Данные/обучение: сэмплирование, дисбаланс, нормализация, парадигмы обучения, инициализация Xavier, регуляризация, градиентный спуск, функции активации и потерь, дообучение, разбиение данных, batchnorm, dropout, двойной спуск, LoRA, распределённое обучение.
- Речь: обработка речи.
- Зрение: ViT, рецептивное поле, ResNet, генерация изображений GPT-4o.
- NLP: эмбеддинги, задачи NLP, токенизация, трансформеры, LLM, RAG, RLHF, перевод, графы знаний, обнаружение галлюцинаций, NER, RAG, LLMOps, бенчмарки.
- Мультимодальность: VLM, архитектуры VLM, управление компьютером.
- Модели: BERT, GPT, CLIP, Meena, ChatGPT, GPT-4, LLaMA, Alpaca, Gemini, Toolformer, Visual ChatGPT, TaskMatrix, BigBird, o1, DeepSeek, Gemma 3n.
- Оценка: метрики, F-beta, A/B-тесты.
- MLOps: дрейф данных, инструменты и тесты MLOps.
- On-device ИИ: компрессия, PII, федеративное обучение, дифференциальная приватность, трансформеры на устройстве.
- Управление проектами: OKR, RICE, диаграммы Ганта, управление проектами.
- Разное: «Топ-30 Ильи Сацкевера».
Комментарии (13)
- Участники раскритиковали статью за очевидную машинную генерацию и «сливную» подборку источников.
- Подчёркнули, что контент местами бессмысленный и не отражает реальную картину рынка.
- Некоторые обсудили устойчивость рынка инструментов вроде Cursor и отметили, что спрос на «agentic coding» растёт независимо от судьбы отдельных продуктов.
- Один из участников задал вопрос о переходе из веб-разработки в ML и оценке времени на подготовку.
- В целом настроение: «ещё один AI-сгенерированный спам, но библиография пригодится».
LLMs aren't world models 🔥 Горячее 💬 Длинная дискуссия
LLMs не строят модель мира. Это не значит, что они бесполезны, а лишь то, что они не понимают, как устроена реальность, даже виртуальная.
Шахматы. Два года назад я сыграл с LLM: первые ходы она делала уверенно, но уже на 10-м ходе попыталась походить конём, которого не было на доске, и быстро проиграла. Повторил эксперимент сейчас — к 9-му ходу модель теряет позицию. Проанализировав триллион партий, LLM так и не выучила главное: чтобы ходить, нужно знать, где стоят фигуры. Это не требуется для предсказания текста партии.
Графика. Спросил, как работает «Normal blending» в Krita. Ответ: «цвет верхнего слоя просто отображается, возможно, с учётом прозрачности, без формул и вычислений».
Модель не понимает:
- Цвета в компьютере — это числа.
- Любое «влияние» прозрачности — это математическая операция.
- Если видно нижний слой, значит, итоговый цвет зависит от обоих слоёв.
Можно заставить LLM процитировать формулу альфа-смешивания, но это лишь показывает, что она умеет подобрать слова, а не понимает смысл.
Люди тоже могут путаться, но при достаточной мотивации разберутся. У LLM мотивация была: 200 млрд долларов на оборудование.
Комментарии (184)
- @antirez и другие приводят контрпримеры: даже крошечные трансформеры выучивают внутренние 8×8 «карты» позиций шахмат, а SOTA-модели действительно играют корректные ходы.
- @ordu, @skeledrew и @otabdeveloper4 спорят о «правильности» подхода: одни считают LLM «по-человечески» предиктивными, другие подчеркивают разницу в архитектуре и обучении.
- @ameliaquining выделяет единственное конкретное предсказание поста — «LLM никогда не справятся с большими кодовыми базами автономно» — и даёт ему 80 % на разобьются за два года.
- @libraryofbabel, @joe_the_user и @yosefk обсуждают интерпретабельность: наличие внутренних представлений не означает полноценной «модели мира», а измерения Elo и «автономность» нуждаются в точных определениях.
- @DennisP, @GaggiX, @og_kalu приводят ссылки на Genie-3, свежие arXiv-работы и видео, показывающие, что LLM (и мультимодальные модели) уже умеют играть в шахматы и кодить.
Ask HN: How can ChatGPT serve 700M users when I can't run one GPT-4 locally? 🔥 Горячее 💬 Длинная дискуссия
—
Комментарии (306)
- У OpenAI десятки миллиардов долларов на кластеры GPU (по $20–40 тыс. за карту) и инфраструктуру, чего нет у обычного пользователя.
- Ключевая «фишка» — массовое батчирование запросов: одновременная обработка тысяч пользователей позволяет загружать видеопамять и вычислительные блоки почти на 100 %, тогда как дома GPU простаивает.
- Используются Mixture-of-Experts, спекулятивное декодирование, конвейерная разбивка модели по GPU и прочие оптимизации, снижающие затраты на одного пользователя.
- Большинство пользователей активны лишь доли процента времени, поэтому общая нагрузка оказывается меньше, чем кажется по 700 млн «weekly users».
- Всё это — классический эффект экономии масштаба: высокие фиксированные затраты и почти нулевые переменные на одного юзера делают запуск GPT-4 локально невыгодным.