Тег: #markov-chains — Hacker News Digest

Ask HN: How are Markov chains so different from tiny LLMs?

—

by JPLeRouzic • 17 ноября 2025 г. в 20:36 • 166 points

#markov-chains #llm #attention-mechanism #embeddings #machine-learning

Комментарии (128)

Обсуждение показало, что цепи Маркова и современные LLM имеют общую структуру автопрегрессии, но различаются в способе представления контекста и в способе обучения.
LLM используют внимание и эмбеддинги, чтобы моделировать длинные зависимости, тогда как цепи Маркова ограничены коротким контекстом.
Обсуждение также подчеркнуло, что LLM могут быть рассмотрены как очень высокого порядка цепи Маркова, но с очень большим контекстом.
Участники также обсудили, что обучение на большом и разнообразном корпусе критично для LLM, в то время как цепи Маркова могут быть обучены на маленьком и специфическом наборе данных.

Feed the bots (maurycyz.com) 🔥 Горячее 💬 Длинная дискуссия

Автор столкнулся с проблемой агрессивных ботов, собирающих данные для обучения LLM, которые составили 99% трафика на его сервере. В отличие от поисковых роботов, эти боты игнорируют robots.txt, постоянно меняют IP-адреса и отправляют множество запросов в секунду. Попытки блокировать их через IP-списки, ограничения по скорости или защитные стены (CAPTCHA, paywall) оказались неэффективными, так как боты просто находили обходные пути, а защитные меры мешали обычным пользователям.

Самым эффективным решением оказалось создание динамического генератора бессмысленного контента — "Markov babbler", который потребляет всего около 60 микросекунд процессорного времени на запрос и использует 1.2 МБ памяти. Этот подход не требует поддержки черных списков и позволяет эффективно "кормить" ботов, не тратя ресурсы на передачу реальных данных. Автор подчеркивает, что его контент лицензирован CC BY-NC-SA 4.0, но явно не разрешен для использования в обучении ML/LLM.

by chmaynard • 26 октября 2025 г. в 12:09 • 261 points

Оригинал • HN

#markov-chains #llm #scraping #web-security #robots.txt #captcha #machine-learning #web-servers

Комментарии (180)

Основной метод борьбы с AI-скраперами — генерация бессмысленного контента через Markov-цепи или gzip-бомбы, чтобы увеличить затраты скраперов на обработку данных.
Этические риски: загрязнение обучающих данных LLM может привести к непредсказуемым последствиям и нарушению доверия к системам ИИ.
Технические альтернативы: использование Basic Auth с публичными учётными данными или редирект на специализированные сервисы вроде "Markov Babbler".
Проблема масштабирования: массовое применение методов защиты может привести к блокировке легитимного трафика и снижению репутации сайта.
Эффективность сомнительна: современные LLM могут детектировать мусорный контент, а скраперы легко обходят простые защиты (например, через браузерные прокси).

Markov chains are the original language models (elijahpotter.dev) 🔥 Горячее 💬 Длинная дискуссия

Цепочки Маркова — это классические вероятностные модели, предшественники современных языковых ИИ. Они описывают последовательности событий, где каждое следующее состояние зависит только от текущего, без учёта всей истории. Например, перемещения Алисы между магазином и планетарием с заданными вероятностями перехода можно представить в виде матрицы и вектора состояния, а прогноз на несколько шагов вперёд вычисляется через умножение матриц.

В контексте генерации текста цепочки Маркова применяются для предсказания следующего слова на основе предыдущих. Автор, разочаровавшись в сложности и «магии» современных языковых моделей, обратился к этой прозрачной и фундаментальной технике, реализовав автодополнение на Rust и WebAssembly. Это подчёркивает ценность понимания базовых принципов вместо слепого использования сложных систем.

by chilipepperhott • 19 сентября 2025 г. в 18:42 • 426 points

Оригинал • HN

#markov-chains #language-models #rust #webassembly #text-generation #probability #matrices

Комментарии (154)

Обсуждаются ограничения и природа марковских цепей: их линейность, неспособность учитывать контекст за пределами текущего состояния и проблемы с обработкой двумерных данных.
Упоминаются исторические и юмористические примеры использования марковских цепей для генерации текста: Mark V. Shaney, KingJamesProgramming, спам-сайты и чат-боты в IRC/Slack.
Проводятся паралле