Тег: #gsm8k — Hacker News Digest

Antislop: A framework for eliminating repetitive patterns in language models (arxiv.org)

Исследователи представили Antislop — комплексный фреймворк для обнаружения и устранения повторяющихся шаблонов ("slop") в языковых моделях, которые снижают качество вывода и делают тексты, сгенерированные ИИ, легко узнаваемыми. Фреймворк включает три компонента: Antislop Sampler для подавления нежелательных строк при выводе без потери словарного запаса, автоматизированный конвейер для профилирования специфичных для модели шаблонов и генерации обучающих данных, а также Final Token Preference Optimization (FTPO) — новый метод тонкой настройки, работающий с отдельными токенами. Некоторые шаблоны "slop" встречаются в выводе LLM более чем в 1000 раз чаще, чем в человеческом тексте, при этом Antislop Sampler успешно подавляет 8000+ паттернов, сохраняя качество, тогда как запрет токенов становится бесполезным уже при 2000 шаблонах. FTPO достигает 90% сокращения "slop" при сохранении или улучшении производительности в кросс-доменных оценках, включая GSM8K, MMLU и творческие задания, в отличие от DPO, который страдает от значительного снижения качества письма и лексического разнообразия.

by Der_Einzige • 23 октября 2025 г. в 16:36 • 106 points

Оригинал • HN

#language-models #llm #slop #antislop #machine-learning #natural-language-processing #gsm8k #mmlu #arxiv

Комментарии (99)

Обсуждение в основном вращается вокруг двух тем: «slop» как явление и как термин, а также то, как различные модели и их параметры влияют на качество вывода.
Участники обсуждают, что именно считается «slop» — это только повторяющиеся фразы или более широкий термин для низкокачественного контента.
Обсуждается, какие именно паттерны могут быть обнаружены и устранены на уровне логитов или обучения.
Также поднимается вопрос, что именно делает контент «slop»-ом — это только ли самоповторы, или это более фундаментальные проблемы с семантикой и креативностью.
Наконец, обсуждается, как влияет на восприятие и обсуждение AI-контента сама мета-дискуссия о «slop» в целом.

R-Zero: Self-Evolving Reasoning LLM from Zero Data (arxiv.org)

R-Zero — это метод, который учит языковую модель рассуждать, не используя ни одного человеческого примера.
Ключевая идея: модель сама генерирует задачи, решает их, проверяет ответы и оставляет только правильные цепочки мыслей. Эти «чистые» примеры сразу же идут в дообучение. Процесс повторяется циклически: чем лучше становится модель, тем сложнее и качественнее задачи она себе придумывает.

Алгоритм за один цикл:

Сэмплируем случайный топик и просим модель придумать задачу.
Просим сгенерировать решение в виде цепочки рассуждений.
Даём модели тот же вопрос, но теперь требуем краткий финальный ответ.
Сравниваем два ответа; если совпали — цепочка считается верной и сохраняется.
На собранных «правильных» примерах делаем шаг SFT.

Чтобы не «схлопнуться» на простых темах, в генерацию добавляют случайный уровень сложности и случайный предмет. Для проверки используются как точные (арифметика, логика), так и приближённые критерии (самосогласованность, повторное голосование).

Эксперименты на базе Llama-3-8B показали:

Всего 10 циклов × 20k примеров → +20% на GSM8K и +15% на MATH без единого человеческого примера.
R-Zero догоняет модель, обученную на 750k размеченных цепочках от человека.
При добавлении 5k человеческих примеров результат превышает лучшие supervised-базлайны.

Вывод: модель может «вырасти» из нуля, постоянно улучшая себя собственными правильными рассуждениями.

by lawrenceyan • 10 сентября 2025 г. в 02:02 • 98 points

Оригинал • HN

#machine-learning #llm #self-supervised-learning #natural-language-processing #llama-3-8b #gsm8k #math #deepseek #arxiv #r

Комментарии (51)

Участники спорят, возможно ли «обучение с нуля» без внешних данных: кто-то видит в этом GAN-подобный процесс, кто-то называет «информационным вечным двигателем».
Главный вопрос — что служит «дискриминатором» реальности: если только внутренние игры Challenger/Solver, риск усиления галлюцинаций высок.
Название «R-Zero» вызвало недовольство: у DeepSeek уже была модель R-Zero, и путаница неуместна.
Скептики сравнивают идею с perpetuum mobile и шутят о «бесплатной энергии» через +0,25 % в год.
Практическая польза — экономия на дообучении: сжатие большой модели в меньшую без новых данных, но в рамках уже освоенного распределения.

The wall confronting large language models (arxiv.org)

Основная идея
Авторы утверждают, что современные LLM уже близки к «стене» роста качества: дальнейшее увеличение моделей и данных даёт лишь логарифмический прирост, а затраты растут экспоненциально.

Причины стены

Исчерпаемость данных: высококачественный текст в интернете ограничен; синтетические данные быстро насыщают.
Сложность задач: после решения «лёгких» 90 % остаются «трудные» 10 %, где ошибки почти не коррелируют с размером модели.
Экономика: чтобы снизить ошибку в 2 раза, нужно в 10–100× больше ресурсов.

Эксперименты
На MMLU, GSM8K, HumanEval и BIG-Bench наблюдается выравнивание кривых качества даже при масштабировании на порядки.

Что делать

Переход к специализированным моделям и инструментам (код-интерпретаторы, поиск).
Агентские схемы, где LLM вызывает API и внешние системы.
Новые архитектуры (MoE, RAG, RL) и синтетические данные нового типа (симуляции, мультимодальные сцены).

Вывод
Чистое масштабирование скоро исчерпается; прорыв потребует перехода от «больших» к «умным» системам.

by PaulHoule • 03 сентября 2025 г. в 11:40 • 133 points

Оригинал • HN

#large-language-models #machine-learning #deep-learning #transformers #rag #rl #mmlu #gsm8k #humaneval #big-bench

Комментарии (145)

Обсуждение крутится вокруг того, можно ли свести понимание и логическое рассуждение к вероятностным моделям вроде LLM.
Часть участников считает, что формальное равенство с цепями Маркова или LLM ничего не даёт и упускает ключевые вещи — например, backtracking и символьное мышление.
Другие отвечают, что трансформеры с chain-of-thought уже теоретически могут решать всё в классе P, а агенты с внешними инструментами уже делают backtracking на практике.
Критика статьи: авторы-физики пишут запутанно, примеров нет, фокус на ядерных реакторах и численных методах выглядит неуместным.
Сторонники «горького урока» указывают, что дальнейшее увеличение моделей и данных даст больше, чем попытки встроить строгую символику.