Antislop: A framework for eliminating repetitive patterns in language models
Исследователи представили Antislop — комплексный фреймворк для обнаружения и устранения повторяющихся шаблонов ("slop") в языковых моделях, которые снижают качество вывода и делают тексты, сгенерированные ИИ, легко узнаваемыми. Фреймворк включает три компонента: Antislop Sampler для подавления нежелательных строк при выводе без потери словарного запаса, автоматизированный конвейер для профилирования специфичных для модели шаблонов и генерации обучающих данных, а также Final Token Preference Optimization (FTPO) — новый метод тонкой настройки, работающий с отдельными токенами. Некоторые шаблоны "slop" встречаются в выводе LLM более чем в 1000 раз чаще, чем в человеческом тексте, при этом Antislop Sampler успешно подавляет 8000+ паттернов, сохраняя качество, тогда как запрет токенов становится бесполезным уже при 2000 шаблонах. FTPO достигает 90% сокращения "slop" при сохранении или улучшении производительности в кросс-доменных оценках, включая GSM8K, MMLU и творческие задания, в отличие от DPO, который страдает от значительного снижения качества письма и лексического разнообразия.
Комментарии (99)
- Обсуждение в основном вращается вокруг двух тем: «slop» как явление и как термин, а также то, как различные модели и их параметры влияют на качество вывода.
- Участники обсуждают, что именно считается «slop» — это только повторяющиеся фразы или более широкий термин для низкокачественного контента.
- Обсуждается, какие именно паттерны могут быть обнаружены и устранены на уровне логитов или обучения.
- Также поднимается вопрос, что именно делает контент «slop»-ом — это только ли самоповторы, или это более фундаментальные проблемы с семантикой и креативностью.
- Наконец, обсуждается, как влияет на восприятие и обсуждение AI-контента сама мета-дискуссия о «slop» в целом.
The wall confronting large language models
Основная идея
Авторы утверждают, что современные LLM уже близки к «стене» роста качества: дальнейшее увеличение моделей и данных даёт лишь логарифмический прирост, а затраты растут экспоненциально.
Причины стены
- Исчерпаемость данных: высококачественный текст в интернете ограничен; синтетические данные быстро насыщают.
- Сложность задач: после решения «лёгких» 90 % остаются «трудные» 10 %, где ошибки почти не коррелируют с размером модели.
- Экономика: чтобы снизить ошибку в 2 раза, нужно в 10–100× больше ресурсов.
Эксперименты
На MMLU, GSM8K, HumanEval и BIG-Bench наблюдается выравнивание кривых качества даже при масштабировании на порядки.
Что делать
- Переход к специализированным моделям и инструментам (код-интерпретаторы, поиск).
- Агентские схемы, где LLM вызывает API и внешние системы.
- Новые архитектуры (MoE, RAG, RL) и синтетические данные нового типа (симуляции, мультимодальные сцены).
Вывод
Чистое масштабирование скоро исчерпается; прорыв потребует перехода от «больших» к «умным» системам.
Комментарии (145)
- Обсуждение крутится вокруг того, можно ли свести понимание и логическое рассуждение к вероятностным моделям вроде LLM.
- Часть участников считает, что формальное равенство с цепями Маркова или LLM ничего не даёт и упускает ключевые вещи — например, backtracking и символьное мышление.
- Другие отвечают, что трансформеры с chain-of-thought уже теоретически могут решать всё в классе P, а агенты с внешними инструментами уже делают backtracking на практике.
- Критика статьи: авторы-физики пишут запутанно, примеров нет, фокус на ядерных реакторах и численных методах выглядит неуместным.
- Сторонники «горького урока» указывают, что дальнейшее увеличение моделей и данных даст больше, чем попытки встроить строгую символику.