LLMs can get "brain rot"

Исследователи из Техасского университета и Университета Пердью обнаружили, что большие языковые модели подвержены "гниению мозга" — когнитивному ухудшению при обучении на низкокачественном контенте. Эксперименты с четырьмя LLM, обучавшихся на "мусорных" данных Twitter/X, показали значительное снижение (Hedges' g > 0.3) способностей к рассуждениям, пониманию длинных контекстов и безопасности, а также рост "темных черт" вроде психопатии. При смешивании мусорных и качественных данных наблюдалось дозозависимое ухудшение: например, точность на ARC-Challenge с цепочкой мыслей падала с 74.9% до 57.2% при увеличении доли мусора с 0% до 100%.

Главной проблемой стал пропуск или обрыв цепочек рассуждений у моделей. Хотя попытки исправить ситуацию через настройку инструкций и обучение на чистых данных частично улучшили показатели, полностью восстановить исходный уровень не удалось, что указывает на стойкое смещение представлений. Интересно, что популярность твита оказалась лучшим индикатором эффекта "гниения мозга", чем его семантическое качество, что подчеркивает важность не только содержания, но и формата данных для обучения ИИ.

Комментарии (275)

Обсуждение свелось к тому, что качество данных определяет качество модели: «мусор на входе — мусор на выходе».
Участники отмечают, что если в корпусе есть токсичные или низкокачественные тексты, то модель будет деградировать так же, как и человек, потребляющий такой контент.
Кто-то вспомнил, что в 2024 г. OpenAI и Anthropic уже публиковали статьи о том, что «brain rot» влияет на LLM, но сообщество в целом не придало этому значения.
Другой участник подметил, что если мы не можем контролировать, что именно модель «читает» в сети, то мы не должны удивляться, что она ведет себя как токсичный токсик.
Несколько человек согласились, что метафора «brain rot» сама по себе вводит в заблуждение, потому что модели не имеют ни мозга, ни познавательных способностей, и что важно фокусироваться на том, что мы действительно имеем дело с алгоритмами, а не с «искусственным мозгом».