Achieving 10,000x training data reduction with high-fidelity labels
Сжатая суть статьи
Идентификация нарушающей политику рекламы требует глубокого контекста и культурной чувствительности — сильные стороны LLM. Однако дообучение требует дорогих, качественных разметок, а политика и типы нарушений постоянно меняются. Мы предложили масштабируемый процесс активного обучения, который сводит объём данных с 100 000 до менее 500 примеров и повышает согласованность с экспертами до 65 %. В продакшене крупные модели используют в 10 000 раз меньше данных без потери качества.
Процесс курирования
- Нулевой LLM размечает весь трафик (1).
- Кластеризуем «нарушения» и «безопасные» примеры; пересечения кластеров указывают на неуверенность модели (2).
- Внутри пересечений выбираем пары близких, но по-разному размеченных примеров (3).
- Эксперты размечают приоритетные пары (4).
- Полученные метки делятся: часть — для дообучения, часть — для оценки по двум метрикам: внутренняя согласованность экспертов и согласованность «модель ↔ человек». Итерации повторяются до плато.
Метрика
Используем Cohen’s Kappa: 0 — случайное совпадение, >0,8 — отлично. Не требует «золотого стандарта».
Эксперименты
Сравнили Gemini Nano-1 (1,8 B) и Nano-2 (3,25 B) на двух задачах разной сложности. Базовые модели дообучались на ~100 k разметок краудсорсом. Курированные модели — на ~400 примерах за 6 итераций. Все модели вышли на плато, не догнав внутреннее согласие экспертов.
Комментарии (25)
- Участники сомневаются в заявлении, что «<1 % рекламы — кликбейт», приводя анекдоты о массе скамов и повторяющихся мошеннических объявлениях.
- Поднимается тема Active Learning: один доклад показывает, что после нормализации условий случайный выбор примеров для разметки может быть эффективнее «умных» стратегий.
- Критика метода кластеризации: неясно, как получаются пересекающиеся кластеры, если множества «кликбейт/не кликбейт» не пересекаются.
- Спрашивают, какая именно модель даёт эмбеддинги: LLM или специализированная модель с контрастным обучением; тип кластеризации и роль PCA тоже не описаны.
- Некоторые считают, что гиперсферы и SVM в диаграмме могут быть намеренным «затуманиванием» ключевых деталей выбора примеров для разметки.