Hacker News Digest

07 августа 2025 г. в 21:11 • research.google • ⭐ 136 • 💬 25

OriginalHN

#active-learning#machine-learning#llm#clustering#data-labeling#google#embeddings#pca

Achieving 10,000x training data reduction with high-fidelity labels

Сжатая суть статьи

Идентификация нарушающей политику рекламы требует глубокого контекста и культурной чувствительности — сильные стороны LLM. Однако дообучение требует дорогих, качественных разметок, а политика и типы нарушений постоянно меняются. Мы предложили масштабируемый процесс активного обучения, который сводит объём данных с 100 000 до менее 500 примеров и повышает согласованность с экспертами до 65 %. В продакшене крупные модели используют в 10 000 раз меньше данных без потери качества.

Процесс курирования

  1. Нулевой LLM размечает весь трафик (1).
  2. Кластеризуем «нарушения» и «безопасные» примеры; пересечения кластеров указывают на неуверенность модели (2).
  3. Внутри пересечений выбираем пары близких, но по-разному размеченных примеров (3).
  4. Эксперты размечают приоритетные пары (4).
  5. Полученные метки делятся: часть — для дообучения, часть — для оценки по двум метрикам: внутренняя согласованность экспертов и согласованность «модель ↔ человек». Итерации повторяются до плато.

Метрика
Используем Cohen’s Kappa: 0 — случайное совпадение, >0,8 — отлично. Не требует «золотого стандарта».

Эксперименты
Сравнили Gemini Nano-1 (1,8 B) и Nano-2 (3,25 B) на двух задачах разной сложности. Базовые модели дообучались на ~100 k разметок краудсорсом. Курированные модели — на ~400 примерах за 6 итераций. Все модели вышли на плато, не догнав внутреннее согласие экспертов.