Claude vs. Gemini: Testing on 1M Tokens of Context

Claude Sonnet 4 теперь держит 1 млн токенов (~все книги о Гарри Поттере) за один запрос.
Получили ранний доступ и проверили:

Текст: спрятали две сцены из фильмов в 900 тыс. слов Шерлока Холмса.
- Все модели нашли, но Claude был в 2 раза быстрее (42 с vs 69–78 с у Gemini).
- Меньше галлюцинаций, но анализ менее подробный.
Код: загрузили весь код CMS Every + «подушку» до 1 млн токенов.
- Claude справился, но ответы короче и менее полные, чем у Gemini.
AI Diplomacy: играли в «Дипломатию» — мировое господство пока не одержал.

Вывод: быстрый и стабильный длинный контекст, но менее детальный, чем конкуренты.

Пользователи обсуждают, что Google AI Studio предоставляет бесплатный доступ к Gemini 2.5 Pro/Flash с контекстом 1M токенов, но фри-тариф быстро исчерпывается.
Сравнивают скорость Sonnet 4 и Gemini 2.5 Flash: при одинаковых TPUs Sonnet оказался быстрее на длинных контекстах.
Отмечают, что Gemini путается в длинной истории чата и «смешивает» факты, чего не наблюдают у OpenAI/Anthropic.
Предлагают проводить соревнования LLM по сжатию данных: сделать краткие заметки и отвечать по ним на вопросы.
Уточняют, что весь цикл «Гарри Поттера» (~1 млн слов ≈ 1,4 млн токенов) не помещается в 1M контекст.