Hacker News Digest

16 октября 2025 г. в 16:54 • ricklamers.io • ⭐ 400 • 💬 253

OriginalHN

#gemini#llm#ab-testing#svg#google

Gemini 3.0 spotted in the wild through A/B testing

Gemini 3.0, новейшая модель от Google, стала доступна через A/B тестирование в AI Studio. Пользователи могут сравнивать её производительность с Gemini 2.5 Pro. В качестве теста использовалась генерация SVG-изображений — например, геймпада Xbox. Это неплохой прокси-тест на качество модели, так как подобные задачи требуют точного следования инструкциям, строгого соблюдения структуры SVG и понимания концептуальных элементов.

Генерируемое изображение контроллера Xbox от Gemini 3.0 оказалось значительно качественнее, чем у конкурента. Хотя время до первого токена (TTFT) у Gemini 3.0 было на 24 секунды больше, а вывод — на 40% длиннее (включая дополнительные рассуждения в токенах), результат явно демонстрирует превосходство новой модели.

Этот случай демонстрирует, что даже в режиме A/B-тестирования, без прямого доступа, сообщество может эффективно оценивать и сравнивать новые модели. Для команд, занимающихся разработкой ИИ, это отличный пример того, как можно проводить быстрые итеративные тесты на реальных задачах.

Источник: Rick Lamers' blog