Agentic pelican on a bicycle

Роберт Глейзер провел эксперимент, используя агентный цикл «генерация-оценка-улучшение» для создания SVG-изображения пеликана на велосипеде. Модели получали доступ к Chrome DevTools для конвертации SVG в JPG и использовали зрение для самокоррекции. Тестируемые Claude Opus, Sonnet, Haiku, GPT-5 Medium, GPT-5-Codex и Gemini 2.5 Pro делали 4-6 итераций, самостоятельно решая, когда остановиться. Эксперимент основан на бенчмарке Симона Уилльсона, который используют даже лаборатории в маркетинге новых моделей.

Claude Opus добавил цепь и спицы, улучшив механическую достоверность; Sonnet делал тонкие доработки кривых и теней; Haiku за 6 итераций настойчиво исправлял пропорции. GPT-5 Medium и Codex показывали постепенное улучшение, а Gemini 2.5 Pro демонстрировал стабильные результаты. Ключевое открытие: модели способны к самооценке и самокоррекции без детальных указаний, сохраняя дух оригинального абсурдного запроса. Использование единого рендерера обеспечило объективность сравнения.

Комментарии (55)

Обсуждение показало, что модели, которые лучше всего справляются с задачей, — это те, которые могут эффективно итеративно улучшать изображение, а не просто добавлять детали.
Участники обсуждения отметили, что большинство моделей не способны к качественной ревизии собственных работ, и это может быть связано с тем, что они не могут оценивать собственные результаты.
Было высказано предположение, что в будущем может быть введена система, в которой одна модель генерирует изображение, а другая оценивает его и предлагает улучшения.