Hacker News Digest

11 ноября 2025 г. в 19:40 • robert-glaser.de • ⭐ 85 • 💬 55

OriginalHN

#llm#machine-learning#svg#jpg#generative-ai#iterative-improvement#self-evaluation

Agentic pelican on a bicycle

Роберт Глейзер провел эксперимент, используя агентный цикл «генерация-оценка-улучшение» для создания SVG-изображения пеликана на велосипеде. Модели получали доступ к Chrome DevTools для конвертации SVG в JPG и использовали зрение для самокоррекции. Тестируемые Claude Opus, Sonnet, Haiku, GPT-5 Medium, GPT-5-Codex и Gemini 2.5 Pro делали 4-6 итераций, самостоятельно решая, когда остановиться. Эксперимент основан на бенчмарке Симона Уилльсона, который используют даже лаборатории в маркетинге новых моделей.

Claude Opus добавил цепь и спицы, улучшив механическую достоверность; Sonnet делал тонкие доработки кривых и теней; Haiku за 6 итераций настойчиво исправлял пропорции. GPT-5 Medium и Codex показывали постепенное улучшение, а Gemini 2.5 Pro демонстрировал стабильные результаты. Ключевое открытие: модели способны к самооценке и самокоррекции без детальных указаний, сохраняя дух оригинального абсурдного запроса. Использование единого рендерера обеспечило объективность сравнения.