GPT-5 vs. Sonnet: Complex Agentic Coding

Задача: перенести TypeScript-утилиту Ruler на Rust, проверить идентичность через bash-тест.
Модели: GPT-5 (новый, превью) и Claude 4 Sonnet.

Сразу прочитал код, составил подробный plan.md, получил одобрение.
Работал почти без остановок, дважды отчитывался о статусе.
Сначала написал bash-скрипт, который запускает оригинал и порт во временной папке и сравнивает вывод.
Затем сгенерировал структуру src/, Cargo.toml, CLI-аргументы, логику apply/init/revert, обработку конфигов и MCP.
Итеративно правил код, пока тест не прошёл «зелёным».
Время: ~20 мин, 1 коммит, ветка feat/rust-port.

Пользователи сомневаются в объективности сравнений: результаты сильно зависят от системных промптов, харнесов и задач.
Критика выбора моделей: вместо топ-версии Claude Opus сравнивали более дешёвый Sonnet, что искажает оценку «лучшей» модели.
Стоимость vs качество: большинство разработчиков не готовы платить 10× за Opus, поэтому GPT-5 рассматривают как «cost-effective» вариант.
Опыт в продакшене: многие находят Claude Code (Sonnet/Opus) надёжнее при работе с большими кодовыми базами и TDD, тогда как GPT-5 хорош для разовых скриптов.
Нет единой метрики: из-за недетерминированности моделей и субъективных критериев «хорошего кода» каждый получает разные результаты.