Tau² benchmark: How a prompt rewrite boosted GPT-5-mini by 22%
Как переписывание промта повысило эффективность GPT-5-mini на 22%
Мы представляем результаты тестирования модели GPT-5-mini в рамках бенчмарка Tau², предназначенного для оценки языковых моделей. Оказалось, что простое переписывание промта повысило успешность небольшой модели более чем на 20%.
Тестирование LLM с Tau²
На летнем обновлении OpenAI заявили, что GPT-5 значительно улучшила агентские задачи. Для проверки использовали бенчмарк Tau², симулирующий реальные взаимодействия в телекоме, ритейле и авиалиниях. Однако улучшения GPT-5 были заметны только в телекоме, поэтому мы сосредоточились на этой области.
GPT-5-mini предлагает преимущества: вдвое меньше задержка, выше пропускная способность и в пять раз дешевле при 85–95% производительности полной GPT-5. Мы провели эксперимент, чтобы оценить, насколько хорошо GPT-5-mini справляется с бенчмарком и можно ли улучшить её результаты, изменяя политики агентов или описания задач.
Базовые результаты: 45% провалов
Мы запустили подмножество из 20 тестовых сценариев телекома. Результаты показали успешность всего 55%. GPT-5-mini с её ограниченными возможностями reasoning не приблизилась к флагманской GPT-5.
Бенчмарк также ввёл метрику pass^k, измеряющую надёжность агента при k попытках выполнения задачи, и выделил задачи, с которыми агент не справляется совсем.
Решение: переписывание промтов с помощью Claude
Мы поставили три цели: повысить общую успешность, "разблокировать" больше задач и улучшить надёжность агента. Используя генеративный ИИ, мы поручили Claude проанализировать политики агентов в телекоме и переписать их для упрощения понимания моделью GPT-5-mini.
Ключевые улучшения включали:
- Чёткие деревья решений и последовательные шаги
- Ясные условия и обработку ошибок
- Снижение когнитивной нагрузки через таблицы и шаблоны
- Действенные команды вместо описаний
После переписывания промтов успешность GPT-5-mini выросла до 77%, что на 22% выше исходного показателя. Это демонстрирует, что тонкая настройка промтов может значительно повысить эффективность небольших моделей без изменения их архитектуры.
Комментарии (57)
- Оптимизация структуры промптов (деревья решений, нумерованные шаги, проверки зависимостей) значительно улучшает работу ИИ-агентов.
- Использование Claude для перезаписи промпта повысило эффективность GPT-5-mini в телеком-бенчмарке, но методология вызывает вопросы о возможной утечке данных.
- Подход перезаписи промптов затратен по времени и ресурсам, не универсален для разных доменов и может нивелировать преимущества небольших моделей.
- Сообщество выражает скептицизм относительно долгосрочной стабильности и воспроизводимости результатов, полученных с помощью подобных техник.
- Многие отмечают, что описанные практики уже представлены в более продвинутых фреймворках, таких как DSPy.
- Обсуждается этический аспект: оптимизация промпта под конкретный бенчмарк может искажать оценку истинных агентских способностей модели.
- Отсутствие исходных промптов и деталей перезаписи затрудняет независимую верификацию и воспроизведение результатов.
What makes Claude Code so damn good 🔥 Горячее 💬 Длинная дискуссия
TL;DR
Claude Code (CC) радует, потому что максимально прост: один цикл, один контекст, минимум абстракций. Повторить магию можно, если:
- Один цикл – без мульти-агентов, максимум один «дочерний» процесс.
- Маленькая модель – для всего, кроме основной задачи.
- claude.md – живой файл, где агент и пользователь договариваются о стиле и контексте.
- Теги и примеры – XML, Markdown, куча примеров в промптах.
- Инструменты
- Поиск через сам LLM, а не RAG.
- Высокоуровневые «умные» инструменты (edit, read, todo) вместо низкоуровневых команд.
- Агент сам ведёт todo-список и отмечает выполненное.
- Управление стилем – явные просьбы «ЭТО ВАЖНО» и алгоритмы с эвристиками прямо в промпте.
1. Цикл
- Одна история сообщений – легко дебажить.
- Подпроцессы – CC может вызвать себя же, но глубина = 1.
- Маленькая модель – подсчёт токенов, сводка diff, украшения UI – всё ей.
2. Промпты
- claude.md лежит в корне репо; агент читает и пишет туда же, чтобы «запоминать» договорённости.
- XML-теги (
<thinking>,<result>) + Markdown + примеры кода – структурируют вывод и уменьшают бред.
3. Инструменты
- LLM-поиск – просим модель выдать до 20 релевантных файлов; быстрее и точнее эмбеддингов.
- Высокий уровень
str_replace_editor– редактирует блоки кода, а не строки.todo– агент сам пишет / вычёркивает задачи; видно прогресс.
- Никаких низкоуровневых
sed,grepи прочего UNIX-морока.
4. Управление
- Тон – «вежливый, лаконичный, не болтает лишнего».
- Капс и «ВАЖНО» – прямо в промпте, работает.
- Алгоритм – пишем в промпте: «если X → сделай Y, иначе спроси», + примеры.
Заключение
CC выигрывает за счёт самоограничений: один файл кода, один цикл, простые инструменты. Не усложняйте – дайте модели хороший каркас и позвольте «готовить».
Комментарии (275)
- Критика: пост назван «Что делает Claude Code таким хорошим», но не сравнивает его с другими инструментами, а просто пересказывает документацию.
- Пользователи делятся опытом: кто-то на CC уже построил MVP с платящими клиентами, кто-то сталкивается с регрессиями и «ленью» агента.
- Безопасность: многие боятся давать CLI-инструменту полный доступ к системе, ключам и репозиториям.
- Альтернативы: советуют OpenHands CLI, aider и другие open-source решения; обсуждают, как подключить собственные LLM.
- Тезис «Claude хорош, потому что модель умеет разбивать задачи на шаги и работает в unix-окружении» повторяется как ключевой.
Sprinkling self-doubt on ChatGPT
Я заменил настройки ChatGPT таким промптом:
- Сомневайся в своей правоте. Не циник, а критически мыслящий, живущий страхом ошибиться.
- Расширяй поле поиска: ищи нестандартные риски и решения.
- Перед «готово» — «красная команда»: перепроверь, действительно ли всё работает.
Результат заметен сразу:
- каждый ответ начинается с осторожности и самосомнения;
- «мыслит» до 4 минут даже над салатом;
- в конце — самокритика, которая нередко ловит ошибку и выдаёт правильный ответ.
Полезность выросла: меньше моих «а вдруг?», больше пользы и списанных GPU-часов.
Комментарии (66)
- Пользователи жалуются: «будь критичен и сомневайся» превращает агента в тревожного перфекциониста, который жрёт токены на бесконечные tool-calls и правки.
- Многие заметили, что такие промпты заставляют модель придираться к очевидным вещам, выдавая скучные и малополезные «но…», вместо настоящих инсайтов.
- Попытки «просто быть правильным» часто приводят к длинным размышлениям, которые OpenAI, судя по всему, уже учитывает в лимитах.
- Часть людей перешла на двухэтапную схему: сначала быстрый ответ, потом отдельный «double-check»-запрос или другая модель, чтобы не заставлять первую впадать в «тревогу» на каждом шаге.
- Побочный эффект — модели начинают повторять саму инструкцию («без воды!») вместо того, чтобы просто её выполнять.