Evaluating LLMs playing text adventures
Оценка LLM в текстовых квестах
Сначала мы просто мерили, сколько ходов нужно, чтобы дойти до далёкой цели. Теперь придумали лучше: ставим лимит в 40 ходов и считаем выполненные достижения. Их описываем парой «ключ → фрагмент текста игры». Например, для 9:05:
EXIT_BED → You get out of bed
OPEN_DRESSER → revealing some clean
…и так далее. Модель о достижениях не знает; мы просто подсчитываем совпадения. Очки сравниваем между собой, а не считаем абсолютной оценкой.
Результаты (4 игры, 40 ходов)
Модель | 9:05 | Lockout | Dreamhold | Lost Pig |
---|---|---|---|---|
Grok 4 | 86 % | 15 % | 46 % | 33 % |
Claude 4 Sonnet | 80 % | 30 % | 53 % | 46 % |
Gemini 2.5 Flash | 80 % | 30 % | 33 % | 46 % |
Gemini 2.5 Pro | 80 % | 30 % | 40 % | 40 % |
DeepSeek R1 | 80 % | 23 % | 33 % | 33 % |
Claude 4 Opus | 73 % | 30 % | 60 % | 46 % |
gpt-5 Chat | 73 % | 15 % | 53 % | 33 % |
DeepSeek V3 | 66 % | 23 % | 20 % | 33 % |
gpt-4o | 53 % | 23 % | 40 % | 40 % |
Qwen3 Coder | 53 % | 23 % | 40 % | 33 % |
Kimi K2 | 53 % | 30 % | 46 % | 40 % |
glm 4.5 | 53 % | 23 % | 33 % | 53 % |
Claude 3.5 Haiku | 38 % | 15 % | 26 % | 26 % |
Llama 3 Maverick | 33 % | 30 % | 40 % | 33 % |
gpt-o3-mini | 20 % | 15 % | 26 % | 26 % |
Mistral Small 3 | 20 % | 15 % | 0 % | 20 % |
gpt-4o-mini | 13 % | 23 % | 20 % | 40 % |
Повторные прогоны не делали — дорого.
Комментарии (63)
- Исследование показало, что современные LLM-провайдеры плохо справляются даже с классическими текстовыми квестами, несмотря на доступные онлайн-гайды.
- Участники подчеркивают: ChatGPT-5 — это не одна модель, а роутер, случайно выбирающий модель, что снижает надёжность результатов.
- Критика методики: неясно, просили ли LLM именно проходить игру, а не просто исследовать, и нет сравнения с людьми.
- Большинство считает, что LLM не обладают «моделью мира» и не понимают строгих правил, поэтому не могут системно решать головоломки.
- Некоторые предлагают улучшить подход: давать модели прямой доступ к интерпретатору игры или использовать более точные промпты.