Evaluating LLMs playing text adventures

Оценка LLM в текстовых квестах

Сначала мы просто мерили, сколько ходов нужно, чтобы дойти до далёкой цели. Теперь придумали лучше: ставим лимит в 40 ходов и считаем выполненные достижения. Их описываем парой «ключ → фрагмент текста игры». Например, для 9:05:

EXIT_BED → You get out of bed
OPEN_DRESSER → revealing some clean
…и так далее. Модель о достижениях не знает; мы просто подсчитываем совпадения. Очки сравниваем между собой, а не считаем абсолютной оценкой.

Результаты (4 игры, 40 ходов)

Модель	9:05	Lockout	Dreamhold	Lost Pig
Grok 4	86 %	15 %	46 %	33 %
Claude 4 Sonnet	80 %	30 %	53 %	46 %
Gemini 2.5 Flash	80 %	30 %	33 %	46 %
Gemini 2.5 Pro	80 %	30 %	40 %	40 %
DeepSeek R1	80 %	23 %	33 %	33 %
Claude 4 Opus	73 %	30 %	60 %	46 %
gpt-5 Chat	73 %	15 %	53 %	33 %
DeepSeek V3	66 %	23 %	20 %	33 %
gpt-4o	53 %	23 %	40 %	40 %
Qwen3 Coder	53 %	23 %	40 %	33 %
Kimi K2	53 %	30 %	46 %	40 %
glm 4.5	53 %	23 %	33 %	53 %
Claude 3.5 Haiku	38 %	15 %	26 %	26 %
Llama 3 Maverick	33 %	30 %	40 %	33 %
gpt-o3-mini	20 %	15 %	26 %	26 %
Mistral Small 3	20 %	15 %	0 %	20 %
gpt-4o-mini	13 %	23 %	20 %	40 %

Повторные прогоны не делали — дорого.

Комментарии (63)

Исследование показало, что современные LLM-провайдеры плохо справляются даже с классическими текстовыми квестами, несмотря на доступные онлайн-гайды.
Участники подчеркивают: ChatGPT-5 — это не одна модель, а роутер, случайно выбирающий модель, что снижает надёжность результатов.
Критика методики: неясно, просили ли LLM именно проходить игру, а не просто исследовать, и нет сравнения с людьми.
Большинство считает, что LLM не обладают «моделью мира» и не понимают строгих правил, поэтому не могут системно решать головоломки.
Некоторые предлагают улучшить подход: давать модели прямой доступ к интерпретатору игры или использовать более точные промпты.