Hacker News Digest

12 августа 2025 г. в 15:19 • entropicthoughts.com • ⭐ 96 • 💬 63

OriginalHN

#large-language-models#text-adventure#grok#claude#gemini#llm

Evaluating LLMs playing text adventures

Оценка LLM в текстовых квестах

Сначала мы просто мерили, сколько ходов нужно, чтобы дойти до далёкой цели. Теперь придумали лучше: ставим лимит в 40 ходов и считаем выполненные достижения. Их описываем парой «ключ → фрагмент текста игры». Например, для 9:05:

  • EXIT_BED → You get out of bed
  • OPEN_DRESSER → revealing some clean
    …и так далее. Модель о достижениях не знает; мы просто подсчитываем совпадения. Очки сравниваем между собой, а не считаем абсолютной оценкой.

Результаты (4 игры, 40 ходов)

Модель 9:05 Lockout Dreamhold Lost Pig
Grok 4 86 % 15 % 46 % 33 %
Claude 4 Sonnet 80 % 30 % 53 % 46 %
Gemini 2.5 Flash 80 % 30 % 33 % 46 %
Gemini 2.5 Pro 80 % 30 % 40 % 40 %
DeepSeek R1 80 % 23 % 33 % 33 %
Claude 4 Opus 73 % 30 % 60 % 46 %
gpt-5 Chat 73 % 15 % 53 % 33 %
DeepSeek V3 66 % 23 % 20 % 33 %
gpt-4o 53 % 23 % 40 % 40 %
Qwen3 Coder 53 % 23 % 40 % 33 %
Kimi K2 53 % 30 % 46 % 40 %
glm 4.5 53 % 23 % 33 % 53 %
Claude 3.5 Haiku 38 % 15 % 26 % 26 %
Llama 3 Maverick 33 % 30 % 40 % 33 %
gpt-o3-mini 20 % 15 % 26 % 26 %
Mistral Small 3 20 % 15 % 0 % 20 %
gpt-4o-mini 13 % 23 % 20 % 40 %

Повторные прогоны не делали — дорого.