Evaluating LLMs playing text adventures
Оценка LLM в текстовых квестах
Сначала мы просто мерили, сколько ходов нужно, чтобы дойти до далёкой цели. Теперь придумали лучше: ставим лимит в 40 ходов и считаем выполненные достижения. Их описываем парой «ключ → фрагмент текста игры». Например, для 9:05:
EXIT_BED → You get out of bed
OPEN_DRESSER → revealing some clean
…и так далее. Модель о достижениях не знает; мы просто подсчитываем совпадения. Очки сравниваем между собой, а не считаем абсолютной оценкой.
Результаты (4 игры, 40 ходов)
Модель | 9:05 | Lockout | Dreamhold | Lost Pig |
---|---|---|---|---|
Grok 4 | 86 % | 15 % | 46 % | 33 % |
Claude 4 Sonnet | 80 % | 30 % | 53 % | 46 % |
Gemini 2.5 Flash | 80 % | 30 % | 33 % | 46 % |
Gemini 2.5 Pro | 80 % | 30 % | 40 % | 40 % |
DeepSeek R1 | 80 % | 23 % | 33 % | 33 % |
Claude 4 Opus | 73 % | 30 % | 60 % | 46 % |
gpt-5 Chat | 73 % | 15 % | 53 % | 33 % |
DeepSeek V3 | 66 % | 23 % | 20 % | 33 % |
gpt-4o | 53 % | 23 % | 40 % | 40 % |
Qwen3 Coder | 53 % | 23 % | 40 % | 33 % |
Kimi K2 | 53 % | 30 % | 46 % | 40 % |
glm 4.5 | 53 % | 23 % | 33 % | 53 % |
Claude 3.5 Haiku | 38 % | 15 % | 26 % | 26 % |
Llama 3 Maverick | 33 % | 30 % | 40 % | 33 % |
gpt-o3-mini | 20 % | 15 % | 26 % | 26 % |
Mistral Small 3 | 20 % | 15 % | 0 % | 20 % |
gpt-4o-mini | 13 % | 23 % | 20 % | 40 % |
Повторные прогоны не делали — дорого.
Комментарии (63)
- Исследование показало, что современные LLM-провайдеры плохо справляются даже с классическими текстовыми квестами, несмотря на доступные онлайн-гайды.
- Участники подчеркивают: ChatGPT-5 — это не одна модель, а роутер, случайно выбирающий модель, что снижает надёжность результатов.
- Критика методики: неясно, просили ли LLM именно проходить игру, а не просто исследовать, и нет сравнения с людьми.
- Большинство считает, что LLM не обладают «моделью мира» и не понимают строгих правил, поэтому не могут системно решать головоломки.
- Некоторые предлагают улучшить подход: давать модели прямой доступ к интерпретатору игры или использовать более точные промпты.
How I code with AI on a budget/free 🔥 Горячее 💬 Длинная дискуссия
Бесплатный AI-стек
Браузер → 15+ вкладок:
- 2-3 × z.ai GLM 4.5 (≈ Claude 4)
- 2 × Kimi K2 (багфиксер)
- Qwen3 Coder, DeepSeek v3/r1
- Google AI Studio + Gemini 2.5 Pro (Flash бесплатно)
- OpenAI Playground (разрешить обучение → бесплатные токены)
- Poe, OpenRouter, ChatGPT, Perplexity, Grok, Phind, lmarena.ai
Claude.ai — редко, т.к. лимиты.
⚠️ Grok: бесплатен, но связан с пропагандой; использовать только для кода.
Умный дешёвый цикл
-
Планирование в веб-чатах
Агенты (Cline, Copilot) «тупят» от лишнего контекста.
→ Задаю вопрос в одном из бесплатных чатов, получаю решение. -
Генерация контекста
AI Code Prep рекурсивно собирает файлы проекта и форматирует:fileName.js: <code>...</code> nextFile.py: <code>...</code>
-
Исполнение
Ответ вставляю в Cline/Roo Code; GPT-4.1 спокойно применяет патчи без трат на Claude.
Комментарии (219)
- Автор статьи извинился за устаревший список моделей: теперь фавориты — GLM-4.5, Kimi K2, Qwen3-Coder 480b.
- Участники подтверждают: агенты работают только на самых больших моделях, для простых задач быстрее мелкие.
- Популярны бесплатные веб-чаты: Google AI Studio (Gemini 2.5 Pro), Mistral, DeepSeek, Qwen Chat; лимиты высокие или неограниченные.
- Локальные решения: Continue.dev + Ollama/LMStudio, Cursor CLI, repomix/codemerger для упаковки кода в один файл.
- Некоторые считают всё это слишком сложным и предпочитают писать код вручную или использовать единый инструмент вроде Amazon Q Dev.
Cursor CLI 🔥 Горячее 💬 Длинная дискуссия
- Установка:
npm i -g cursor-cli
- Команды:
cursor diff
,cursor commit
,cursor review
,cursor chat
- Где работает: VS Code, JetBrains, Android Studio, Ghostty, Warp, Bash
Функции
- Прямые правки кода в терминале
- Реальное управление агентом
- Правила через
.cursorrules
,AGENTS.md
, MCP
Плюсы
- Последние модели Anthropic, OpenAI, Gemini
- Интеграция в любой IDE
- Скрипты и автоматизация
Комментарии (248)
- Пользователи обсуждают внедрение единого стандарта AGENT.md вместо множества разных файлов.
- CLI-агенты (Claude Code, Cursor CLI и др.) вызывают восторг: удобно держать в фоне, «чувствуешь себя хакером», но UI-IDE теряет значение.
- Критика: непонятно, зачем платить за Cursor, если тот же функционал уже включён в подписку Anthropic/OpenAI; не хватает обратной связи, MCP, hooks и локальных моделей.
- Сторонники Cursor верят в его будущую экосистему (CLI + IDE + GitHub-интеграции) и низкие издержки переключения между моделями.
- Главный вопрос безопасности: доверять ли LLM полный доступ к файловой системе и устанавливать скрипты через curl | bash.
Комментарии (68)
I asked it to create a story that described the modes of the major scale with a cartoon treble clef as the main character.It created a 10 page story that stuck to the topic and was overall coherent. The main character changed color and style on every page, so no consistency there