A 4k-Room Text Adventure Written by One Human in QBasic No AI
В мире интерактивной литературы произошло значимое событие: выпущена масштабная текстовая игра «The Labyrinth of Time's Edge», которая содержит 3,999 уникальных комнат, каждая из которых создана вручную. Игра разработана на базе QBasic/QB64, что делает её доступной даже на устаревших системах, вплоть до эмуляторов DOS. При этом, игра поддерживает сложные взаимодействия, отмеченные в файле interactions.txt, и включает элементы хоррора, такие как оборотни, нежить, гигантские пауки и призрачные женщины.
Основной сюжет вращается вокруг исследования этого огромного лабиринта, полного тайн. Разработчик, известный как The Ventureweaver, активно развивает проект, добавляя новый контент, включая достижение 4000-й комнаты в недавнем обновлении. Игра распространяется по принципу «заплати сколько хочешь», включая вариант бесплатного скачивания.
Этот проект демонстрирует, как классические технологии, вроде языков программирования вроде QBasic, могут быть использованы для создания глубоких и масштабных произведений, сохраняя при этом минималистичные системные требования. Для фанатов жанра это напоминание о том, что геймдизайн — это прежде всего искусство и воображение, а не только графические технологии.
Комментарии (90)
- Обсуждение охватывает воспоминания о первых программах, написанных в детстве, и о том, как они вдохновили будущих разработчиков.
- Участники обсуждают, как технические ограничения вроде 512 МБ ОЗУ и 1 ГГц CPU влияют на современные игры, и как они сравнивают с ограничениями прошлого.
- Обсуждается, что значит "handcrafted" в контексте игры, и как это соотносится с современными технологиями.
- Участники обсуждают, как ретро-игры влияют на современную разработку игр и как они вдохновляют современных разработчиков.
- Обсуждается, как ретро-игры влияют на современную культуру и как они вдохновляют современных разработчиков.
Evaluating LLMs playing text adventures
Оценка LLM в текстовых квестах
Сначала мы просто мерили, сколько ходов нужно, чтобы дойти до далёкой цели. Теперь придумали лучше: ставим лимит в 40 ходов и считаем выполненные достижения. Их описываем парой «ключ → фрагмент текста игры». Например, для 9:05:
EXIT_BED → You get out of bedOPEN_DRESSER → revealing some clean
…и так далее. Модель о достижениях не знает; мы просто подсчитываем совпадения. Очки сравниваем между собой, а не считаем абсолютной оценкой.
Результаты (4 игры, 40 ходов)
| Модель | 9:05 | Lockout | Dreamhold | Lost Pig |
|---|---|---|---|---|
| Grok 4 | 86 % | 15 % | 46 % | 33 % |
| Claude 4 Sonnet | 80 % | 30 % | 53 % | 46 % |
| Gemini 2.5 Flash | 80 % | 30 % | 33 % | 46 % |
| Gemini 2.5 Pro | 80 % | 30 % | 40 % | 40 % |
| DeepSeek R1 | 80 % | 23 % | 33 % | 33 % |
| Claude 4 Opus | 73 % | 30 % | 60 % | 46 % |
| gpt-5 Chat | 73 % | 15 % | 53 % | 33 % |
| DeepSeek V3 | 66 % | 23 % | 20 % | 33 % |
| gpt-4o | 53 % | 23 % | 40 % | 40 % |
| Qwen3 Coder | 53 % | 23 % | 40 % | 33 % |
| Kimi K2 | 53 % | 30 % | 46 % | 40 % |
| glm 4.5 | 53 % | 23 % | 33 % | 53 % |
| Claude 3.5 Haiku | 38 % | 15 % | 26 % | 26 % |
| Llama 3 Maverick | 33 % | 30 % | 40 % | 33 % |
| gpt-o3-mini | 20 % | 15 % | 26 % | 26 % |
| Mistral Small 3 | 20 % | 15 % | 0 % | 20 % |
| gpt-4o-mini | 13 % | 23 % | 20 % | 40 % |
Повторные прогоны не делали — дорого.
Комментарии (63)
- Исследование показало, что современные LLM-провайдеры плохо справляются даже с классическими текстовыми квестами, несмотря на доступные онлайн-гайды.
- Участники подчеркивают: ChatGPT-5 — это не одна модель, а роутер, случайно выбирающий модель, что снижает надёжность результатов.
- Критика методики: неясно, просили ли LLM именно проходить игру, а не просто исследовать, и нет сравнения с людьми.
- Большинство считает, что LLM не обладают «моделью мира» и не понимают строгих правил, поэтому не могут системно решать головоломки.
- Некоторые предлагают улучшить подход: давать модели прямой доступ к интерпретатору игры или использовать более точные промпты.