Evaluating LLMs playing text adventures
Оценка LLM в текстовых квестах
Сначала мы просто мерили, сколько ходов нужно, чтобы дойти до далёкой цели. Теперь придумали лучше: ставим лимит в 40 ходов и считаем выполненные достижения. Их описываем парой «ключ → фрагмент текста игры». Например, для 9:05:
EXIT_BED → You get out of bed
OPEN_DRESSER → revealing some clean
…и так далее. Модель о достижениях не знает; мы просто подсчитываем совпадения. Очки сравниваем между собой, а не считаем абсолютной оценкой.
Результаты (4 игры, 40 ходов)
Модель | 9:05 | Lockout | Dreamhold | Lost Pig |
---|---|---|---|---|
Grok 4 | 86 % | 15 % | 46 % | 33 % |
Claude 4 Sonnet | 80 % | 30 % | 53 % | 46 % |
Gemini 2.5 Flash | 80 % | 30 % | 33 % | 46 % |
Gemini 2.5 Pro | 80 % | 30 % | 40 % | 40 % |
DeepSeek R1 | 80 % | 23 % | 33 % | 33 % |
Claude 4 Opus | 73 % | 30 % | 60 % | 46 % |
gpt-5 Chat | 73 % | 15 % | 53 % | 33 % |
DeepSeek V3 | 66 % | 23 % | 20 % | 33 % |
gpt-4o | 53 % | 23 % | 40 % | 40 % |
Qwen3 Coder | 53 % | 23 % | 40 % | 33 % |
Kimi K2 | 53 % | 30 % | 46 % | 40 % |
glm 4.5 | 53 % | 23 % | 33 % | 53 % |
Claude 3.5 Haiku | 38 % | 15 % | 26 % | 26 % |
Llama 3 Maverick | 33 % | 30 % | 40 % | 33 % |
gpt-o3-mini | 20 % | 15 % | 26 % | 26 % |
Mistral Small 3 | 20 % | 15 % | 0 % | 20 % |
gpt-4o-mini | 13 % | 23 % | 20 % | 40 % |
Повторные прогоны не делали — дорого.
Комментарии (63)
- Исследование показало, что современные LLM-провайдеры плохо справляются даже с классическими текстовыми квестами, несмотря на доступные онлайн-гайды.
- Участники подчеркивают: ChatGPT-5 — это не одна модель, а роутер, случайно выбирающий модель, что снижает надёжность результатов.
- Критика методики: неясно, просили ли LLM именно проходить игру, а не просто исследовать, и нет сравнения с людьми.
- Большинство считает, что LLM не обладают «моделью мира» и не понимают строгих правил, поэтому не могут системно решать головоломки.
- Некоторые предлагают улучшить подход: давать модели прямой доступ к интерпретатору игры или использовать более точные промпты.
Optimizing my sleep around Claude usage limits
Прошлый месяц я подстроил сон под лимиты Claude Pro: счётчик обнуляется каждые 5 ч. Раньше в самый продуктивный момент всплывало «лимит до 7:00» — и flow пропадал.
Параллельно учусь ходить под парусом в одиночку: там спят по 20–30 мин, чтобы не пропустить суда и ветер. Я решил применить тот же принцип к Claude.
Теперь трачу токены 1–3 ч, затем 2-часовой «морской» сон. REM успевает накопиться, скорость разработки выросла в 10×, фичи льются.
Когда Anthropic поднимет цены или урежет лимиты, буду готов: поставлю будильник, который разбудит, как только счётчик сбросится.
Комментарии (116)
- Автор экспериментирует с полифазным сном, чтобы не сталкиваться с лимитами Claude, вызвав шквал реакций.
- Комментаторы спорят: кто-то восхищается «продуктивностью», кто-то уверен, что это сатира.
- Многие советуют просто купить подписку Claude Max, взять API-ключ или запустить локальную модель, чтобы не разрушать здоровье.
- Повторяется предупреждение: здоровье важнее денег и кода; перегрузки рано или поздно аукнутся.
- В итоге обсуждение превратилось в смесь шуток, здравого смысла и сомнений, где реальность трудно отличить от сатиры.
How I code with AI on a budget/free 🔥 Горячее 💬 Длинная дискуссия
Бесплатный AI-стек
Браузер → 15+ вкладок:
- 2-3 × z.ai GLM 4.5 (≈ Claude 4)
- 2 × Kimi K2 (багфиксер)
- Qwen3 Coder, DeepSeek v3/r1
- Google AI Studio + Gemini 2.5 Pro (Flash бесплатно)
- OpenAI Playground (разрешить обучение → бесплатные токены)
- Poe, OpenRouter, ChatGPT, Perplexity, Grok, Phind, lmarena.ai
Claude.ai — редко, т.к. лимиты.
⚠️ Grok: бесплатен, но связан с пропагандой; использовать только для кода.
Умный дешёвый цикл
-
Планирование в веб-чатах
Агенты (Cline, Copilot) «тупят» от лишнего контекста.
→ Задаю вопрос в одном из бесплатных чатов, получаю решение. -
Генерация контекста
AI Code Prep рекурсивно собирает файлы проекта и форматирует:fileName.js: <code>...</code> nextFile.py: <code>...</code>
-
Исполнение
Ответ вставляю в Cline/Roo Code; GPT-4.1 спокойно применяет патчи без трат на Claude.
Комментарии (219)
- Автор статьи извинился за устаревший список моделей: теперь фавориты — GLM-4.5, Kimi K2, Qwen3-Coder 480b.
- Участники подтверждают: агенты работают только на самых больших моделях, для простых задач быстрее мелкие.
- Популярны бесплатные веб-чаты: Google AI Studio (Gemini 2.5 Pro), Mistral, DeepSeek, Qwen Chat; лимиты высокие или неограниченные.
- Локальные решения: Continue.dev + Ollama/LMStudio, Cursor CLI, repomix/codemerger для упаковки кода в один файл.
- Некоторые считают всё это слишком сложным и предпочитают писать код вручную или использовать единый инструмент вроде Amazon Q Dev.
GPT-5: "How many times does the letter b appear in blueberry?" 🔥 Горячее 💬 Длинная дискуссия
—
Комментарии (234)
- GPT-5 без «режима рассуждений» ошибочно считает количество букв «b» в слове blueberry (выдаёт 2 вместо 3).
- Пользователи связывают ошибку с особенностями токенизации и тем, что модель «не видит» отдельные символы.
- При явном включении «режима рассуждений» или в других моделях (Claude, Qwen3, GPT-4o) ответ получается верным.
- Обсуждение подчёркивает: быстрый «дешёвый» вывод может быть неточным, а автоматический роутер пока плохо распознаёт задачи, требующие точного перебора символов.
I gave the AI arms and legs then it rejected me 🔥 Горячее 💬 Длинная дискуссия
- Сгенерированное ИИ изображение, где ИИ руками «отвергает» меня. Очень мета.
В октябре 2024 Anthropic представила «Claude Computer Use», позволяющую ИИ управлять компьютером, копировать данные из браузера в таблицы и т.п. Я поддерживаю библиотеку для управления компьютером и этой весной решил разобраться, как они это делают. К моему удивлению, Anthropic использует мою библиотеку enigo.
Проверить использование enigo в Claude Desktop для macOS можно так:
- 7z x Claude.dmg
- perl -nle 'print $& while /.{0,67}enigo.{0,30}/g' Claude/Claude.app/Contents/Resources/app.asar.unpacked/node_modules/claude-native/claude-native-binding.node Вывод содержит путь к enigo-0.2.1/src/macos/macos_impl.rs
На Windows:
- 7z x Claude-Setup-x64.exe
- 7z x AnthropicClaude-0.11.6-full.nupkg
- perl -nle 'print $& while /.{0,75}enigo.{0,26}/g' Claude-Setup-x64/AnthropicClaude-0.11.6-full/lib/net45/resources/app.asar.unpacked/node_modules/claude-native/claude-native-binding.node Вывод указывает на enigo-0.2.1/src/win/win_impl.rs
Я горжусь, что enigo дорос до продакшена у компании с огромным бюджетом. Эмуляция ввода сложна из‑за слабой документации и платформенных особенностей. На мой взгляд, enigo — отличный выбор: работает на Windows, macOS, *BSD и Linux (Wayland, X11, libei) без root; написан на Rust (безопасность памяти, высокая скорость); самый популярный на crates.io (~300k загрузок, 1200+ звёзд). И всё же тревожно, что мой хобби‑проект установлен на тысячах устройств.
Сколько я на этом заработал? Нисколько: enigo под MIT‑лицензией — можно бесплатно использовать. Взамен — звёзды на GitHub и счётчик загрузок.
Интересно, что Claude Desktop — Electron‑приложение, но есть только для macOS и Windows. Сообщество запустило его на Linux, заменив вызовы enigo заглушками, хотя enigo кроссплатформенна — любопытный выбор.
Через знакомых я узнал об открытой роли в команде, делавшей секретную, ещё не выпущенную функцию Claude Desktop с enigo. Подал заявку, ждал. В итоге пришло письмо: команда не успевает рассматривать дополнительные заявки.
Я бы с радостью поработал в Anthropic: сделать аналог Computer Use, довести Claude Desktop до Linux, вложить свой опыт в эмуляцию ввода и полноценно отполировать enigo, чтобы Anthropic концентрировалась на моделях, а не на капризах ввода.
В целом я счастлив, что enigo в Claude Desktop, и всем об этом рассказываю. Забавно думать, что я метафорически дал Claude руки и ноги — и получить отказ. Письмо написал человек или сам Claude? По крайней мере, теперь я, наверное, в безопасности…
Комментарии (379)
- Обсуждение вокруг автора OSS-библиотеки enigo, которую, по словам поста, использует Claude Desktop; при попытке податься в Anthropic он получил авто‑отказ без рассмотрения, что вызвало резонанс.
- Многие считают, что заявку, вероятно, даже не читали из‑за перегруженных или автоматизированных HR/ATS‑процессов; советуют искать тёплый интро к менеджеру, а не подаваться «в общий ящик».
- Поднята тема лицензий: permissive (MIT) позволяет корпорациям брать код без вклада; участники предлагают рассмотреть MPL/EUPL, Fair Source или даже целевые ограничения, хотя применимость и исполнение спорны.
- Несколько комментаторов призывают Anthropic хотя бы поблагодарить автора, дать консультационный контракт или символическую компенсацию; другие напоминают, что компания волна отбирать кого хочет.
- Обсуждаются возможные факторы отказа: геолокация (США vs Европа), визы, несоответствие профиля «AI‑инженеру», парадоксы найма и предпочтение «низкопрофильных» кандидатов.
- Приводятся похожие кейсы из индустрии: от игнора мейнтейнеров до неудачных интервью у компаний, зависящих от их софта.
- Общий вывод: современный тех‑набор страдает от автоматизации и перегрузки; для кандидатов критичны нетворкинг, прямой контакт с нанимающим менеджером и стратегия видимости, а для OSS — осознанный выбор лицензии.
Anthropic revokes OpenAI's access to Claude 🔥 Горячее
—
Комментарии (123)
"OpenAI was plugging Claude into its own internal tools using special developer access (APIs)"Unless it's actually some internal Claude API which OpenAI were using with an OpenAI benchmarking tool, this sounds like a hyped-up way for Wired to phrase it.Almost like: `Woah man, Ope