Тег: #gemini — Hacker News Digest

Evaluating LLMs playing text adventures (entropicthoughts.com)

Оценка LLM в текстовых квестах

Сначала мы просто мерили, сколько ходов нужно, чтобы дойти до далёкой цели. Теперь придумали лучше: ставим лимит в 40 ходов и считаем выполненные достижения. Их описываем парой «ключ → фрагмент текста игры». Например, для 9:05:

EXIT_BED → You get out of bed
OPEN_DRESSER → revealing some clean
…и так далее. Модель о достижениях не знает; мы просто подсчитываем совпадения. Очки сравниваем между собой, а не считаем абсолютной оценкой.

Результаты (4 игры, 40 ходов)

Модель	9:05	Lockout	Dreamhold	Lost Pig
Grok 4	86 %	15 %	46 %	33 %
Claude 4 Sonnet	80 %	30 %	53 %	46 %
Gemini 2.5 Flash	80 %	30 %	33 %	46 %
Gemini 2.5 Pro	80 %	30 %	40 %	40 %
DeepSeek R1	80 %	23 %	33 %	33 %
Claude 4 Opus	73 %	30 %	60 %	46 %
gpt-5 Chat	73 %	15 %	53 %	33 %
DeepSeek V3	66 %	23 %	20 %	33 %
gpt-4o	53 %	23 %	40 %	40 %
Qwen3 Coder	53 %	23 %	40 %	33 %
Kimi K2	53 %	30 %	46 %	40 %
glm 4.5	53 %	23 %	33 %	53 %
Claude 3.5 Haiku	38 %	15 %	26 %	26 %
Llama 3 Maverick	33 %	30 %	40 %	33 %
gpt-o3-mini	20 %	15 %	26 %	26 %
Mistral Small 3	20 %	15 %	0 %	20 %
gpt-4o-mini	13 %	23 %	20 %	40 %

Повторные прогоны не делали — дорого.

by todsacerdoti • 12 августа 2025 г. в 15:19 • 96 points

Оригинал • HN

#large-language-models #text-adventure #grok #claude #gemini #llm

Комментарии (63)

Исследование показало, что современные LLM-провайдеры плохо справляются даже с классическими текстовыми квестами, несмотря на доступные онлайн-гайды.
Участники подчеркивают: ChatGPT-5 — это не одна модель, а роутер, случайно выбирающий модель, что снижает надёжность результатов.
Критика методики: неясно, просили ли LLM именно проходить игру, а не просто исследовать, и нет сравнения с людьми.
Большинство считает, что LLM не обладают «моделью мира» и не понимают строгих правил, поэтому не могут системно решать головоломки.
Некоторые предлагают улучшить подход: давать модели прямой доступ к интерпретатору игры или использовать более точные промпты.

How I code with AI on a budget/free (wuu73.org) 🔥 Горячее 💬 Длинная дискуссия

Бесплатный AI-стек
Браузер → 15+ вкладок:

2-3 × z.ai GLM 4.5 (≈ Claude 4)
2 × Kimi K2 (багфиксер)
Qwen3 Coder, DeepSeek v3/r1
Google AI Studio + Gemini 2.5 Pro (Flash бесплатно)
OpenAI Playground (разрешить обучение → бесплатные токены)
Poe, OpenRouter, ChatGPT, Perplexity, Grok, Phind, lmarena.ai
Claude.ai — редко, т.к. лимиты.

⚠️ Grok: бесплатен, но связан с пропагандой; использовать только для кода.

Умный дешёвый цикл

Планирование в веб-чатах
Агенты (Cline, Copilot) «тупят» от лишнего контекста.
→ Задаю вопрос в одном из бесплатных чатов, получаю решение.
Генерация контекста
AI Code Prep рекурсивно собирает файлы проекта и форматирует:
```
fileName.js:
<code>...</code>

nextFile.py:
<code>...</code>
```
Исполнение
Ответ вставляю в Cline/Roo Code; GPT-4.1 спокойно применяет патчи без трат на Claude.

by indigodaddy • 09 августа 2025 г. в 22:27 • 642 points

Оригинал • HN

#glm #claude #kimi #qwen #deepseek #gemini #openai #amazon #ollama #lmstudio

Комментарии (219)

Автор статьи извинился за устаревший список моделей: теперь фавориты — GLM-4.5, Kimi K2, Qwen3-Coder 480b.
Участники подтверждают: агенты работают только на самых больших моделях, для простых задач быстрее мелкие.
Популярны бесплатные веб-чаты: Google AI Studio (Gemini 2.5 Pro), Mistral, DeepSeek, Qwen Chat; лимиты высокие или неограниченные.
Локальные решения: Continue.dev + Ollama/LMStudio, Cursor CLI, repomix/codemerger для упаковки кода в один файл.
Некоторые считают всё это слишком сложным и предпочитают писать код вручную или использовать единый инструмент вроде Amazon Q Dev.

Cursor CLI (cursor.com) 🔥 Горячее 💬 Длинная дискуссия

Установка: npm i -g cursor-cli
Команды: cursor diff, cursor commit, cursor review, cursor chat
Где работает: VS Code, JetBrains, Android Studio, Ghostty, Warp, Bash

Функции

Прямые правки кода в терминале
Реальное управление агентом
Правила через .cursorrules, AGENTS.md, MCP

Плюсы

Последние модели Anthropic, OpenAI, Gemini
Интеграция в любой IDE
Скрипты и автоматизация

by gonzalovargas • 07 августа 2025 г. в 20:53 • 359 points

Оригинал • HN

#npm #vscode #jetbrains #android-studio #bash #anthropic #openai #gemini #github #llm

Комментарии (248)

Пользователи обсуждают внедрение единого стандарта AGENT.md вместо множества разных файлов.
CLI-агенты (Claude Code, Cursor CLI и др.) вызывают восторг: удобно держать в фоне, «чувствуешь себя хакером», но UI-IDE теряет значение.
Критика: непонятно, зачем платить за Cursor, если тот же функционал уже включён в подписку Anthropic/OpenAI; не хватает обратной связи, MCP, hooks и локальных моделей.
Сторонники Cursor верят в его будущую экосистему (CLI + IDE + GitHub-интеграции) и низкие издержки переключения между моделями.
Главный вопрос безопасности: доверять ли LLM полный доступ к файловой системе и устанавливать скрипты через curl | bash.

Create personal illustrated storybooks in the Gemini app (blog.google)

—

by xnx • 05 августа 2025 г. в 21:14 • 192 points

Оригинал • HN

#google #gemini

Комментарии (68)

I asked it to create a story that described the modes of the major scale with a cartoon treble clef as the main character.It created a 10 page story that stuck to the topic and was overall coherent. The main character changed color and style on every page, so no consistency there