Hacker News Digest

Тег: #gemini

Постов: 4

Evaluating LLMs playing text adventures (entropicthoughts.com)

Оценка LLM в текстовых квестах

Сначала мы просто мерили, сколько ходов нужно, чтобы дойти до далёкой цели. Теперь придумали лучше: ставим лимит в 40 ходов и считаем выполненные достижения. Их описываем парой «ключ → фрагмент текста игры». Например, для 9:05:

  • EXIT_BED → You get out of bed
  • OPEN_DRESSER → revealing some clean
    …и так далее. Модель о достижениях не знает; мы просто подсчитываем совпадения. Очки сравниваем между собой, а не считаем абсолютной оценкой.

Результаты (4 игры, 40 ходов)

Модель 9:05 Lockout Dreamhold Lost Pig
Grok 4 86 % 15 % 46 % 33 %
Claude 4 Sonnet 80 % 30 % 53 % 46 %
Gemini 2.5 Flash 80 % 30 % 33 % 46 %
Gemini 2.5 Pro 80 % 30 % 40 % 40 %
DeepSeek R1 80 % 23 % 33 % 33 %
Claude 4 Opus 73 % 30 % 60 % 46 %
gpt-5 Chat 73 % 15 % 53 % 33 %
DeepSeek V3 66 % 23 % 20 % 33 %
gpt-4o 53 % 23 % 40 % 40 %
Qwen3 Coder 53 % 23 % 40 % 33 %
Kimi K2 53 % 30 % 46 % 40 %
glm 4.5 53 % 23 % 33 % 53 %
Claude 3.5 Haiku 38 % 15 % 26 % 26 %
Llama 3 Maverick 33 % 30 % 40 % 33 %
gpt-o3-mini 20 % 15 % 26 % 26 %
Mistral Small 3 20 % 15 % 0 % 20 %
gpt-4o-mini 13 % 23 % 20 % 40 %

Повторные прогоны не делали — дорого.

by todsacerdoti • 12 августа 2025 г. в 15:19 • 96 points

ОригиналHN

#large-language-models#text-adventure#grok#claude#gemini#llm

Комментарии (63)

  • Исследование показало, что современные LLM-провайдеры плохо справляются даже с классическими текстовыми квестами, несмотря на доступные онлайн-гайды.
  • Участники подчеркивают: ChatGPT-5 — это не одна модель, а роутер, случайно выбирающий модель, что снижает надёжность результатов.
  • Критика методики: неясно, просили ли LLM именно проходить игру, а не просто исследовать, и нет сравнения с людьми.
  • Большинство считает, что LLM не обладают «моделью мира» и не понимают строгих правил, поэтому не могут системно решать головоломки.
  • Некоторые предлагают улучшить подход: давать модели прямой доступ к интерпретатору игры или использовать более точные промпты.

How I code with AI on a budget/free (wuu73.org) 🔥 Горячее 💬 Длинная дискуссия

Бесплатный AI-стек
Браузер → 15+ вкладок:

  • 2-3 × z.ai GLM 4.5 (≈ Claude 4)
  • 2 × Kimi K2 (багфиксер)
  • Qwen3 Coder, DeepSeek v3/r1
  • Google AI Studio + Gemini 2.5 Pro (Flash бесплатно)
  • OpenAI Playground (разрешить обучение → бесплатные токены)
  • Poe, OpenRouter, ChatGPT, Perplexity, Grok, Phind, lmarena.ai
    Claude.ai — редко, т.к. лимиты.

⚠️ Grok: бесплатен, но связан с пропагандой; использовать только для кода.

Умный дешёвый цикл

  1. Планирование в веб-чатах
    Агенты (Cline, Copilot) «тупят» от лишнего контекста.
    → Задаю вопрос в одном из бесплатных чатов, получаю решение.

  2. Генерация контекста
    AI Code Prep рекурсивно собирает файлы проекта и форматирует:

    fileName.js:
    <code>...</code>
    
    nextFile.py:
    <code>...</code>
    
  3. Исполнение
    Ответ вставляю в Cline/Roo Code; GPT-4.1 спокойно применяет патчи без трат на Claude.

by indigodaddy • 09 августа 2025 г. в 22:27 • 642 points

ОригиналHN

#glm#claude#kimi#qwen#deepseek#gemini#openai#amazon#ollama#lmstudio

Комментарии (219)

  • Автор статьи извинился за устаревший список моделей: теперь фавориты — GLM-4.5, Kimi K2, Qwen3-Coder 480b.
  • Участники подтверждают: агенты работают только на самых больших моделях, для простых задач быстрее мелкие.
  • Популярны бесплатные веб-чаты: Google AI Studio (Gemini 2.5 Pro), Mistral, DeepSeek, Qwen Chat; лимиты высокие или неограниченные.
  • Локальные решения: Continue.dev + Ollama/LMStudio, Cursor CLI, repomix/codemerger для упаковки кода в один файл.
  • Некоторые считают всё это слишком сложным и предпочитают писать код вручную или использовать единый инструмент вроде Amazon Q Dev.

Cursor CLI (cursor.com) 🔥 Горячее 💬 Длинная дискуссия

  • Установка: npm i -g cursor-cli
  • Команды: cursor diff, cursor commit, cursor review, cursor chat
  • Где работает: VS Code, JetBrains, Android Studio, Ghostty, Warp, Bash

Функции

  • Прямые правки кода в терминале
  • Реальное управление агентом
  • Правила через .cursorrules, AGENTS.md, MCP

Плюсы

  • Последние модели Anthropic, OpenAI, Gemini
  • Интеграция в любой IDE
  • Скрипты и автоматизация

by gonzalovargas • 07 августа 2025 г. в 20:53 • 359 points

ОригиналHN

#npm#vscode#jetbrains#android-studio#bash#anthropic#openai#gemini#github#llm

Комментарии (248)

  • Пользователи обсуждают внедрение единого стандарта AGENT.md вместо множества разных файлов.
  • CLI-агенты (Claude Code, Cursor CLI и др.) вызывают восторг: удобно держать в фоне, «чувствуешь себя хакером», но UI-IDE теряет значение.
  • Критика: непонятно, зачем платить за Cursor, если тот же функционал уже включён в подписку Anthropic/OpenAI; не хватает обратной связи, MCP, hooks и локальных моделей.
  • Сторонники Cursor верят в его будущую экосистему (CLI + IDE + GitHub-интеграции) и низкие издержки переключения между моделями.
  • Главный вопрос безопасности: доверять ли LLM полный доступ к файловой системе и устанавливать скрипты через curl | bash.

Create personal illustrated storybooks in the Gemini app (blog.google)

by xnx • 05 августа 2025 г. в 21:14 • 192 points

ОригиналHN

#google#gemini

Комментарии (68)

I asked it to create a story that described the modes of the major scale with a cartoon treble clef as the main character.It created a 10 page story that stuck to the topic and was overall coherent. The main character changed color and style on every page, so no consistency there