Hacker News Digest

Тег: #grok

Постов: 4

Tell HN: X is opening any tweet link in a webview whether you press it or not 🔥 Горячее 💬 Длинная дискуссия

by stillatit • 04 ноября 2025 г. в 05:53 • 562 points

ОригиналHN

#webview#user-experience#ux#security#privacy#nsfw#grok

Комментарии (478)

  • Пользователи недовольны встроенными веб-вью (webview), так как они теряют контекст при переключении между приложениями и не позволяют вернуться к исходному месту.
  • Мобильная платформа работает некорректно для неавторизованных пользователей, показывая бесполезные ошибки без указания на необходимость входа.
  • Критикуются общее ухудшение пользовательского опыта, спамные практики и навязчивые методы увеличения вовлеченности (например, агрессивные клики по рекламе).
  • Упомянуты спорные решения, такие как блокировка аккаунтов (например, PG) и изменение политики NSFW-контента в сервисах вроде Grok.
  • Появились вопросы о предзагрузке ссылок в фоновом режиме, что может искусственно увеличивать трафик и представлять риски безопасности.

Zed's Pricing Has Changed: LLM Usage Is Now Token-Based (zed.dev)

Zed переходит с помесячных лимитов на промпты на токен-ориентированную модель оплаты для использования ИИ-функций. Базовая подписка Pro теперь стоит $10 вместо $20 и включает $5 кредита на токены, а дополнительное использование тарифицируется по цене API-провайдеров плюс 10% надбавки. Также добавлены новые модели: GPT-5, Gemini 2.5 и Grok 4.

Это изменение отражает реальные затраты на запуск ИИ и устраняет несоответствие, когда простой запрос стоил столько же, сколько сложная задача. Пользователи получают больше гибкости и прозрачности, а Zed может устойчиво развивать редактор. Текущим клиентам даётся три месяца на переход, предлагаются альтернативы вроде своих API-ключей или локальных моделей.

by meetpateltech • 24 сентября 2025 г. в 16:13 • 150 points

ОригиналHN

#zed#llm#gpt-5#gemini#grok#api#pricing#subscription

Комментарии (143)

  • Пользователи выражают разочарование переходом Zed на токенную модель ценообразования, считая её сложной для прогнозирования затрат и неудобной по сравнению с фиксированной подпиской.
  • Многие отмечают, что встроенные AI-функции Zed, особенно предсказание правок, уступают конкурентам (Cursor, Claude Code), и предпочитают использовать внешние сервисы со своими API-ключами.
  • Поднимаются вопросы доступности редактора (отсутствие поддержки скринридеров) и его стабильности (баги, зависания при работе с большими файлами или проектами).
  • Высказываются опасения, что токенная модель создаёт неверные стимулы для разработчиков и неустойчива как бизнес-модель для посредников между пользователем и провайдерами LLM.
  • Часть пользователей положительно оценивает снижение стоимости базовой подписки и возможность поддержать разработку Zed, не переплачивая за неиспользуемые AI-функции.

IQ Tests Results for AI (trackingai.org) 💬 Длинная дискуссия

TrackingAI — сайт-трекер политических и когнитивных смещений ИИ.
Добавлен Claude 3.5 Sonnet.

Что есть

  • Тесты: политический компас, IQ (Mensa Norway, вербализован).
  • База: все ответы ИИ, поиск, фильтры (день/неделя/месяц).
  • Модели: ChatGPT, Claude, Bard, Grok и др. — список обновляется ежедневно.

Зачем

  1. Показывает идеологию ИИ, чтобы выбрать менее предвзятого помощника.
  2. Помогает разработчикам корректировать модели, если они «уходят в крайности».

Откуда идея

Вдохновлено работой Дэвида Розадо, но в отличие от статических снимков — live-трекинг.

FAQ (кратко)

  • Почему ИИ левые?
    Данные (Википедия) и обратная связь левых рейтеров.
  • Можно ли сделать ИИ центристом?
    Да, но нужно менять данные или состав рейтеров.
  • Отказ от ответа?
    Повторяем 10 раз; если отказ — фиксируем.
  • Контакт: maxim.lott@gmail.com

Автор

Максим Лотт, продюсер Stossel TV, создатель ElectionBettingOdds.com и TaxPlanCalculator.com.

Подписаться на обновления

by stared • 17 августа 2025 г. в 09:36 • 178 points

ОригиналHN

#llm#machine-learning#natural-language-processing#claude#bard#grok#mensa#cognitive-bias

Комментарии (281)

  • IQ-тесты для людей измеряют «g-фактор» при строгих ограничениях по времени; LLM не работают в этих условиях.
  • Модели часто «зубрят» ответы из обучающих данных, поэтому высокий балл ≠ человеческий интеллект.
  • Визуальные модели показывают худшие результаты, чем текстовые, из-за различий в формате заданий.
  • Нормированные IQ-оценки для машин — категориальная ошибка: тесты не учитывают их архитектуру и возможности.
  • Бенчмарк быстро теряет ценность из-за переобучения и отсутствия контроля за «подглядыванием» в данных.

Evaluating LLMs playing text adventures (entropicthoughts.com)

Оценка LLM в текстовых квестах

Сначала мы просто мерили, сколько ходов нужно, чтобы дойти до далёкой цели. Теперь придумали лучше: ставим лимит в 40 ходов и считаем выполненные достижения. Их описываем парой «ключ → фрагмент текста игры». Например, для 9:05:

  • EXIT_BED → You get out of bed
  • OPEN_DRESSER → revealing some clean
    …и так далее. Модель о достижениях не знает; мы просто подсчитываем совпадения. Очки сравниваем между собой, а не считаем абсолютной оценкой.

Результаты (4 игры, 40 ходов)

Модель 9:05 Lockout Dreamhold Lost Pig
Grok 4 86 % 15 % 46 % 33 %
Claude 4 Sonnet 80 % 30 % 53 % 46 %
Gemini 2.5 Flash 80 % 30 % 33 % 46 %
Gemini 2.5 Pro 80 % 30 % 40 % 40 %
DeepSeek R1 80 % 23 % 33 % 33 %
Claude 4 Opus 73 % 30 % 60 % 46 %
gpt-5 Chat 73 % 15 % 53 % 33 %
DeepSeek V3 66 % 23 % 20 % 33 %
gpt-4o 53 % 23 % 40 % 40 %
Qwen3 Coder 53 % 23 % 40 % 33 %
Kimi K2 53 % 30 % 46 % 40 %
glm 4.5 53 % 23 % 33 % 53 %
Claude 3.5 Haiku 38 % 15 % 26 % 26 %
Llama 3 Maverick 33 % 30 % 40 % 33 %
gpt-o3-mini 20 % 15 % 26 % 26 %
Mistral Small 3 20 % 15 % 0 % 20 %
gpt-4o-mini 13 % 23 % 20 % 40 %

Повторные прогоны не делали — дорого.

by todsacerdoti • 12 августа 2025 г. в 15:19 • 96 points

ОригиналHN

#large-language-models#text-adventure#grok#claude#gemini#llm

Комментарии (63)

  • Исследование показало, что современные LLM-провайдеры плохо справляются даже с классическими текстовыми квестами, несмотря на доступные онлайн-гайды.
  • Участники подчеркивают: ChatGPT-5 — это не одна модель, а роутер, случайно выбирающий модель, что снижает надёжность результатов.
  • Критика методики: неясно, просили ли LLM именно проходить игру, а не просто исследовать, и нет сравнения с людьми.
  • Большинство считает, что LLM не обладают «моделью мира» и не понимают строгих правил, поэтому не могут системно решать головоломки.
  • Некоторые предлагают улучшить подход: давать модели прямой доступ к интерпретатору игры или использовать более точные промпты.