Tell HN: X is opening any tweet link in a webview whether you press it or not 🔥 Горячее 💬 Длинная дискуссия
—
Комментарии (478)
- Пользователи недовольны встроенными веб-вью (webview), так как они теряют контекст при переключении между приложениями и не позволяют вернуться к исходному месту.
- Мобильная платформа работает некорректно для неавторизованных пользователей, показывая бесполезные ошибки без указания на необходимость входа.
- Критикуются общее ухудшение пользовательского опыта, спамные практики и навязчивые методы увеличения вовлеченности (например, агрессивные клики по рекламе).
- Упомянуты спорные решения, такие как блокировка аккаунтов (например, PG) и изменение политики NSFW-контента в сервисах вроде Grok.
- Появились вопросы о предзагрузке ссылок в фоновом режиме, что может искусственно увеличивать трафик и представлять риски безопасности.
Zed's Pricing Has Changed: LLM Usage Is Now Token-Based
Zed переходит с помесячных лимитов на промпты на токен-ориентированную модель оплаты для использования ИИ-функций. Базовая подписка Pro теперь стоит $10 вместо $20 и включает $5 кредита на токены, а дополнительное использование тарифицируется по цене API-провайдеров плюс 10% надбавки. Также добавлены новые модели: GPT-5, Gemini 2.5 и Grok 4.
Это изменение отражает реальные затраты на запуск ИИ и устраняет несоответствие, когда простой запрос стоил столько же, сколько сложная задача. Пользователи получают больше гибкости и прозрачности, а Zed может устойчиво развивать редактор. Текущим клиентам даётся три месяца на переход, предлагаются альтернативы вроде своих API-ключей или локальных моделей.
Комментарии (143)
- Пользователи выражают разочарование переходом Zed на токенную модель ценообразования, считая её сложной для прогнозирования затрат и неудобной по сравнению с фиксированной подпиской.
- Многие отмечают, что встроенные AI-функции Zed, особенно предсказание правок, уступают конкурентам (Cursor, Claude Code), и предпочитают использовать внешние сервисы со своими API-ключами.
- Поднимаются вопросы доступности редактора (отсутствие поддержки скринридеров) и его стабильности (баги, зависания при работе с большими файлами или проектами).
- Высказываются опасения, что токенная модель создаёт неверные стимулы для разработчиков и неустойчива как бизнес-модель для посредников между пользователем и провайдерами LLM.
- Часть пользователей положительно оценивает снижение стоимости базовой подписки и возможность поддержать разработку Zed, не переплачивая за неиспользуемые AI-функции.
IQ Tests Results for AI 💬 Длинная дискуссия
TrackingAI — сайт-трекер политических и когнитивных смещений ИИ.
Добавлен Claude 3.5 Sonnet.
Что есть
- Тесты: политический компас, IQ (Mensa Norway, вербализован).
- База: все ответы ИИ, поиск, фильтры (день/неделя/месяц).
- Модели: ChatGPT, Claude, Bard, Grok и др. — список обновляется ежедневно.
Зачем
- Показывает идеологию ИИ, чтобы выбрать менее предвзятого помощника.
- Помогает разработчикам корректировать модели, если они «уходят в крайности».
Откуда идея
Вдохновлено работой Дэвида Розадо, но в отличие от статических снимков — live-трекинг.
FAQ (кратко)
- Почему ИИ левые?
Данные (Википедия) и обратная связь левых рейтеров. - Можно ли сделать ИИ центристом?
Да, но нужно менять данные или состав рейтеров. - Отказ от ответа?
Повторяем 10 раз; если отказ — фиксируем. - Контакт: maxim.lott@gmail.com
Автор
Максим Лотт, продюсер Stossel TV, создатель ElectionBettingOdds.com и TaxPlanCalculator.com.
Комментарии (281)
- IQ-тесты для людей измеряют «g-фактор» при строгих ограничениях по времени; LLM не работают в этих условиях.
- Модели часто «зубрят» ответы из обучающих данных, поэтому высокий балл ≠ человеческий интеллект.
- Визуальные модели показывают худшие результаты, чем текстовые, из-за различий в формате заданий.
- Нормированные IQ-оценки для машин — категориальная ошибка: тесты не учитывают их архитектуру и возможности.
- Бенчмарк быстро теряет ценность из-за переобучения и отсутствия контроля за «подглядыванием» в данных.
Evaluating LLMs playing text adventures
Оценка LLM в текстовых квестах
Сначала мы просто мерили, сколько ходов нужно, чтобы дойти до далёкой цели. Теперь придумали лучше: ставим лимит в 40 ходов и считаем выполненные достижения. Их описываем парой «ключ → фрагмент текста игры». Например, для 9:05:
EXIT_BED → You get out of bedOPEN_DRESSER → revealing some clean
…и так далее. Модель о достижениях не знает; мы просто подсчитываем совпадения. Очки сравниваем между собой, а не считаем абсолютной оценкой.
Результаты (4 игры, 40 ходов)
| Модель | 9:05 | Lockout | Dreamhold | Lost Pig |
|---|---|---|---|---|
| Grok 4 | 86 % | 15 % | 46 % | 33 % |
| Claude 4 Sonnet | 80 % | 30 % | 53 % | 46 % |
| Gemini 2.5 Flash | 80 % | 30 % | 33 % | 46 % |
| Gemini 2.5 Pro | 80 % | 30 % | 40 % | 40 % |
| DeepSeek R1 | 80 % | 23 % | 33 % | 33 % |
| Claude 4 Opus | 73 % | 30 % | 60 % | 46 % |
| gpt-5 Chat | 73 % | 15 % | 53 % | 33 % |
| DeepSeek V3 | 66 % | 23 % | 20 % | 33 % |
| gpt-4o | 53 % | 23 % | 40 % | 40 % |
| Qwen3 Coder | 53 % | 23 % | 40 % | 33 % |
| Kimi K2 | 53 % | 30 % | 46 % | 40 % |
| glm 4.5 | 53 % | 23 % | 33 % | 53 % |
| Claude 3.5 Haiku | 38 % | 15 % | 26 % | 26 % |
| Llama 3 Maverick | 33 % | 30 % | 40 % | 33 % |
| gpt-o3-mini | 20 % | 15 % | 26 % | 26 % |
| Mistral Small 3 | 20 % | 15 % | 0 % | 20 % |
| gpt-4o-mini | 13 % | 23 % | 20 % | 40 % |
Повторные прогоны не делали — дорого.
Комментарии (63)
- Исследование показало, что современные LLM-провайдеры плохо справляются даже с классическими текстовыми квестами, несмотря на доступные онлайн-гайды.
- Участники подчеркивают: ChatGPT-5 — это не одна модель, а роутер, случайно выбирающий модель, что снижает надёжность результатов.
- Критика методики: неясно, просили ли LLM именно проходить игру, а не просто исследовать, и нет сравнения с людьми.
- Большинство считает, что LLM не обладают «моделью мира» и не понимают строгих правил, поэтому не могут системно решать головоломки.
- Некоторые предлагают улучшить подход: давать модели прямой доступ к интерпретатору игры или использовать более точные промпты.