Hacker News Digest

Тег: #bard

Постов: 1

IQ Tests Results for AI (trackingai.org) 💬 Длинная дискуссия

TrackingAI — сайт-трекер политических и когнитивных смещений ИИ.
Добавлен Claude 3.5 Sonnet.

Что есть

  • Тесты: политический компас, IQ (Mensa Norway, вербализован).
  • База: все ответы ИИ, поиск, фильтры (день/неделя/месяц).
  • Модели: ChatGPT, Claude, Bard, Grok и др. — список обновляется ежедневно.

Зачем

  1. Показывает идеологию ИИ, чтобы выбрать менее предвзятого помощника.
  2. Помогает разработчикам корректировать модели, если они «уходят в крайности».

Откуда идея

Вдохновлено работой Дэвида Розадо, но в отличие от статических снимков — live-трекинг.

FAQ (кратко)

  • Почему ИИ левые?
    Данные (Википедия) и обратная связь левых рейтеров.
  • Можно ли сделать ИИ центристом?
    Да, но нужно менять данные или состав рейтеров.
  • Отказ от ответа?
    Повторяем 10 раз; если отказ — фиксируем.
  • Контакт: maxim.lott@gmail.com

Автор

Максим Лотт, продюсер Stossel TV, создатель ElectionBettingOdds.com и TaxPlanCalculator.com.

Подписаться на обновления

by stared • 17 августа 2025 г. в 09:36 • 178 points

ОригиналHN

#llm#machine-learning#natural-language-processing#claude#bard#grok#mensa#cognitive-bias

Комментарии (281)

  • IQ-тесты для людей измеряют «g-фактор» при строгих ограничениях по времени; LLM не работают в этих условиях.
  • Модели часто «зубрят» ответы из обучающих данных, поэтому высокий балл ≠ человеческий интеллект.
  • Визуальные модели показывают худшие результаты, чем текстовые, из-за различий в формате заданий.
  • Нормированные IQ-оценки для машин — категориальная ошибка: тесты не учитывают их архитектуру и возможности.
  • Бенчмарк быстро теряет ценность из-за переобучения и отсутствия контроля за «подглядыванием» в данных.