IQ Tests Results for AI 💬 Длинная дискуссия
TrackingAI — сайт-трекер политических и когнитивных смещений ИИ.
Добавлен Claude 3.5 Sonnet.
Что есть
- Тесты: политический компас, IQ (Mensa Norway, вербализован).
- База: все ответы ИИ, поиск, фильтры (день/неделя/месяц).
- Модели: ChatGPT, Claude, Bard, Grok и др. — список обновляется ежедневно.
Зачем
- Показывает идеологию ИИ, чтобы выбрать менее предвзятого помощника.
- Помогает разработчикам корректировать модели, если они «уходят в крайности».
Откуда идея
Вдохновлено работой Дэвида Розадо, но в отличие от статических снимков — live-трекинг.
FAQ (кратко)
- Почему ИИ левые?
Данные (Википедия) и обратная связь левых рейтеров. - Можно ли сделать ИИ центристом?
Да, но нужно менять данные или состав рейтеров. - Отказ от ответа?
Повторяем 10 раз; если отказ — фиксируем. - Контакт: maxim.lott@gmail.com
Автор
Максим Лотт, продюсер Stossel TV, создатель ElectionBettingOdds.com и TaxPlanCalculator.com.
Комментарии (281)
- IQ-тесты для людей измеряют «g-фактор» при строгих ограничениях по времени; LLM не работают в этих условиях.
- Модели часто «зубрят» ответы из обучающих данных, поэтому высокий балл ≠ человеческий интеллект.
- Визуальные модели показывают худшие результаты, чем текстовые, из-за различий в формате заданий.
- Нормированные IQ-оценки для машин — категориальная ошибка: тесты не учитывают их архитектуру и возможности.
- Бенчмарк быстро теряет ценность из-за переобучения и отсутствия контроля за «подглядыванием» в данных.