Measuring political bias in Claude

Anthropic разработала новый метод автоматической оценки политической сбалансированности для своей модели Claude, протестировав шесть моделей с помощью тысяч запросов по разным политическим позициям. Согласно этим тестам, Claude Sonnet 4.5 превосходит по сбалансированности GPT-5 и Llama 4, а также показывает результаты, сопоставимые с Grok 4 и Gemini 2.5 Pro. Компания открыла методологию оценки, чтобы помочь всей индустрии ИИ разработать лучшие способы измерения политической нейтральности.

Anthropic обучает Claude избегать необоснованных политических мнений, предоставлять сбалансированную информацию, поддерживать фактическую точность и представлять различные точки зрения. Модель должна использовать нейтральную терминологию и уважительно взаимодействовать с разными перспективами. Для достижения этих целей компания использует системные подсказки и обучение характеру с помощью подкрепления, вознаграждая модель за ответы, соответствующие определенным чертам, таким как объективность и стремление не идентифицировать себя ни с одной политической идеологией.

Комментарии (131)

Обсуждение в основном касается политической нейтральности моделей, их стремления к «равновесию» между любыми двумя точками зрения и избегания «предвзятости» — даже ценой отказа от фактической точности.
Участники подчеркнули, что стремление к нейтральности может привести к тому, что модель будет избегать высказываний, которые могли бы быть восприняты как политически мотивированные, даже если они фактически точны.
Также обсуждалось, что вместо того, чтобы быть нейтральным, модель может быть обучена избегать политических тем или избегать говорить о фактах, которые могут быть неудобны.
Участники также обсудили, что вместо того, чтобы быть нейтральным, модель может быть обучена избегать политических тем или избегать говорить о фактах, которые могут быть неудобны.