Heretic: Automatic censorship removal for language models

Проект Heretic представляет собой инструмент для полностью автоматического удаления цензуры в языковых моделях. Разработанный пользователем p-e-w, этот проект нацелен на преодоление ограничений, которые разработчики искусственного интеллекта накладывают на свои модели для предотвращения генерации вредоносного или нежелательного контента.

Интересно, что название проекта отсылает к еретикам — людям, которые не следуют установленным догмам, что символизирует стремление обойти ограничения ИИ. Хотя детали реализации не предоставлены, сам факт существования такого инструмента отражает растущий интерес к вопросам свободы выражения в системах искусственного интеллекта. Пользователи GitHub уже проявили интерес к проекту, что говорит о востребованности решений для управления поведением языковых моделей.

Комментарии (330)

Обсуждение в основном вращается вокруг инструмента Heretic, который удаляет цензуру из моделей, и его влияния на безопасность и свободу использования ИИ.
Участники обсуждают, какие именно "вредные" запросы вызывают отказ в моделях, и какие именно они считаются вредными.
Также обсуждается, что такие инструменты могут быть использованы для обхода цензуры и как это может повлиять на безопасность и использование ИИ.
Некоторые участники выражают обеспокоенность по поводу того, что такие инструменты могут быть использованы для обхода цензуры и как это может повлиять на безопасность и использование ИИ.