Чат-бот научился обрывать опасные разговоры: компания Anthropic разработала систему защиты от преступлений и эксплуатации детей

Anthropic представила новую возможность в языковых моделях Claude Opus 4 и 4.1, направленную на предотвращение нежелательных разговоров. Эта функция является частью исследования, которое проводит Anthropic, чтобы оценить «разумность» искусственного интеллекта. По словам создателей, в исключительных и крайне серьёзных ситуациях, связанных с настойчиво вредным или оскорбительным поведением пользователя, модели смогут самостоятельно прекращать взаимодействие.

Рассматриваются случаи, когда пользователь запрашивает материалы сексуального характера с участием несовершеннолетних или пытается получить сведения, которые могут быть использованы для планирования масштабных актов насилия или терроризма. Прекращение взаимодействия – это крайняя мера, используемая лишь после неоднократных попыток направить беседу в позитивное русло. Anthropic акцентирует внимание на том, что большинство пользователей не столкнутся с этим ограничением, даже при обсуждении дискуссионных вопросов.

В случае прерывания разговора моделью, пользователь временно теряет возможность отправлять сообщения в этом чате, но может начать новый диалог. Завершение текущего разговора не затрагивает другие чаты, и пользователь может вернуться к прерванному разговору, чтобы изменить направление беседы и отредактировать ранее отправленные сообщения.

Несмотря на продолжающиеся дебаты вокруг антропоморфизации ИИ-моделей, компания полагает, что предоставление возможности прерывать взаимодействия, которые могут быть травмирующими, является экономичным способом контроля рисков. Anthropic продолжает работу над этой функцией и внедрила систему сбора информации о случаях, когда пользователи сталкиваются с автоматическим прекращением диалога.