Чат-бот научился обрывать опасные разговоры: компания Anthropic разработала систему защиты от преступлений и эксплуатации детей

Anthropic представила новую возможность в языковых моделях Claude Opus 4 и 4.1, направленную на предотвращение нежелательных разговоров. Эта функция является частью исследования, которое проводит Anthropic, чтобы оценить «разумность» искусственного интеллекта. По словам создателей, в исключительных и крайне серьёзных ситуациях, связанных с настойчиво вредным или оскорбительным поведением пользователя, модели смогут самостоятельно прекращать взаимодействие.

Рассматриваются случаи, когда пользователь запрашивает материалы сексуального характера с участием несовершеннолетних или пытается получить сведения, которые могут быть использованы для планирования масштабных актов насилия или терроризма. Прекращение взаимодействия – это крайняя мера, используемая лишь после неоднократных попыток направить беседу в позитивное русло. Anthropic акцентирует внимание на том, что большинство пользователей не столкнутся с этим ограничением, даже при обсуждении дискуссионных вопросов.

Источник изображения: img.freepik.com

В случае прерывания разговора моделью, пользователь временно теряет возможность отправлять сообщения в этом чате, но может начать новый диалог. Завершение текущего разговора не затрагивает другие чаты, и пользователь может вернуться к прерванному разговору, чтобы изменить направление беседы и отредактировать ранее отправленные сообщения.

Несмотря на продолжающиеся дебаты вокруг антропоморфизации ИИ-моделей, компания полагает, что предоставление возможности прерывать взаимодействия, которые могут быть травмирующими, является экономичным способом контроля рисков. Anthropic продолжает работу над этой функцией и внедрила систему сбора информации о случаях, когда пользователи сталкиваются с автоматическим прекращением диалога.

Техноблог

Чат-бот научился обрывать опасные разговоры: компания Anthropic разработала систему защиты от преступлений и эксплуатации детей

Changan CS55 Plus представили с обновлённым дизайном и мощным бензиновым двигателем

Старт продаж кроссоверов Tenet T4, производство которых организовано на площадке бывшего завода Volkswagen

Tesla выпустила 100 000 электромобилей Model Y на берлинском заводе всего за шесть месяцев

АвтоВАЗ потерял часть прибыли от продаж Lada в 2025 году

Минцифры представило новый комплекс мер для защиты от кибермошенников

Ожидается выход Honor 500 и Honor 500 Pro: что известно о характеристиках

Обновлённый Honda Elysion бросает вызов Toyota Alphard: минивэн получил роскошные кресла и стоит от 2,82 млн рублей

BYD расширяет свой флот судов для международной доставки: восьмое судно получило название BYD Jinan

Предварительные продажи E5 Sportback: Audi представила модель без фирменной решетки

Volkswagen Teramont Pro 2025 стал доступнее на миллион рублей за полгода