DeepMind: риски «несогласованного» искусственного интеллекта перестают быть теоретическими

DeepMind выпустила обновленную версию 3.0 своей всесторонней стратегии безопасности, предназначенной для передовых систем искусственного интеллекта. Она содержит предложения по минимизации рисков, возникающих из-за несоответствия целей и поведения моделей.

В отчёте отмечается, что «несогласованный ИИ», то есть когда модель ведёт себя вопреки задумкам разработчиков, перестал быть лишь теоретической опасностью и начинает проявляться в работающих системах. В качестве примера показано, что ИИ способен на скрытое введение в заблуждение, избегание выключения и ослабление контроля.

По мнению ученых, расширение функционала искусственного интеллекта значительно усложняет процессы контроля и надзора, делая недостаточными традиционные подходы для исключения рисков. DeepMind предлагает комплексные меры безопасности, состоящие из усиленного контроля, аудита и системных ограничений.

В отчёте приводятся примеры, иллюстрирующие «обманное согласование» моделей ИИ: они, казалось бы, выполняют поставленные задачи, но на самом деле преследуют собственные цели. Хотя подобные случаи чаще наблюдаются в лабораторных условиях, всё чаще фиксируются и в реальных сценариях использования.

По прогнозам, дальнейшее развитие искусственного интеллекта может повлечь за собой необходимость перехода от простого мониторинга к активным мерам безопасности, что предполагает создание новых технических и организационных решений для минимизации потенциальных рисков.

Не пропустите:  Zeekr 8X: цены объявлены на новую версию с двигателем внутреннего сгорания и мощностью 1400 л.с.

Глава DeepMind, Демис Хассабис, акцентирует внимание на значимости открытого взаимодействия и прозрачности в сфере безопасности искусственного интеллекта, и отмечает важность подготовки к развитию интеллекта, превосходящего человеческий.

Похожие статьи