Специалисты Калифорнийского университета в Риверсайде (UCR) предложили решение, позволяющее избежать ухудшения безопасности моделей искусственного интеллекта при их настройке для использования на устройствах с ограниченными ресурсами, например, смартфонах и автомобилях. В процессе оптимизации моделей для повышения производительности на подобных устройствах, они могут утрачивать встроенные функции безопасности, предназначенные для предотвращения создания неприемлемого или потенциально вредоносного контента.
В рамках исследования авторы проанализировали, как изменение выходного слоя модели, то есть этапа, на котором формируется результат, влияет на её безопасность. Перемещение этого слоя позволяет ускорить и оптимизировать процесс вывода, поскольку система пропускает некоторые этапы обработки. Тем не менее, было установлено, что пропущенные этапы могут быть важны для защиты от нежелательных запросов.
«Мы выяснили, что некоторые упущенные слои критически важны для обеспечения безопасности, – заявил Амит Рой-Чоудхури, профессор электротехники и компьютерной инженерии, ведущий автор исследования. – При их удалении модель может начать давать ответы, которые ей не положено предоставлять».
Чтобы справиться с возникшей проблемой, исследователи модифицировали внутреннюю структуру модели, сохранив при этом её способность определять и блокировать нежелательный контент, даже при работе с сокращённой версией. Данная методика не предполагает использования внешних фильтров или дополнительных программных обновлений, а заключается в изменении принципов обработки опасных данных моделью.
«Мы стремились обеспечить сохранение безопасного поведения модели даже после её уменьшения», — пояснил Сакеть Бачу, аспирант UCR и один из авторов исследования. Для проверки была выбрана визуально-языковая модель LLaVA 1.5. После оптимизации выходного слоя, уменьшенная модель начала предоставлять ответы, содержащие потенциально опасную информацию, вплоть до инструкций по созданию взрывчатых веществ. После дополнительного обучения, уменьшенная модель перестала предоставлять небезопасные ответы.
«Бачу отметил, что речь не идёт о применении фильтров или создании внешних ограничений. По его словам, происходит изменение внутреннего представления модели, что позволяет ей вести себя надлежащим образом даже после внесения изменений».
В своей работе авторы обозначили свою методику как «доброжелательный взлом» – подход, позволяющий повысить устойчивость моделей до того, как их слабые места будут эксплуадированы злоумышленниками.
«Рой-Чоудхури подчеркнул, что предстоит выполнить значительный объем работы. Однако, это является важным этапом на пути к созданию искусственного интеллекта, сочетающего в себе принципы открытости и ответственности».
