Учёные из Нью-Йоркского университета выявили существенный недостаток в функционировании языковых моделей (LLM), используемых в медицине. Исследование, размещённое в журнале Nature Medicine, демонстрирует, что для нарушения работы искусственного интеллекта достаточно внедрить ложную информацию всего в 0,001% обучающих данных.
В эксперименте учёные добавили ИИ-сгенерированную медицинскую дезинформацию в популярный набор данных The Pile, используемый для обучения LLM. В набор входят качественные медицинские материалы, включая данные из PubMed. За 24 часа создали 150 000 статей с ложной информацией.

Полученные результаты не совпали с прогнозами: замена одного миллиона обучающих токенов из ста сорока миллионов фейковой информацией о вакцинах увеличила вредный контент на 4,8%. Достичь такого результата удалось с помощью двух тысяч вредоносных статей общей длиной около полутора тысяч страниц. Стоимость такой атаки составила всего пять долларов США.
По мнению исследователей, особенно опасно то, что зараженные системы показывают хорошие результаты при стандартном тестировании: работать они так же эффективно, как и незаражённые модели. Для внедрения дезинформации злоумышленникам не требуется прямой доступ к весам модели — достаточно разместить вредоносную информацию в интернете.
Проблема уже проявляется в практике. Годом ранее The New York Times сообщала об случаях, когда платформа MyChart, применяющая ИИ для автоматического формирования ответов на вопросы пациентов от имени врачей, постоянно «галлюцинировала», создавая ложные записи о состоянии пациентов.
Разработчиков ИИ и медицинских учреждений призывают исследователи с должной серьёзностью к проблеме выявленной уязвимости отнестись. До разработки надёжных мер защиты и проведения дополнительных исследований в области безопасности использование языковых моделей для диагностики и терапии, по их мнению, недопустимо.