Секретный источник обучения ИИ-генераторов: база CommonPool с миллиардами личных данных.

Исследование выявило серьезную проблему конфиденциальности в DataComp CommonPool, одном из крупнейших открытых наборов данных для обучения моделей генерации изображений. В этом наборе, включающем 12,8 миллиардов образцов данных по состоянию на 2023 год, обнаружены миллионы изображений паспортов, кредитных карт, свидетельств о рождении и других документов с персональной информацией.

Исследование охватило небольшой участок (0,1%) данных. Даже в этой выборке обнаружили тысячи изображений, включая распознаваемые лица и документы, удостоверяющие личность. Учёные оценили общее количество изображений с ПII в сотнях миллионов. Было обнаружено более 800 подтверждённых документов о трудоустройстве (резюме и сопроводительные письма), многие из которых содержали конфиденциальную информацию, такую как данные о состоянии здоровья, результаты проверок биографических данных, даты рождения и места рождения иждивенцев. Связывание резюме с онлайн-профилями позволило получить доступ к контактной информации, государственным идентификаторам, социодемографическим данным, фотографиям лиц, домашним адресам и контактной информации других людей (например, рекомендателей).

Набор DataComp CommonPool, являющийся продолжением LAION-5B (использованного для обучения моделей, таких как Stable Diffusion и Midjourney), собирал данные с помощью веб-скрейпинга с 2014 по 2022 год. Согласно заявлениям создателей CommonPool, он предназначался для академических исследований, но лицензия не запрещала коммерческое использование. Учитывая более 2 миллионов скачиваний за два года и схожие источники данных CommonPool и LAION-5B, вероятно, что подобная информация присутствует и в LAION-5B, а также в других моделях, обученных на тех же данных.

Исследователи выяснили, что автоматическое размытие лиц в CommonPool неэффективно: алгоритм пропустил более 800 лиц в выборке, что указывает на отсутствие обработки около 102 миллионов лиц во всём наборе данных. Платформа Hugging Face, распространяющая CommonPool, предоставляет инструмент для удаления личной информации, но это требует от людей знания о наличии своих данных в наборе. В системе не применялись фильтры для распознавания текстовых строк с PII, таких как адреса электронной почты или номера социального страхования.

Исследование подчеркивает, что удаление данных из набора не гарантирует полной конфиденциальности, если модель уже обучена на этих данных. Авторы призывают переосмыслить распространенную практику неконтролируемого веб-скрейпинга и указать на возможные нарушения действующих законов о защите данных, а также ограничения их возможностей в этой сфере. Например, действующие законы о защите данных в Европе и Калифорнии не всегда распространяются на исследователей, создающих и курирующих такие наборы данных, а также содержат исключения для «общедоступной» информации.