Данные из социальных сетей оказывают негативное влияние на искусственный интеллект, вызывая эффект «гниения мозга»

Исследователи из Техасского университета в Остине, Техасского университета A&M и Университета Пердью опубликовали результаты работы, демонстрирующие, что большие языковые модели (LLM) при обучении на вирусном, неинформативном контенте из социальных сетей, проявляют снижение когнитивных способностей, включая понимание длинных текстов и соблюдение этических принципов.

Исследователи предложили гипотезу, получившую название «гипотеза деградации мозга LLM»: постоянное обучение на некачественных данных из интернета может приводить к устойчивому ухудшению когнитивных способностей модели. Чтобы проверить эту гипотезу, были использованы данные, полученные с платформы X (ранее Twitter): один набор состоял из популярных коротких сообщений с большим количеством отметок «нравится» и репостов, а другой – из объемных, содержательных текстов, отличающихся высокой информативностью.

Обучение моделей на полностью вирусных данных привело к неудовлетворительным результатам. Точность моделей по тесту ARC-Challenge уменьшилась с 74,9 % до 57,2 %, а по тесту RULER-CWE — с 84,4 % до 52,3. Замечено, что снижение точности не было случайным: модели стали реже выполнять промежуточные рассуждения, что авторы описали как «thought skipping».

Ситуация вызывает ещё большее беспокойство: даже после повторной настройки на качественные данные модели не смогли достичь первоначальных показателей. Специалисты связывают это с явлением «дрейфа» (representational drift) — изменениями в структуре модели, которые не поддаются коррекции с помощью обычных методов.

Не пропустите:  AMD Redstone впервые интегрирована в Call of Duty: Black Ops 7

Помимо ухудшения когнитивных способностей, модели показали сдвиг в «личностных» чертах: зафиксировано повышение баллов, отражающих нарциссические и психопатичные тенденции, и уменьшение готовности к взаимодействию.

Обучающие данные должны соответствовать не только формату, но и обеспечивать безопасность процесса обучения. Исследователи охарактеризовали эту ситуацию как «гигиена когнитивных функций» искусственного интеллекта, подразумевая, что данные для обучения моделей требуют проверки как с точки зрения соответствия формату, так и по содержанию.

Данное исследование затрагивает принципиальный вопрос: если большие языковые модели обучаются на данных, схожих с тем, что потребляет человек для развлечения (короткие, привлекающие внимание публикации, эмоциональные высказывания, вирусный контент), то это может привести к снижению их способности к логическому мышлению, запоминанию и этичному поведению. Понимание этого принципа необходимо как для теоретического изучения взаимодействия с искусственным интеллектом, так и для практической деятельности: начиная от автоматизированного обучения моделей на пользовательских данных и заканчивая проверкой рынков данных и платформ, генерирующих контент. Авторы предупреждают, что без принятия соответствующих мер система рискует превратиться в подобие «зомби-интернета», где ИИ будет воспроизводить некачественную информацию вместо содержательной».

Не пропустите:  Уже зафиксировано 16 пожаров: популярный производитель аксессуаров для iPhone — Belkin — отзывает с рынка портативные аккумуляторы

Похожие статьи