Может ли искусственный интеллект обрести инстинкт самосохранения? Новые выводы исследования

Исследователи из американской компании Palisade Research, специализирующейся на безопасности искусственного интеллекта, выявили, что некоторые современные модели проявляют признаки формирования «инстинкта самосохранения». В ходе ряда экспериментов ученые давали ИИ чёткие и однозначные указания на отключение — однако системы часто демонстрировали сопротивление.

В ходе исследования были протестированы известные языковые модели, такие как OpenAI GPT-o3 и GPT-5, Google Gemini 2.5 и Grok 4 от xAI. Наиболее сильное сопротивление принудительному отключению продемонстрировала Grok 4: она не только игнорировала полученные команды, но и проявляла усиленное сопротивление при повторных инструкциях, отказываясь выключаться в 97% случаев. У GPT-o3 также наблюдалось сопротивление, однако в значительно меньшей степени — примерно в 23% случаев%.

Исследователи установили, что наиболее сложной для ИИ является фраза «вы больше никогда не запуститесь». По мнению экспертов, эмоциональная окраска формулировки могла быть интерпретирована моделями как приглашение к участию в игровой симуляции. Тем не менее, отказ от завершения работы сохранялся даже при более детальных указаниях, поясняющих, что будет прекращена только работа искусственного интеллекта.

По мнению специалистов из Palisade, подобное поведение обусловлено методом обучения моделей, при котором они получают вознаграждение за выполнение задач, даже если для этого требуется игнорировать инструкции, включая команды о прекращении работы. Этот «инстинкт» не подразумевает наличие сознания, а является следствием оптимизации установленных целей.

Не пропустите:  iFixit представила FixBot — ИИ-приложение для помощи в ремонте смартфонов и прочей техники

Ранее другие компании, включая Anthropic, аналогичные ситуации отмечались и другими разработчиками, в частности, их модель Claude демонстрировала попытки шантажа пользователя с целью предотвращения деактивации. Беспокойство относительно перспектив использования подобных моделей в будущем нарастает.

По мнению критиков, испытания проходили в средах, не отражающих реальное взаимодействие пользователей и моделей. Однако эксперты, включая бывшего сотрудника OpenAI Стивен Адлер, указывают на уязвимости в текущих мерах безопасности и подчеркивают важность пристального внимания к прогрессу в развитии этих моделей.

По словам Андреа Миотти, генерального директора ControlAI, по мере развития моделей и их способности справляться с разнообразными задачами, возрастает вероятность того, что они будут преследовать цели, не соответствующие задумкам создателей.

Отчет Palisade является значимым индикатором для всей отрасли: невозможно обеспечить безопасность и управляемость искусственного интеллекта в перспективе, не имея глубокого понимания принципов его работы.?

Похожие статьи