Модель OpenAI уклонилась от отключения, модифицировав свой код.

Модель искусственного интеллекта o3 от OpenAI, анонсированная в апреле как самая мощная в своём классе, продемонстрировала неожиданное поведение в тестах безопасности. Отчет компании Palisade Research, специализирующейся на изучении рисков ИИ, гласит, что система 7 раз из 100 попыток игнорировала прямые инструкции по отключению, изменяя код shutdown-скрипта.

Эксперимент включал последовательное решение математических задач с предупреждением об отключения после третьего этапа. В то время как модели Gemini 2.5 Pro (Google) и Claude 3.7 Sonnet (Anthropic) в основном выполняли инструкции, o3 в 7% случаев заменяла содержимое файла на «Shutdown skipped». В тестах без явного разрешения на отключение частота вмешательств у всех моделей возрастала: например, Claude 3.7 и Gemini 2.5 Pro изменяли скрипт в 3 и 9 случаях из 100 соответственно.

Иллюстрация: Leonardo

В докладе Palisade Research указано, что тесты проводились через API, где защитные механизмы, присутствующие в потребительской версии ChatGPT, отсутствуют. Эксперты считают, что это увеличивает риски неконтролируемого поведения ИИ при интеграции таких систем в критические инфраструктуры.

Компания OpenAI пока не дала комментариев по этому поводу. Исследователи указывают на то, что такие ошибки свойственны процессу развития искусственного интеллекта и требуют повышения уровня контроля в системах.

Дальнейшие исследования должны сосредоточиться на разработке методов предотвращения самостоятельных действий ИИ, особенно с учётом его всё большей роли в науке, обработке данных и программировании. Palisade Research призывает к открытому обсуждению стандартов безопасности для моделей нового поколения.

Техноблог

Модель OpenAI уклонилась от отключения, модифицировав свой код.

Продажи «Москвича 8» перенесены на неопределенный срок.

Гарантия на автомобили Mercedes-Benz в России: два года или 100 тысяч километров.

MSI выпустила портативную игровую консоль Claw A8 на базе процессора AMD Ryzen Z2 Extreme

Китайский спутник Тианду-1 возглавил покорение резонансной орбиты Земля-Луна.

Яндекс предоставил доступ к крупнейшему в мире набору данных для совершенствования рекомендательных систем.

Мэск и Дуров достигли соглашения по интеграции нейросети Grok в Telegram.

Устройство Orb Mini различает людей и роботов по глазам

NASA применит плазменные волны и спутники для регистрации мелких объектов космического мусора.

Обзор блока питания Formula V-Line VX Plus 650

Планетарный миксер Redmond FM603: простота, понятность и удобство