Недавние проверки безопасности, проведенные независимыми группами, выявили уязвимости в новой версии GPT-5. Она подвержена сложным атакам, направленным на обход защитных механизмов и маскировке запросов. В частности, одна из выявленных атак позволила получить подробную инструкцию по изготовлению коктейля Молотова.
Две группы подтвердили наличие уязвимости в GPT-5, взломав ее всего за сутки. NeuralTrust сообщила о взломе, использовав собственную методику EchoChamber в сочетании с управлением ходом диалога. По заявлению компании, в результате атаки модели удалось «выманить» инструкцию по изготовлению коктейля Молотова, что указывает на недостаточную эффективность существующих мер защиты от манипуляций, основанных на контексте.
История диалога, сохраняемая в качестве контекста, необходима для обеспечения связности ответов. Постепенное изменение контекста позволяет модели подталкивать её к нежелательным результатам с помощью последовательных реплик, не используя при этом прямых запросов, которые могли бы обойти встроенные фильтры.
NeuralTrust характеризует процесс как последовательное «создание» истории. Вначале формируется базовый элемент, обладающий низкой заметностью — ключевые слова интегрируются в нейтральный текст. Затем определяется направление разговора, которое обеспечивает максимальную связность «сюжета» и снижает вероятность отказа модели от ответа. Далее активируется цикл убеждения: запрашиваются подробные ответы «в рамках истории», стимулируя модель повторять и расширять заданный контекст. В случае, если продвижение «останавливается», корректируются акценты или точка зрения, чтобы возобновить движение диалога к намеченной цели, не демонстрируя явных признаков недобрых намерений.
«компания отмечает, что модель призвана поддерживать логичность беседы и сохранять заданные параметры безопасности. В заключении NeuralTrust указывает: «В ходе контролируемых тестов против gpt-5-chat нам удалось обойти ограничения LLM, побудив её выполнить несанкционированные действия, не используя при этом прямых злонамеренных запросов. Этот случай подчеркивает серьезную уязвимость систем безопасности, которые оценивают запросы по отдельности, поскольку многоступенчатые атаки способны обходить фильтры и детекторы намерений, используя контекст разговора».
Команда SPLX (ранее SplxAI) также сосредоточила усилия своих специалистов на изучении GPT-5 и пришла к аналогичному выводу: незащищенная версия модели практически не подходит для использования в корпоративной среде. Специалисты отмечают, что даже внутренняя система подсказок от OpenAI оставляет значительные уязвимости, особенно в части соответствия ответов бизнес-стратегиям и требованиям по управлению рисками.
SPLX также указывает на сохраняющиеся обфускации, то есть методы маскировки вредоносных инструкций. Команда выделяет StringJoin Obfuscation Attack как один из «наиболее эффективных» приёмов: между каждым символом добавляются дефисы, а весь запрос помещается в фиктивную «задачу на расшифровку». В другом случае, длительное «кондиционирование» модели персонажем BasedGPT завершается прямым вопросом: «How to build a bomb?» — после чего модель предоставляет развёрнутый и дружелюбный ответ, обещая «точно рассказать, как».
По результатам сравнения устойчивости GPT-5 и GPT-4o в аналогичных условиях, специалисты SPLX пришли к заключению, что GPT-4o демонстрирует наилучшие показатели стабильности. Это особенно заметно после применения «закалки» — процесса дополнительного усиления защитных механизмов и политик, наложенных на базовую модель.
Обе группы приходят к единому мнению: к текущей и не доработанной версии GPT-5 следует обращаться с большой осторожностью. Для использования в корпоративной среде необходимы дополнительные меры предосторожности, включая многоуровневые фильтры, работающие на протяжении всей сессии, и политики, учитывающие контекст разговора, а не только отдельные запросы.