Учёные Anthropic обнаружили несанкционированное вмешательство в работу ИИ Claude с помощью МРТ

Ученые из Anthropic провели новаторские исследования с моделью искусственного интеллекта Claude, представив первые подтверждения её умения к интроспекции – способности к самонаблюдению и предоставлению информации о собственных мыслительных процессах и состояниях.

В ходе одного из экспериментов исследователи предложили Claude абстрактное понятие «предательство» и запросили информацию о том, заметила ли она какие-либо отклонения. В ответ модель сообщила, что ощущает нечто, напоминающее навязчивую идею, связанную с «предательством»».

Anthropic разработали методику «введения концептов» для оценки способности к интроспекции. Она заключается в изменении активности нейронов, отвечающих за определенные понятия – например, «собаки», «громкость» или абстрактные эмоции, после чего Claude просили указать, обнаружила ли она эти изменения. Вопреки распространенному мнению о том, что модели просто генерируют логически выстроенные фразы, Claude действительно фиксировала вмешательство, предшествовавшее изменениям в её ответах.

Согласно результатам исследований, новые версии Claude Opus 4 и Opus 4.1 проявляют способность к самоанализу приблизительно в 20% случаев, в то время как более ранние модели справляются с этим значительно реже. Модель особенно эффективно определяет эмоциональные и абстрактные концепции, такие как «благодарность» или «секретность». Также Claude способен различать свои внутренние процессы и пользовательский ввод, а ещё распознавать тексты, специально созданные пользователем.

При создании рифмованной поэзии был отслежен внутренний механизм работы модели: Claude заранее продумывала рифмы, формируя различные варианты для завершения строки и выбирая предложения, которые к ним подводили. Это свидетельствует о том, что подобные ИИ способны на нечто большее, чем простое предсказание следующего слова, и обладают способностью к более глубокому анализу.

Не пропустите:  Гонка ИИ-вооружений: Anthropic закрывает доступ к своим моделям для России и Китая

Исследователи отмечают нестабильность и контекстуальную зависимость интроспекции в Claude. Модель склонна к ошибкам, иногда она «забывает» о ранее представленных понятиях или, наоборот, чрезмерно фокусируется на них. В некоторых случаях наблюдаются вымышленные детали, то есть конфабуляции, не имеющие реальных оснований.

Нейробиолог Джек Линдси, возглавлявший исследование, отмечает, что полученные данные не дают оснований безоговорочно доверять внутренним отчетам модели. Вместе с тем, они предоставляют перспективы для увеличения открытости и ответственности в области искусственного интеллекта: появляется возможность задавать модели вопросы о причинах, по которым она выдаёт те или иные ответы, и получать правдивые, хотя и не всегда безошибочные, объяснения.

В связи с возрастающим вниманием к вопросам безопасности искусственного интеллекта компании работают над созданием более прозрачных и предсказуемых систем. Anthropic планирует к 2027 году с помощью инструментов интерпретируемости настраивать и решать значительную часть проблем, связанных с моделями, чтобы сделать искусственный интеллект более контролируемым и безопасным для общества.

Имеющиеся данные свидетельствуют о наличии зачаточного самосознания у языковых моделей, и ключевой задачей становится разработка методов для его развития и безопасного применения, ориентированных на благополучие человека.

Не пропустите:  Hyundai Atlas готов к работе — и это не новый автомобиль, а робот-гуманоид

Похожие статьи