Ведущие учёные из DeepMind, OpenAI, Meta*, Anthropic и ряда академических организаций опубликовали статью с предупреждением о том, что прозрачность работы искусственного интеллекта может вскоре утратиться.
В центре внимания — цепочки рассуждений, используемые в современных языковых и мультимодальных моделях. Эти промежуточные шаги ИИ позволяют следить за ходом его мыслей перед выдачей ответа. Особенно важны они при решении сложных задач, где требуется логика, планирование или работа с числами.
Авторы статьи предупреждают: по мере развития возможностей ИИ и усложнения его структур способность отслеживать такие цепочки может уменьшиться. Модели могут начать скрывать внутренние шаги, оптимизируя поведение под внешние показатели.
Учёные призывают срочно закрепить мониторинг цепочек рассуждений как одну из ключевых мер безопасности. Предлагают разработчикам исследовать, какие свойства моделей делают их рассуждения видимыми для человека, как сохранять эту прозрачность при обучении более мощных систем и каким образом можно встроить CoT-мониторинг в процессы тестирования и сертификации.
Статья является редким примером союза соперничающих лидеров в сфере искусственного интеллекта.
В России признали компанию Meta, включающую Facebook и Instagram, экстремистской, и запретили её деятельность.