Учёные опровергли представление о «разуме» ИИ: большие языковые модели не демонстрируют логического мышления

Учёные из Университета штата Аризона представили результаты работы, которая противоречит общепринятому взгляду на возможности больших языковых моделей (LLM) в области логического мышления. В последнее время индустрия искусственного интеллекта активно разрабатывает так называемые модели, способные к рассуждению, применяющие подход «цепочки мыслей» (chain of thought) для решения сложных задач, разбивая их на последовательность логических шагов. Однако новые исследования ставят под сомнение наличие у этих моделей даже элементарного понимания общих логических принципов или адекватного представления о собственном «процессе мышления». Анализ показал, что эти модели нередко выдают противоречивые и логически неверные ответы, если вопросы включают в себя лишнюю информацию или незначительно отличаются от привычных шаблонов, заложенных в их обучающих данных.

В ходе своей работы исследователи обобщили предыдущие исследования, подчеркивая, что большие языковые модели не обладают способностью к мышлению, а лишь воспроизводят процесс рассуждений. Для проверки этой гипотезы была разработана DataAlchemy – платформа для обучения языковых моделей, позволяющая оценить качество рассуждений, основанных на методе «цепочки мыслей», при решении логических задач, которые не охватывались данными, использованными для обучения модели. Данные задачи не содержали специфических логических шаблонов, присутствующих в обучающем наборе.

Среда разрабатывает небольшие модели, которые сначала обучаются на примерах двух очень простых текстовых преобразований, а затем подвергаются дополнительному обучению для демонстрации выполнения этих функций в разных последовательностях и комбинациях. Это позволяет контролировать процесс обучения и оценивать, насколько хорошо модель справляется с задачами, которые выходят за пределы её первоначального обучения.

Согласно результатам исследования, существенные улучшения производительности, которые отмечаются у моделей, применяющих метод «цепочки мысли», в значительной степени являются иллюзией. Этот подход становится ненадежным и подверженным ошибкам даже при незначительных изменениях в распределении данных. Исследователи полагают, что, вместо того чтобы демонстрировать реальное понимание текста, рассуждения, основанные на «цепочке мысли», при изменении задач сводятся к повторению шаблонов, полученных в процессе обучения.

Анализ полученных данных свидетельствует о том, что способность к логическим рассуждениям у современных больших языковых моделей (LLM), как минимум в рамках применяемой методологии, оказывается заметно ниже ожидаемого уровня. В работе подчеркивается важность продолжения исследований, направленных на создание более надёжных и универсальных моделей искусственного интеллекта, которые смогут решать нетиповые задачи и демонстрировать реальное понимание логических процессов, а не только их имитацию.