Исследование некоммерческой группы METR (Model Evaluation & Threat Research) подрывает утверждения о повышении производительности разработчиков программного обеспечения с помощью инструментов на основе ИИ, как Cursor и GitHub Copilot. В эксперименте с участием 16 опытных программистов, решавших 246 задач в реальных репозиториях, получены неожиданные результаты.
Исследователи предполагали, что применение инструментов ИИ сократит время выполнения задач на 24%, но в реальности использование инструментов, таких как Cursor Pro (который был доступен примерно половине участников), привело к увеличению времени выполнения на 19%. Это означает, что разработчики работали медленнее при использовании ИИ-инструментов.
Интересно, что лишь 56% участников имели опыт взаимодействия с Cursor, главным инструментом ИИ в исследовании. Почти все разработчики (94%) работали с веб-ориентированными большими языковыми моделями (LLM) в своей работе, но для некоторых это исследование стало первым опытом с Cursor. Несмотря на прошедшее обучение, результаты оказались неожиданными.
Разработчики работали медленнее из-за необходимости формулировать запросы к ИИ и ожидать его ответа. Интеллектуальная система также сталкивалась с трудностями при обработке больших и сложных баз данных, используемых в эксперименте.
Авторы исследования подчеркивают, что полученные результаты не следует трактовать как полное отрицание преимуществ инструментов искусственного интеллекта. Учёные признают существование других масштабных исследований, показывающих повышение производительности разработчиков при использовании таких инструментов. Отмечается также быстрый прогресс в области ИИ и вероятность получения других результатов уже через три месяца. METR подтверждает значительное улучшение способностей ИИ-инструментов к выполнению сложных задач за последние годы.
Исследование предлагает дополнительный повод для сомнений в заявленных преимуществах инструментов кодирования с использованием искусственного интеллекта.
Известно, что подобные инструменты могут допускать ошибки и даже создавать уязвимости безопасности. В связи с этим, несмотря на обещания повышения производительности, результаты исследования показывают, что разработчикам не следует ожидать мгновенного ускорения работы при использовании инструментов ИИ.