OpenAI опубликовала результаты нового теста GDPval, который впервые был разработан для оценки соответствия возможностей ИИ-моделей уровню профессионалов в экономически важных сферах деятельности. В тестировании приняли участие 9 ключевых отраслей экономики США и 44 профессии, включая инженеров, юристов, медсестёр и журналистов.
GDPval предполагает, что эксперты оценивают и сопоставляют отчёты и рекомендации, сгенерированные человеком и искусственным интеллектом, выбирая наиболее удачные. В 40,6% случаев специализированная версия GPT-5-high была признана сопоставимой с экспертами или даже превосходящей их. Её конкурент, Anthropic Claude Opus 4.1, показал результат в 49% по аналогичному показателю, что было обусловлено более наглядной визуализацией графиков, хотя качество содержания не всегда соответствовало ожиданиям.
Специалисты OpenAI отмечают, что представленные результаты охватывают лишь ограниченный перечень задач, поэтому говорить о полной замене специалистов пока преждевременно. Вместе с тем, прослеживается тенденция повышения конкурентоспособности искусственного интеллекта в сложных рабочих процессах, что позволит работникам концентрироваться на творческих и стратегических задачах, передавая выполнение рутинных операций автоматизации и моделям.
OpenAI намеревается расширить программу тестирования, включив в неё больше профессий и сценарии, имитирующие реальные ситуации.
