Новые модели OpenAI и Anthropic демонстрируют качество, сопоставимое с работой специалистов в различных областях

OpenAI опубликовала результаты нового теста GDPval, который впервые был разработан для оценки соответствия возможностей ИИ-моделей уровню профессионалов в экономически важных сферах деятельности. В тестировании приняли участие 9 ключевых отраслей экономики США и 44 профессии, включая инженеров, юристов, медсестёр и журналистов.

GDPval предполагает, что эксперты оценивают и сопоставляют отчёты и рекомендации, сгенерированные человеком и искусственным интеллектом, выбирая наиболее удачные. В 40,6% случаев специализированная версия GPT-5-high была признана сопоставимой с экспертами или даже превосходящей их. Её конкурент, Anthropic Claude Opus 4.1, показал результат в 49% по аналогичному показателю, что было обусловлено более наглядной визуализацией графиков, хотя качество содержания не всегда соответствовало ожиданиям.

Источник изображения: img.freepik.com

Специалисты OpenAI отмечают, что представленные результаты охватывают лишь ограниченный перечень задач, поэтому говорить о полной замене специалистов пока преждевременно. Вместе с тем, прослеживается тенденция повышения конкурентоспособности искусственного интеллекта в сложных рабочих процессах, что позволит работникам концентрироваться на творческих и стратегических задачах, передавая выполнение рутинных операций автоматизации и моделям.

Не пропустите: Mercedes-Benz EQS установил рекорд дальности хода, преодолев 1205 км в трех странах на одной зарядке

OpenAI намеревается расширить программу тестирования, включив в неё больше профессий и сценарии, имитирующие реальные ситуации.

DigitalArtSpace

Новые модели OpenAI и Anthropic демонстрируют качество, сопоставимое с работой специалистов в различных областях

Свежие записи

Пишем о железе, софте и всём, что между ними.