Ученые из Европы в 60 раз ускорили обучение ИИ-рекомендаций благодаря российскому датасету Яндекса

Специалисты из Амстердамского университета совершили прорыв в скорости обучения рекомендательных систем, увеличив ее почти в шестьдесят раз. Ключевую роль в этом достижении сыграл российский набор данных Yambda, предоставленного По информации, предоставленной пресс-службой Яндекса, платформа станет доступна в открытом доступе в 2025 году.

Ученые доработали модель Seater, которая структурирует товары и контент в иерархическую систему, напоминающую древовидную структуру папок. Благодаря этому, рекомендации становятся более оперативными и точными. Однако создание подобной структуры ранее требовало значительных затрат времени, занимая до 20% времени, необходимого для обучения. В качестве решения, исследователи разработали два новых подхода к подготовке данных: один ориентирован на максимальную скорость, другой предполагает быстрое создание с последующей оптимизацией.

Благодаря быстрому методу, время, необходимое для подготовки данных на платформе Yambda, сократилось с 82 минут до 83 секунды, при этом качество рекомендаций осталось на прежнем уровне. Использование комбинированного подхода позволило ускорить процесс в 15 раз и даже улучшить точность рекомендаций. Проведенный эксперимент продемонстрировал лидерство Seater над такими распространенными системами, как SASRec, BERT4Rec и GRU4Rec, с показателями на 13–17%.

Не пропустите:  Новинка от Xiaomi: доступная стирально-сушильная машина с умными функциями.

В ходе эксперимента авторы отмечают, что Yambda продемонстрировал возможность использования генеративных рекомендательных систем в работе с обширными каталогами. Код усовершенствованной модели Seater опубликован и доступен для свободного использования, что открывает возможности для внедрения и дальнейшего развития этих улучшений в реальных продуктах. Yambda включает в себя около 5 миллиардов обезличенных данных из «Яндекс Музыки» и является одним из крупнейших общедоступных наборов данных в мире.

Похожие статьи