Яндекс предоставил доступ к крупнейшему в мире набору данных для совершенствования рекомендательных систем.

В Яндексе опубликовали открытый набор данных Yambda (YAndex Music Billion-interactions DAtaset), один из крупнейших в мире для обучения систем рекомендаций. С его помощью учёные, исследователи и университеты смогут тестировать и совершенствовать алгоритмы предсказания предпочтений пользователей.

Сгенерировано нейросетью Dall-E

Датасет выпускается в трёх версиях: полная версия включает 5 миллиардов данных, уменьшенные версии — 500 миллионов и 50 миллионов. Разработчики и исследователи могут выбрать подходящий вариант в зависимости от задачи и имеющихся вычислительных ресурсов. Данные датасета и код для измерений доступны на… HuggingFace.

Yambda разработан с использованием обезличенных данных «Яндекс Музыки», самого крупного подписного музыкального сервиса в России. В Яндексе отметили, что его можно применять для оценки качества любых систем рекомендаций, так как основаны главные алгоритмы общего назначения.

Yambda использует агрегированные прослушивания, оценки «нравится» и «не нравится», а также некоторые характеристики музыкальных композиций. Все данные о пользователях и треках анонимизированы: набор данных содержит только числовые идентификаторы, что гарантирует конфиденциальность.