Яндекс разработал новую нейросеть TabM для обработки табличных данных.

Yandex Research представила новейшую нейронную сеть TabM для обработки табличных данных.

Разработка нашла применение на Kaggle — платформе для международных соревнований по анализу данных и машинному обучению от Google. Новую архитектуру использовали для предсказания выживаемости пациентов после трансплантации костного мозга.

Модель TabM (Табулярная DL-модель для выполнения нескольких предсказаний) представляет собой ансамбль моделей, где каждая отдельная модель выполняет собственный анализ, а затем прогнозы усредняются.

Тестирование на 46 наборах данных показало превосходство TabM над другими решениями: среднее место занимаемое TabM (1,7) меньше, чем у ближайшего конкурента (2,9), а также более стабильная работа, важная для практического применения. Объединение усилий нескольких подмоделей и эффективное использование вычислительных ресурсов позволяют TabM успешно конкурировать с классическими моделями градиентного бустинга — CatBoost, XGBoost, LightGBM — долгое время считавшимися лучшим решением для табличных данных.

Архитектура уже доступна разработчикам и исследователям на GitHub.