Yandex Research представила новейшую нейронную сеть TabM для обработки табличных данных.
Разработка нашла применение на Kaggle — платформе для международных соревнований по анализу данных и машинному обучению от Google. Новую архитектуру использовали для предсказания выживаемости пациентов после трансплантации костного мозга.
Модель TabM (Табулярная DL-модель для выполнения нескольких предсказаний) представляет собой ансамбль моделей, где каждая отдельная модель выполняет собственный анализ, а затем прогнозы усредняются.
Тестирование на 46 наборах данных показало превосходство TabM над другими решениями: среднее место занимаемое TabM (1,7) меньше, чем у ближайшего конкурента (2,9), а также более стабильная работа, важная для практического применения. Объединение усилий нескольких подмоделей и эффективное использование вычислительных ресурсов позволяют TabM успешно конкурировать с классическими моделями градиентного бустинга — CatBoost, XGBoost, LightGBM — долгое время считавшимися лучшим решением для табличных данных.
Архитектура уже доступна разработчикам и исследователям на GitHub.