Учёные из Института астрофизики имени Лейбница в Потсдаме и Института космических наук Барселонского университета разработали новую модель машинного обучения для обработки данных по 217 миллионам звёзд, наблюдавшихся миссией Gaia. Такой подход даёт новые возможности для изучения свойств звёзд и улучшения понимания структуры Млечного Пути.
Третий выпуск данных миссии Gaia Европейского космического агентства предоставил астрономам улучшенные измерения 1,8 миллиарда звёзд для исследования Млечного Пути. Эффективный анализ такого большого объёма данных представляет серьёзную проблему. В исследовании учёные изучали применение машинного обучения для оценки ключевых свойств звёзд с помощью спектрофотометрических данных обсерватории Gaia.
Модель, обученная на данных об 8 миллионах звёзд, выдаёт достоверные прогнозы с малыми погрешностями. Результат опубликован в журнале «Astronomy & Astrophysics».
Новая технология, называемая деревьями с экстремальным градиентным усилением, позволяет с невероятной точностью определять характеристики звёзд, такие как температура, химический состав и затенение межзвёздной пылью. Разработанная модель машинного обучения SHBoost справляется со своими задачами, включая обучение модели и прогнозирование, за четыре часа на одном графическом процессоре. Раньше такой процесс занимал две недели и требовал 3000 высокопроизводительных процессоров, указывает Арман Халатян из AIP и главный автор исследования.
Этот метод машинного обучения существенно уменьшает затраты времени на вычисления, энергопотребление и выбросы CO2. Это первая реализация данного метода для звёзд всех типов за одно время.

Модель обучается на высококачественных спектроскопических данных из небольших наборов и затем применяет полученные знания к третьему большому выпуску данных Gaia (DR3). Для извлечения ключевых параметров модель использует только фотометрические и астрометрические данные, а также спектры Gaia XP низкого разрешения.
Высокое качество результатов уменьшает потребность в дополнительных затратных спектроскопических наблюдениях при поиске перспективных кандидатов для дальнейших исследований, таких как звёзды с низким или высоким содержанием редких металлов, которые важны для понимания самых ранних этапов формирования Млечного Пути.
Этот метод важен для подготовки будущих наблюдений с использованием многообъектной спектроскопии. К примеру, это относится к проекту 4MIDABLE-LR — крупномасштабному исследованию Галактического диска и балджа, которое войдет в проект 4MOST в Европейской южной обсерватории (ESO) в Чили.
Новый подход даёт обширные карты общего химического состава Млечного Пути, подтверждающие распределение молодых и старых звёзд. Данные показывают концентрацию богатых металлами звёзд во внутренних областях галактики, включая перемычку и балдж, с большой статистической мощностью, — добавляет Фридрих Андерс из ICCUB.
Команда применяла модель для составления карты молодых, массивных горячих звёзд во всей галактике. Это позволило выявить удалённые и малоизученные области формирования звёзд. Данные показывают также наличие «пустот» в Млечном Пути — областей с очень низкой концентрацией молодых звёзд. Помимо этого, данные уточняют трёхмерное распределение межзвёздной пыли.
Gaia собирает данные, и благодаря способности моделей машинного обучения быстро обрабатывать большие объемы информации, они становятся важным инструментом для будущих астрономических исследований. Этот подход демонстрирует потенциал машинного обучения для анализа больших данных в астрономии и других научных областях, способствуя более устойчивым методам исследований.