Обучение ИИ стало быстрее вдвое благодаря оптимизации использования графических процессоров

Тренировка больших языковых моделей требует значительных финансовых вложений. Помимо необходимого количества графических процессоров, ключевым фактором является эффективность их использования. При увеличении масштаба моделей даже незначительные потери времени и энергии могут привести к существенным расходам.

Согласно заявлению группы исследователей из Массачусетского технологического института, совместно работавших с NVidia и другими компаниями, разработан инновационный метод, позволяющий более эффективно использовать вычислительные мощности в процессе обучения, что в определенных ситуациях приводит к сокращению времени обучения почти вдвое.

Задача, которую они решают, связана с обучением с подкреплением (RL), в особенности с этапом «внедрения». На данном этапе модель формирует различные варианты ответов, чтобы определить, какие действия наиболее эффективны. Это критически важно для моделей обучения с подкреплением, предназначенных для рассуждений, однако этот процесс достаточно длительный.

На практике время, затрачиваемое на этап развертывания, может достигать 85% от общего времени выполнения задачи. Это объясняется явлением, которое исследователи описывают как «распределение с длинным хвостом» по продолжительности ответов. Хотя большинство сгенерированных ответов формируются достаточно быстро, незначительная их часть требует значительно больше времени, чем среднее значение. Из-за необходимости синхронизации графических процессоров, более быстрые из них вынуждены приостанавливать свою работу в ожидании завершения процессов, которые выполняются дольше.

Разработка специалистов из Массачусетского технологического института, известная как Taming the Long Tail (TLT), непосредственно направлена на устранение проблемы нерационального расходования ресурсов. Вместо того чтобы позволять графическим процессорам бездействовать в течение продолжительного времени, TLT задействует это время простоя для обучения упрощенной «черновой» модели в процессе работы. Эта уменьшенная модель постоянно совершенствуется на основе основной, по мере ее обучения.

Не пропустите:  В Россию поставлена новая партия Volkswagen Tiguan

Данная концепция базируется на спекулятивном декодировании – подходе, при котором меньшая модель прогнозирует токены до основной, что обеспечивает возможность параллельной проверки нескольких токенов. В обычном спекулятивном декодировании используется фиксированная черновая модель, которая быстро теряет актуальность в процессе обучения основной модели с подкреплением. TLT изменяет эту закономерность. Эксперименты, проведенные с использованием нескольких моделей, обученных с логической ориентацией, и реальных наборов данных, продемонстрировали существенные улучшения. Авторы сообщают об ускорении обучения от 70% до 210% по сравнению с продвинутыми базовыми моделями, что во многих случаях позволяет увеличить скорость обучения вдвое. При этом точность модели не пострадала.

Похожие статьи