Яндекс улучшил обучение нейронных сетей

Специалисты Яндекса смогли улучшить процесс обучения больших языковых моделей (LLM) без ущерба для их качества и объёма. По информации, предоставленной компанией, оптимизация инфраструктуры позволила снизить операционные издержки и сэкономить 4,8 млрд рублей в год, или в среднем 400 млн рублей каждый месяц.

Значительный вклад внесла разработанная компанией библиотека YCCL (Yet Another Collective Communication Library), которая позволила увеличить скорость обмена данными между графическими процессорами вдвое и сократить объем передаваемой информации. Также управление было перенесено с графических процессоров на центральные. В Яндексе отметили:

Библиотека YCCL может функционировать в больших кластерах, подобных системам, используемым лидерами мировой индустрии – Meta*, AMD и крупными китайскими компаниями в сфере информационных технологий.

Переход на формат FP8 с меньшей точностью вычислений позволил повысить эффективность, ускорив процесс обучения моделей на 30% и уменьшив объем коммуникаций вдвое. Использование батчей, содержащих от 16 до 32 млн токенов, позволило Яндексу обучать модели без перерывов в работе графических процессоров. Кроме того, компания повысила надежность IT-инфраструктуры, сократив количество аппаратных сбоев и затраты, связанные с необходимостью перезапуска обучения. Оптимизации были внесены как в программный код, так и в архитектурные решения, что в целом улучшило функциональность системы.

Не пропустите:  Никаких 60 или хотя бы 40 Вт. iPhone 17 Pro Max принимает максимум 36 Вт при зарядке с помощью адаптеров Apple

* В Российской Федерации компания Meta, объединяющая социальные сети Facebook и Instagram, была признана экстремистской организацией и запрещена к деятельности.

Похожие статьи