Alibaba нашла способ снизить затраты на ускорители при работе с большими языковыми моделями

Реализация проектов, основанных на искусственном интеллекте, сопряжена с необходимостью использования значительных вычислительных ресурсов. Для этого требуются специализированные ускорители или, как минимум, графические процессоры. Сотрудники компании Alibaba, по всей видимости, разработали метод, позволяющий существенно уменьшить число используемых графических процессоров.

Alibaba Cloud сообщила о том, как её новая система пулов Aegaeon позволяет значительно уменьшить число графических процессоров Nvidia, требуемых для работы с большими языковыми моделями. В частности, потребность в них сокращается на впечатляющие 82%.

Источник изображения: img.freepik.com

Aegaeon – это инструмент для планирования вывода, созданный для оптимальной загрузки графических процессоров в системах, где наблюдаются пиковые или непредсказуемые нагрузки. Вместо стандартной привязки одного ускорителя к конкретной модели, Aegaeon виртуализирует доступ к графическим процессорам на уровне токенов, что позволяет распределять небольшие задачи в общем ресурсе.

С точки зрения практического применения, ускоритель H20 (который был выбран авторами для демонстрации) способен поддерживать работу нескольких разных моделей одновременно, что позволяет увеличить общую производительность системы в девять раз по сравнению с предыдущими бессерверными решениями.

Не пропустите: Крупнейший за год астероид приблизится к Земле 14 февраля

В течение нескольких месяцев система проходила тестирование в реальных производственных условиях. В результате удалось уменьшить число графических процессоров, требуемых для работы с десятками различных LLM-моделей, объем которых достигает 72 миллиарда параметров. Количество графических процессоров снизилось с 1192 до 213, что составляет сокращение в пять с половиной раза.

Не определено, затронет ли эта экономия области за пределами инфраструктуры Alibaba. В документации Alibaba Cloud отсутствует подробное описание сетевой архитектуры, примененной во время бета-тестирования, однако известно, что компания предлагает собственную сеть RDMA под названием eRDMA и обладает опытом разработки комплексных платформ для обслуживания графических процессоров.

DigitalArtSpace

Alibaba нашла способ снизить затраты на ускорители при работе с большими языковыми моделями

Свежие записи

Пишем о железе, софте и всём, что между ними.