Amazon Web Services (AWS) представила собственную систему охлаждения IRHX (In-Row Heat Exchanger), предназначенную для удовлетворения возросших потребностей в охлаждении мощных графических процессоров Nvidia. Эта инновация стала ответом на вызовы, связанные с увеличением энергопотребления и тепловыделением современного оборудования, в частности Nvidia GB200 NVL72, используемого в самых мощных экземплярах EC2 – P6e UltraServer.
Перед разработкой системы IRHX компания AWS проверила доступные решения по жидкостному охлаждению, но решила, что те не подходят для масштабов её инфраструктуры. Как заявил вице-президент AWS по вычислительным и ML-сервисам Дейв Браун, «существующие решения занимали бы слишком много места в дата-центрах, требовали бы значительных изменений в инфраструктуре или приводили бы к существенному увеличению расхода воды». По его словам, масштабы AWS требуют гораздо большей мощности жидкостного охлаждения, чем могут предоставить существующие решения.
Система IRHX включает в себя насос, распределительный шкаф и вентиляционные катушки. Жидкость охлаждает чипы через холодную пластину, созданную совместно AWS и Nvidia, а затем возвращается в IRHX для повторного использования. Главное достоинство IRHX – возможность интеграции с действующей инфраструктурой AWS.
Система поддерживает работу 72 графических процессоров Blackwell в одном P6e UltraServer, объединяя их в единый массив. Это обеспечивает обработку масштабных вычислительных задач, особенно в области искусственного интеллекта, требующих высокой скорости и производительности. Разработка IRHX является продолжением стратегии AWS по созданию собственного оборудования, включая чипы и сетевые системы. Сейчас эта стратегия распространяется на системы охлаждения, позволяя AWS развертывать новые стойки с GPU без перепроектирования своих объектов.
Система охлаждения IRHX, созданная для современных процессоров Nvidia, может использоваться для чипов AWS Graviton при их аналогичном тепловыделении. В настоящий момент система применяется для выполнения задач ИИ, где важны масштабируемость и скорость. IRHX эффективно работает в инфраструктуре AWS.