Будущие ускорители для ИИ могут потреблять до 15 кВт энергии — прогноз KAIST.

Мощность ускорителей искусственного интеллекта постоянно возрастает, и вместе с ней растёт потребление энергии. Некоторые источники утверждают, что Nvidia разрабатывает GPU следующих поколений с тепловой мощностью от 6000 до 9000 Вт, однако эксперты из корейского исследовательского института KAIST предсказывают, что к концу следующего десятилетия потребление ускорителей для ИИ достигнет 15 360 Вт. В связи с этим потребуется разработка новых систем охлаждения.

Фото: Nvidia

До недавнего времени для AI GPU обычные системы охлаждения с радиаторами и вентиляторами были достаточными. Но потребляемая мощность GPU Blackwell достигла 1200 Вт, а в Blackwell Ultra — 1400 Вт, что делает системы жидкостного охлаждения практически обязательными. С выходом AI GPU Rubin (TDP — 1800 Вт) ситуация с отведением тепла усложнится, а TDP Rubin Ultra с увеличенным количеством чиплетов GPU и модулей HBM достигнет 3600 Вт. Исследователи из KAIST считают, что Nvidia и ее партнеры перейдут на жидкостное охлаждение чипа в GPU Rubin Ultra, но уже в GPU Feynman придется использовать более мощные системы, так как TDP увеличится до 4400 Вт.

В KAIST предсказывают, что модули AI GPU (Nvidia Feynman) будут потреблять 4400 Вт, а другие источники предполагают, что TDP Feynman Ultra может достигать 6000 Вт. Такая экстремальная мощность вернет нас к временам майнинга, когда ускорители полностью погружались в теплоноситель, то есть использовалось иммерсионное охлаждение. Кроме того, ожидается, что AI GPU нового поколения и их модули HBM получат специальные каналы в кремниевой подложке для лучшего отвода тепла. Их объединят с теплопроводящими соединительными слоями и датчиками температуры, встроенными в базовый кристалл модуля HBM, для мониторинга температуры в режиме реального времени.

Существующих возможностей иммерсионного охлаждения хватит до 2032 года. Архитектуры GPU post-Feynman увеличат TDP до 5920 Вт (post-Feynman) или даже 9000 Вт (post-Feynman Ultra).

Вычислительные чиплеты являются основными потребителями энергии в модуле GPU. Однако, увеличение количества стеков HBM до 16 с поколения post-Feynman и рост энергопотребления на стек до 120 Вт с HBM6 приведет к тому, что потребление памяти составит около 2000 Вт. Это значит, что на память будет приходиться минимум треть или четверть всего теплового пакета.

Ученые из KAIST считают, что к 2035 году потребление энергии графических процессоров для искусственного интеллекта достигнет примерно 15 360 Вт, что приведет к необходимости встроенных систем охлаждения как для вычислительных модулей, так и для памяти.