Общая информация о GeForce RTX 5080
Графическая архитектура Nvidia Turing стала новой эрой графики реального времени, внеся аппаратную трассировку лучей и ускорение искусственного интеллекта в игровую графику и профессиональное ПО. В последующих архитектурах Ampere и Ada Lovelace эти возможности были обновлены: улучшены тензорные и RT-ядра, расширены возможности DLSS, обеспечен прирост производительности, а в Ada добавилась генерация кадров DLSS и реконструкция лучей на основе нейросети.
В итоге трассировка лучей и применение нейросетей стали обыденностью, появившись даже на игровых консолях. Нейросети способны продолжить рост качества изображения, так как традиционные методы ускорения достигли своих пределов, а рендеринг с помощью ИИ развивается быстрее. Технология DLSS кратно увеличивает частоту кадров, генерируя большинство пикселей с меньшими затратами производительности, а реконструкция лучей улучшает освещение с помощью трассировки пути, сокращая расчеты.
Nvidia продолжила движение в направлении новой архитектуры Blackwell, первый представитель которой рассматривается сегодня. В новой архитектуре улучшена технология DLSS, появилась многокадровая генерация для большей частоты кадров и лучшего качества картинки благодаря эффективным ИИ-моделям. Интересны предлагаемые Nvidia методы нейронного рендеринга для отрисовки материалов и объектов. Компания заявляет о наступившей «эре нейронного рендеринга», хотя, вероятно, немного забегает вперед. Влияние нейросетей на жизнь все же растет, несмотря на сохраняющееся множество сторонников всего «настоящего». Применение нейросетей при дорисовке картинки позволяет повысить качество и производительность одновременно. Добавление возможности применения нейросетей в шейдерах DirectX Microsoft подтолкнет разработчиков к еще более широкому использованию этих возможностей.
Рассмотрим все поэтапно: материал объемный и продемонстрирует множество новых возможностей, появляющихся с новыми GPU. Архитектуру Blackwell, включающую игровые и вычислительные графические процессоры, назвали в честь Дэвида Гарольда Блэквелла — американского математика и статистика, известного как соавтор теоремы Рао—Блэквелла—Колмогорова, а также другими достижениями в области теории вероятностей, теории игр, статистики и динамического программирования. Первыми видеокартами Nvidia на новой архитектуре Blackwell стали модели GeForce RTX 5090, RTX 5080, RTX 5070 Ti и RTX 5070. В основе флагманской модели GeForce RTX 5090 лежит графический процессор GB202, являющийся самым мощным у компании, GeForce RTX 5080 и RTX 5070 Ti построены на графическом процессоре GB203, а GeForce RTX 5070 использует чип GB205.
Временное пропускание топовой модели новой линейки не означает её отмены, вернёмся к ней позже. Возможности новой архитектуры Nvidia познаем с GeForce RTX 5080. Это вторая по мощности видеокарта нового поколения, способная выполнять все функции флагмана за половину цены. У неё в два раза меньше памяти (16 ГБ) и шина памяти (256 бит) чем у GeForce RTX 5090, но этого достаточно для реализации самых высоких разрешений рендеринга с максимальными настройками, включая трассировку лучей, всё что можно представить.
GeForce RTX 5080 мало чем отличается от предшественницы GeForce RTX 4080 (Super). В семействе Blackwell Nvidia столкнулась с трудностями повышения чистой производительности. Если серия GeForce RTX 40 сделала большой шаг в технологиях и это принесло прирост, то у GeForce RTX 50 сложнее – даже при использовании передовых технологий, таких как память GDDR7 и шина PCI Express 5.0. Но все графические процессоры нового поколения используют тот же самый 5-нанометровый техпроцесс TSMC 4N, что и предыдущее поколение. Без усовершенствований в производстве значительный прирост производительности сложно достичь.
Улучшить производительность можно с помощью модификации архитектуры, но она уже достаточно совершенна. Простое увеличение числа блоков не является решением. Математическая производительность простых задач при увеличении количества блоков ALU растет, но общая производительность графики не будет линейной. Необходимо повышать частоту GPU (что в большей степени ограничено возможностями техпроцесса), а также производительность остальных элементов конвейера. Nvidia предприняла шаг в сторону использования технологий искусственного интеллекта для повышения производительности, вместо простого увеличения мощности. Предлагается объединение объектов, отрисованных традиционным способом растеризацией или трассировкой лучей, с дополнениями при помощи генеративного ИИ. Новая графическая архитектура Blackwell оптимизирована для запуска нейросетей и рендеринга 3D-графики на GPU одновременно, в том числе благодаря новому аппаратному планировщику.
Nvidia называет нейронный рендеринг следующей эрой компьютерной графики. Интеграция нейросетей в процесс рендеринга повышает производительность и качество картинки. DLSS — лишь начало большого пути, где картинка изначально рендерится в низком разрешении, а затем дорисовывается нейросетью в большее, кадры размножаются при помощи умной ИИ-интерполяции. DLSS уже способна имитировать сцену со всеми тенями, отражениями и преломлениями, иногда даже лучше традиционного рендеринга благодаря информации из предыдущих кадров. Внедрение нейросетей в программируемые шейдеры может изменить процесс ещё сильнее: эффективная сжатие текстур, реалистичные материалы и освещение, да многое другое. Некоторые детали, например, человеческие лица, можно полностью рисовать нейросетью на основе простых изображений.
Сегодня мы подробно обсудим все, но сначала рассмотрим видеокарту GeForce RTX 5080. Она предназначена для энтузиастов, которые хотят получить функциональность новой архитектуры и высокую производительность, заплатив вдвое меньше, чем за флагманскую GeForce RTX 5090. Эта видеокарта рассчитана на самые высокие разрешения и максимальные графические настройки, включая самую сложную трассировку лучей. Новинка обеспечит высокую производительность во всех играх, в том числе проектах с продвинутой графикой и применением трассировки пути. DLSS потребуется лишь в редких играх, поскольку она значительно улучшилась в этом поколении.
Архитектура Blackwell графического отображения не слишком отличается от предшествующей Lovelace. Последняя в свою очередь во многом похожа на архитектуру Ampere, а все эти архитектуры имеют между собой общие черты.
- [16.11.22] Обзор видеоускорителя Nvidia GeForce RTX 4080 (16 ГБ)
- [26.10.22] Обзор видеоускорителя Nvidia GeForce RTX 4090 (24 ГБ)
- [10.10.22] Теоретический обзор Nvidia GeForce RTX 4090 и RTX 4080
- [30.09.20] GeForce RTX 3090 от Nvidia — это самый мощный графический процессор, но его возможности не ограничиваются лишь играми.
- [16.09.20] Nvidia GeForce RTX 3080, первый этап: концепция, строение, синтетические испытания
Графический ускоритель GeForce RTX 5080 | |
---|---|
Кодовое имя чипа | GB203 |
Технология производства | 5 нм (TSMC 4N) |
Количество транзисторов | 45,6 млрд |
Площадь ядра | 378 мм² |
Архитектура | Унифицированная система с массой процессоров для обработки потоков разных данных: вершин, пикселей и подобных. |
Аппаратная поддержка DirectX | ДиректХ 12 Ультимейт, поддерживающий уровень возможностей Feature Level 12_2. |
Шина памяти | Система из восьми автономных 32-битных управляющих блоков памяти, работающих с памятью GDDR7. |
Частота графического процессора | до 2617 МГц |
Вычислительные блоки | Система оснащена 84 многопоточными процессорами, содержащими 10752 CUDA-ядра. Ядра способны выполнять целочисленные расчеты INT32 и вычисления с плавающей запятой в форматах FP16/FP32/FP64. |
Тензорные блоки | Триста тридцать шесть тензорных ядер предназначены для матричных операций с типами данных INT4, INT8, FP4, FP8, FP16, FP32, BF16 и TF32. |
Блоки трассировки лучей | 84 ядра RT для вычисления пересечений лучей с треугольниками и ограничительными объемами BVH. |
Блоки текстурирования | Система использует 336 блоков, обеспечивающих текстурную адресацию и фильтрацию. Поддержка форматов FP16 и FP32 имеется в компоненте. Трилинейная и анизотропная фильтрация доступны для всех текстурных форматов. |
Блоки растровых операций (ROP) | Четырнадцать широкополосных блоков ROP размером 112 пикселей поддерживают разные режимы сглаживания, включая программируемые, и работают с буферами кадра в форматах FP16/FP32. |
Поддержка мониторов | HDMI 2.1b и DisplayPort 2.1b |
Спецификации видеокарты GeForce RTX 5080 | |
---|---|
Частота ядра | до 2617 МГц |
Количество универсальных процессоров | 10752 |
Количество текстурных блоков | 336 |
Количество блоков блендинга | 112 |
Эффективная частота памяти | 30 ГГц |
Тип памяти | GDDR7 |
Шина памяти | 256 бит |
Объем памяти | 16 ГБ |
Пропускная способность памяти | 960 ГБ/с |
Вычислительная производительность (FP32) | до 56,3 терафлопс |
Теоретическая максимальная скорость закраски | 293 гигапикселей/с |
Теоретическая скорость выборки текстур | 879 гигатекселей/с |
Шина | PCI Express 5.0 x16 |
Разъемы | по выбору производителя |
Энергопотребление | до 360 Вт |
Дополнительное питание | один 16-контактный разъем |
Количество используемых слотов в корпусе системы. | по выбору производителя |
Рекомендуемая цена | $999 |
Название новой модели соответствует принципу наименования решений компании — GeForce RTX 5080 является наследницей GeForce RTX 4080 и получила цифровое наименование, будучи вторым сверху решением нового поколения. Выше нее только GeForce RTX 5090, а снизу — GeForce RTX 5070 Ti и RTX 5070. Применяемый в модели графический процессор GB203 физически вдвое меньше топового GB202, на котором основан флагман, но в RTX 5080 используется полная версия чипа со всеми доступными исполнительными блоками, в отличие от RTX 5090. Поэтому, если RTX 5080 Super или 5080 Ti и выйдет позднее, то Nvidia придется использовать в ней урезанную версию GB202, выжимать из GB203 уже нечего.
В настоящий момент у GeForce RTX 5080 нет прямых конкурентов на рынке. AMD, хотя и анонсировала новое поколение видеокарт, перенесла релиз по причинам, остающимся неизвестными, как минимум до марта. Таким образом, номинальным соперником новинки является топовая модель текущего поколения — Radeon RX 7900 XTX, приближённая к GeForce RTX 5080 по цене. Учитывая, что RTX 5080 превосходит RTX 4080 Super, особой конкуренции от RX 7900 XTX ждать не приходится, особенно при активном использовании трассировки лучей.
Выбор видеопамяти GeForce RTX 5080 объемом 16 ГБ — разумный шаг. Объем в 8 ГБ был бы недостаточным, а больший объем с быстрой GDDR7-памятью пока дорогостоящим. Nvidia выбрала оптимальный вариант с 16 ГБ. Желание получить 24 ГБ или больше ограничивается шиной памяти, и такой объем не оказал существенной помощи Radeon RX 7900 XTX в противостоянии даже RTX 4080 Super. Таким образом, 16 ГБ — оптимальный вариант в нынешней ситуации, этого объема хватит для любых применимых задач ближайшие годы. Более большой объем видеопамяти окажется полезным лишь в исключительных случаях.
Для западных рынков Nvidia выпустила GeForce RTX 5080 Founders Edition. Эта видеокарта имеет такой же дизайн, что и топовая модель GeForce RTX 5090 Founders Edition, не отличаясь по длине, высоте и толщине в два слота. Различия заключаются только в наклейках на задней стороне. Система охлаждения RTX 5080 FE также использует двойное сквозное продувание: печатная плата размещена в центре, чтобы не мешать вентиляторам, а для вывода на дисплей и слот PCIe применяются отдельные платы маленького размера. Такая конструкция позволяет воздушным потокам от вентиляторов беспрепятственно проходить через радиатор, выводя воздух через заднюю часть. Кулер использует пять тепловых трубок и охлаждает не только GPU, но и чипы памяти с элементами цепи питания. Система охлаждения проще по сравнению с RTX 5090, где используется жидкий металл и испарительная камера, ведь от этого GPU нужно отводить всего 360 Вт мощности.
Дополнительно видеокарту питают через привычный 16-контактный разъем (в единственном числе). В комплекте Founders Edition есть переходник с двух 8-контактных разъемов на один 16-контактный — новой модификации, которая сделана качественнее: мягкие кабели и качественные разъемы. Сам 16-контактный разъем расположен под углом в 45 градусов, как в RTX 3090 FE. Видеокарта Founders Edition имеет освещенный логотип GeForce RTX и области вокруг воздуховодов по обеим сторонам. Светодиоды свечения статичны: изменить цвет или яркость нельзя, отключить их также невозможно.
Для подключения дисплеев карта имеет три разъема DisplayPort 2.1b и один HDMI 2.1b. Единственный минус — компактность конструкции. Все тестировщики считают RTX 5090 FE громкой, а RTX 5080 FE хоть и тише флагмана, но всё равно не является достаточно тихой из-за маленького размера системы охлаждения. Впрочем, у пользователя есть выбор: если для него важен размер видеокарты, то FE будет неплохим выбором, но если нужна тихая система охлаждения, то лучше выбрать трех-четырехслотовые карты от партнеров. Одну такую мы сегодня и тестируем.
Компания Nvidia совместно с партнёрами выпустила на рынок разнообразные версии GeForce RTX 5080, отличающиеся частотой работы, системами питания и охлаждения. Модели с модернизированным графическим процессором предлагаются различными производителями, такими как Asus, Colorful, Gainward, Galaxy, Gigabyte, Innovision 3D, MSI, Palit, PNY и Zotac.
Особенности архитектуры Blackwell
Серия видеокарт GeForce RTX 50 использует графические процессоры GB20x, разработанные на основе новой архитектуры Blackwell. Графический процессор GB203, лежащий в основе модели GeForce RTX 5080, обладает всеми функциями и характеристиками флагманского GB202, который установил рекорд по сложности и размеру для игровых GPU.
GB203 по размерам и количеству транзисторов напоминает AD103 из прошлого поколения, используемый в GeForce RTX 4080. Оба чипа обладают схожим количеством исполнительных блоков и производятся по техпроцессу TSMC — 4N. Площадь кристалла GB203 составляет 378 мм² с 45,6 млрд транзисторов, в то время как у AD103 площадь кристалла равна 378,6 мм² и содержит 45,9 млрд транзисторов.
Применяемый техпроцесс является специализированным вариантом 5-нанометрового EUV-техпроцесса, разработанного TSMC совместно с Nvidia. Он мало отличается от предыдущего. Apple и Intel уже используют кристаллы по 3-нанометровому техпроцессу на той же TSMC, но у них не такие большие чипы.
Использование относительно старого техпроцесса повлияло на линейку видеокарт GeForce RTX 50 и её отличия от предыдущей.
Высокоуровневая архитектура графических процессоров Nvidia не меняется с Ampere. Как и все графические процессоры компании, чип GB203 состоит из кластеров Graphics Processing Cluster (GPC), включающих несколько кластеров Texture Processing Cluster (TPC). Каждый TPC содержит потоковые процессоры Streaming Multiprocessor (SM), блоки растеризации ROP и контроллеры памяти. Кластер GPC осуществляет основные вычисления внутри себя, включая свой движок растеризации Raster Engine и несколько кластеров TPC, состоящих из вдвое большего количества мультипроцессоров SM.
Модель видеокарты GeForce RTX 5080 использует полную версию графического процессора GB203, в котором семь вычислительных кластеров GPC содержат по 42 кластера TPC. Всего в нем 84 мультипроцессора SM, и во всех RTX 5080 активны. Каждый SM содержит 128 CUDA-ядер, поэтому полная версия чипа состоит из 10752 CUDA-ядер, что на 5% больше, чем у RTX 4080 Super (10240). В ней также 84 RT-ядра, 336 тензорных ядер, 336 текстурных блоков TMU и 112 блоков ROP. Общий объем L2-кэша остался прежним – 64 МБ. Подсистема памяти содержит L1-кэш объемом 10752 КБ и регистровый файл объемом 21504 КБ, что немного больше, чем у AD103.
Пропускная способность памяти новинки значительно возросла по сравнению с GeForce RTX 4080. Ширина шины осталась прежней — восемь 32-битных каналов на 256 бит, но используется новая GDDR7-память с эффективной частотой в 30 ГГц. В результате пропускная способность памяти достигает 960 ГБ/с — на треть больше, чем у RTX 4080, и почти равна пропускной способности RTX 4090.
Поговорим о памяти позже, а пока рассмотрим внутреннее устройство решений Blackwell. Новые GPU не сильно отличаются от Ada Lovelace по пиковым показателям, если не брать топовый GB202, но в них внедрили много изменений и улучшений, хотя почти все они направлены на будущее.
Каждый кластер GPC в составе графического процессора оборудован отдельным движком растеризации Raster Engine, двумя разделами ROP по восемь блоков каждый, а также шестью или восемью кластерами TPC — количество зависит от конкретного GPU: в топовом GB202 их восемь, а в рассматриваемом GB203 — шесть. Каждый кластер TPC содержит один движок PolyMorph Engine и два мультипроцессора SM.
Потоковые мультипроцессоры SM — главные элементы графических процессоров Nvidia.
Предоставляют параллельное выполнение на разных ядрах (CUDA, Tensor, RT).
Управляют планированием выполнения варпов и разделены на четыре блока, каждый с собственным регистровым файлом, планировщиком и диспетчером.
Четыре блока совместно используют 128 КБ L1-кэша и четыре текстурных модуля TMU.
В мультипроцессорах Blackwell разделы содержат несколько вычислительных блоков, в том числе тензорное ядро и два набора из 16 блоков ALU — SIMD16. В отличие от Ada Lovelace, где лишь один блок SIMD16 мог выполнять целочисленные расчеты, оба SIMD в Blackwell одинаковы и умеют исполнять как FP32-операции, так и INT32. Несмотря на то, что на схемах Nvidia все ALU в разделах SM объединены в один SIMD, на самом деле их два. Структура мультипроцессоров SM незначительно изменилась: это всё ещё схема из двух SIMD, но теперь каждый из них состоит из 16 блоков FP32/INT32. Унифицированные ядра FP32/INT32 могут работать только как FP32- или INT32-ядра каждый цикл. Увеличение целочисленной вычислительной производительности может ускорить задачи, например, расчет аргументов, адресов и указателей.
Тензорные ядра в каждом SM могут выполнять 1024 инструкции FMA с точностью FP16 за такт. Внедрение – удвоение скорости операций над данными с точностью FP4. Остальные компоненты мультипроцессоров SM не претерпели изменений: четыре блока для специальных функций (тригонометрия и др.), L1-кэш и регистровый файл остались прежними. Таким образом, пиковая производительность Blackwell сравнимо с Ada изменилась только для вычислений INT32 – в два раза выше, а также для матричных FP4-вычислений.
Мультипроцессор в Blackwell дополнительно оптимизирован для эффективного применения нейронных шейдеров. По сравнению с Ada мультипроцессоры Blackwell показывают удвоенную производительность точечных выборок из текстур за такт, что ускоряет некоторые операции доступа к текстурам в алгоритмах, таких как стохастическая фильтрация текстур, применяемая в новых методах нейронного текстурного сжатия.
Тензорные ядра многопроцессоров предназначены для математических действий умножения и суммирования матриц, применяемых в задачах ИИ и вычислений высокой производительности. Для обучения и работы нейросетей они имеют ключевое значение. Как и предыдущие GPU, тензорные ядра Blackwell поддерживают операции FP16, BF16, TF32, INT8, INT4 и FP8, но впервые добавлена поддержка операций FP4 с меньшей точностью.
Генеративные модели ИИ, такие как Stable Diffusion, создают изображения по текстовому описанию. С ростом сложности моделей увеличивается потребность в вычислительной скорости. Семейство тензорных ядер Blackwell получило встроенную поддержку FP4-вычислений, использующих менее точное квантование для уменьшения размеров моделей. FP4 позволяет вдвое сократить объем памяти по сравнению с FP16 (стандартной точностью), поддерживаемой большинством моделей. Благодаря этому графические процессоры RTX 50 обеспечивают в два раза более высокую производительность по сравнению с предшествующим поколением при сниженной точности.
Данный вариант не подходит во всех ситуациях, но из-за использования качественного квантования в TensorRT Model Optimizer, по заявлению Nvidia, потеря качества итогового результата не существенна, а скорость увеличивается при меньших требованиях к памяти. Например, модель FLUX.dev (Black Forest Labs) при использовании FP16 требует более 23 ГБ видеопамяти и ее могут запустить только обладатели GeForce RTX 4090 и профессиональных графических процессоров с равным или большим объёмом памяти. С FP4 для запуска FLUX.dev потребуется менее 10 ГБ, и её можно запустить локально на куда большем количестве видеокарт GeForce RTX, имеющих от 12 ГБ видеопамяти.
При точности FP16 модель FLUX.dev на GeForce RTX 4090 генерирует изображения с заданными параметрами за 15 секунд, а на GeForce RTX 5090 с точностью FP4 — уже за пять. Такое ускорение существенно, особенно при работе в течение минут или часов. Несмотря на поддержку запуска моделей ИИ с точностью FP4 на старых видеокартах Nvidia, смысл есть только в решениях Blackwell, так как у них встроенная поддержка операций FP4, а на более ранних GPU выполняется имитация даже медленнее, чем с FP8.
Новый тип видеопамяти — GDDR7
GeForce RTX 50 поддерживает видеопамять GDDR7, обеспечивающую большую пропускную способность. Nvidia много лет сотрудничает с Micron для разработки передовых графических технологий памяти. Для архитектуры Ampere Nvidia и Micron выпустили память GDDR6X и продолжили работу над еще большей скоростью для решений Ada. В результате достигнута эффективная скорость GDDR6X-памяти до 22,4 Гбит/с, а GeForce RTX 4090 имела пропускную способность памяти до 1 ТБ/с. Архитектура Blackwell получила поддержку нового стандарта памяти GDDR7 с технологией передачи сигналов PAM3 (Pulse Amplitude Modulation) — компромиссным решением между PAM4 и PAM2.
Новый стандарт памяти отличается от GDDR6 и GDDR6X, применяемых только Nvidia. GDDR до шестой версии кодирует сигнал амплитудно-импульсной модуляцией с двумя уровнями сигнала — PAM2, а видеопамять GDDR6X различает уже четыре уровня сигнала, передавая два бита за цикл при помощи кодирования PAM4. Новый стандарт не такой быстрый, как GDDR6, и на практике скорость передачи данных у двух стандартов была близкой. Из-за большей сложности и повышенного энергопотребления GDDR6X понадобился новый стандарт — GDDR7. Стандартизированный JEDEC, он выпускается уже несколькими компаниями, а не только Micron. Новый интерфейс использует что-то среднее между кодированием PAM2 и PAM4 с тремя уровнями сигнала, передавая три бита данных за два цикла. Главное отличие новой памяти — меньшая требовательность к отношению сигнал/шум по сравнению с GDDR6X, поддержка коррекции ошибок и пониженное напряжение.
Изменения в GDDR7 обеспечивают существенно большую пропускную способность по сравнению с предшественниками. Усовершенствования также повышают энергоэффективность, предлагая отличную производительность при невысоком потреблении энергии, чего не мог достичь GDDR6X. Видеокарты GeForce RTX 50 имеют память GDDR7 со скоростью до 30 Гбит/с. Новый флагман обеспечивает пиковую пропускную способность памяти в 1,792 ТБ/с. GeForce RTX 5080 оснащается памятью GDDR7 с частотой 30 Гбит/с, которая обеспечивает пиковую пропускную способность памяти 960 ГБ/с — почти как у предыдущего флагмана.
Трассировка лучей и улучшенная геометрия
Nvidia непрерывно совершенствует производительность аппаратной трассировки лучей, повышая скорость работы и добавляя новые возможности для этих блоков. RT-ядра в графических процессорах Nvidia содержат специальные аппаратные блоки для ускорения обхода структур данных Bounding Volume Hierarchy (BVH) и проверки пересечения луча с треугольником и прямоугольником. Благодаря тому, что основные задачи трассировки лучей выполняются выделенными блоками, мультипроцессоры SM освобождаются для выполнения других задач — обработки пикселей, вершин и вычислительных шейдеров.
Проверка пересечения луча и треугольника — это ресурсоемкая операция, часто применяемая при рендеринге сцен с трассировкой лучей. Четвертое поколение RT-ядер в архитектуре Blackwell от Nvidia обеспечивает вдвое большую производительность по сравнению с Ada Lovelace при проверке пересечений луча и треугольника, количество тестов пересечения с ограничивающими боксами Nvidia не разглашается. RT-ядра Ada и Blackwell включают Opacity Micromap Engine, ускоряющий проверку пересечений для полупрозрачных объектов, сокращая шейдерные вычисления. Новые RT-ядра Blackwell содержат Triangle Cluster Intersection Engine, ускоряющий трассировку лучей при использовании Mega Geometry, и Linear Swept Spheres для аппаратного ускорения трассировки тонкой геометрии, такой как волосы.
Mega Geometry Новая технология компании основана на расширениях API RTX и аппаратных блоках Blackwell. Она направлена на повышение геометрической детализации в приложениях с трассировкой лучей. Технология позволяет игровым движкам, использующим системы уровня детализации, такие как Nanite в Unreal Engine 5, трассировать лучи для всей геометрии с полной точностью без упрощения. Количество треугольников в игровых сценах постоянно увеличивается, а появление системы рендеринга Nanite дало возможность разработчикам создавать большие открытые миры с сотнями миллионов треугольников. При росте сложности сцен геометрической прогрессии стоимость построения иерархии структур BVH для разных уровней детализации возрастает слишком сильно, что затрудняет достижение высокой частоты кадров при трассировке лучей. Каждый скачок уровня детализации усложняет генерацию ускоряющих структур BVH, поэтому обычно используется упрощенная геометрия.
Технология Mega Geometry ускоряет создание BVH и позволяет работать с сотнями миллионов анимированных треугольников. Она обновляет определённые кластеры треугольников на GPU партиями, снижая нагрузку на CPU. Mega Geometry появится в специальной Nvidia RTX версии Unreal Engine (NvRTX), и разработчики игр смогут использовать Nanite с полной трассировкой лучей для каждого треугольника. В уже существующих играх поддержка мегагеометрии ожидается в будущем в игре Alan Wake 2.
Две основные проблемы мешают интеграции трассировки лучей в системы типа Nanite и Mega Geometry решает обе. Первая проблема — обновления уровней детализации на основе кластеров. Игровые движки обычно изменяют уровень детализации объектов в зависимости от расстояния до камеры, меняя количество треугольников в объекте. Традиционные методы используют ограниченное число уровней разной геометрической сложности, а системы вроде Nanite обновляют уровень детализации, постепенно заменяя геометрию небольшими партиями — кластерами по 128 треугольников. Настройка кластеров, составляющих геометрическое представление объекта, может меняться каждый кадр для плавного изменения детализации. Но для трассировки лучей необходимо построить отдельную структуру данных — иерархию ограничивающих объемов (BVH).
Многочисленные сборки BVH, которые Nanite запускает при большом количестве объектов с большим количеством полигонов, способны перегрузить все возможные реализации аппаратной трассировки лучей. Производительность нынешнего оборудования для этого явно недостаточна.
Технология Mega Geometry открывает новые возможности при создании структур BVH, где кластерами треугольников служат примитивами. Это позволяет формировать структуры ускорения на уровне кластера (Cluster-level Acceleration Structures — CLAS), состоящие из партий до 256 треугольников. Набор CLAS используется для построения BVH и может генерироваться по запросу при загрузке объекта в память, затем кэшируется для использования в последующих кадрах. Благодаря тому, что каждый CLAS состоит из сотен треугольников, время обработки снижается на порядки по сравнению с классическими методами на основе отдельных треугольников. Игровой движок может управлять переключениями уровней детализации, реконструируя структуры BVH из CLAS.
Все API технологии Mega Geometry построены с учетом пакетной обработки. Входные параметры всех технологий находятся в памяти GPU, что позволяет игровому движку эффективно выполнять подбор уровня детализации, анимацию, отбрасывание невидимых объектов и т. п. прямо на GPU, минимизируя расчеты на CPU. Mega Geometry практически исключает использование ресурсов CPU, связанное с управлением структурами BVH, и сокращает требуемый объем видеопамяти — например, при использовании Nanite из Unreal Engine 5 сразу на несколько сотен мегабайт, по оценке Nvidia.
Благодаря гибкой генерации кластеров на GPU и быстрому созданию структур BVH появляются новые возможности, такие как использование других типов представления геометрии, например разделяемых поверхностей. Subdivision SurfacesТехники, применяемые в приложениях серьезного рендеринга, часто используют карты смещения для достижения высоких показателей качества поверхностей при сохранении эффективности моделирования и анимации. В профессиональной 3D графике уже давно используется алгоритм разбиения поверхностей, который воспроизводит криволинейные поверхности путем рекурсивного усложнения сетки из полигонов. При аппаратной трассировке поверхностей Subdivision Surfaces придется разбивать кривые поверхности на треугольники (тесселяция), что приведет к усложнению структур BVH и их перестроению каждый кадр. Ускорение этого процесса возможно с помощью полигональных кластеров CLAS, кэшированных в памяти.
Для ускорения работы графического процессора поверхности часто разбивают на треугольники. При анимации или изменении точки обзора требуется многократная ретесселяция объекта, что приводит к большим обновлениям дерева связных областей (BVH) и снижает производительность. Технология Mega Geometry позволяет приложению сразу сопоставлять тесселяцию с генерацией кластеров и быстро строить BVH из структур CLAS, повышая производительность и открывая возможность использования такого представления геометрии в реальном времени с аппаратной трассировкой лучей.
Большое количество объектов в сцене затрудняет эффективное применение трассировки лучей. Движки, использующие высокую геометрическую детализацию, часто работают с большим числом объектов, что требует построения ускоряющих структур верхнего уровня TLAS из всех объектов сцены в каждом кадре. Эта методика хорошо работает до нескольких тысяч объектов, но не более. Для решения проблемы Mega Geometry представляет новый тип структуры верхнего уровня — Partitioned Top-Level Acceleration Structure (PTLAS). Вместо создания нового TLAS с начала каждого кадра PTLAS учитывает, что большинство объектов сцены обычно статичны. Это упрощает генерацию структур BVH: графический процессор может работать напрямую с BVH и использовать изменения для дальнейшей работы. Неизменные объекты в сцене можно выделить в отдельные разделы BVH и не перестраивать их при отсутствии необходимости.
Теперь в новых RT-ядрах можно проверить пересечение луча с геометрическими объектами. Linear Swept Spheres (LSS)Предлагаемая схема Nvidia использует сферы в линейных сегментах, которые поддерживаются аппаратной платформой Blackwell. Такой рендеринг волос может осуществляться вдвое быстрее при меньшем потреблении видеопамяти для хранения геометрии.
Использование Mega Geometry повышает эффективность трассировки лучей за счет применения более продвинутого геометрического конвейера по сравнению с традиционным. Технология доступна во всех API трассировки лучей от Nvidia: DirectX 12 (через NVAPI с поддержкой кластеров и PTLAS), Vulkan (через расширения Nvidia для кластеров и PTLAS), OptiX 9.0 (с родной поддержкой кластеров). На данный момент возможности Mega Geometry доступны только в собственных API компании, но Nvidia, вероятно, работает над их интеграцией в стандартные Direct3D и Vulkan.
В завершении — самое важное и приятное: технологии Mega Geometry совместимы со всеми видеокартами RTX начиная с Turing, однако производительность и эффективность могут отличаться. Но новые RT-ядра четвертого поколения в Blackwell специально разработаны для более эффективной работы Mega Geometry: у них есть кластерные движки для реализации новых схем сжатия геометрии и обработки BVH, хотя и предыдущие видеокарты справятся с задачей.
Усовершенствованная технология повышения производительности DLSS 4.
Новое поколение графической архитектуры улучшило технологию DLSS, достигшую четвертой версии. В Ada Lovelace появилась генерация промежуточного кадра, а в новом поколении нейросеть способна вставлять уже несколько кадров — до трех. Алгоритм генерации кадров изменился и выполняется быстрее, расходуя меньше видеопамяти, по данным Nvidia. DLSS 4 благодаря многокадровой генерации обеспечивает значительно большую частоту кадров по сравнению с традиционным рендерингом и максимальное качество трассированной картинки для 4K-разрешения при 240 FPS.
Генерация дополнительного кадра в DLSS 3 применяет данные игры, например векторы движения и глубину пикселей, а также оптический ускоритель потока для создания одного дополнительного кадра. Многокадровая генерация MFG в DLSS 4 использует новые аппаратные возможности Blackwell и новую программную модель, работающую на 40% быстрее и потребляющую на 30% меньше видеопамяти. Она запускается единожды на каждый отрисованный кадр для создания сразу нескольких дополнительных кадров, в то время как реализация DLSS 3 FG требовала многократного запуска. Новая модель даже при генерации одного кадра обеспечивает чуть более высокую частоту кадров при меньшем объеме памяти.
Для работы многокадрового генератора необходимы блоки из Blackwell: улучшенные тензорные ядра с большей производительностью и AI Management Processor для эффективного распределения задач ИИ и рендеринга по исполнительным ядрам GPU. Графическому процессору нужны пять моделей ИИ для суперразрешения, реконструкции лучей и генерации нескольких кадров для каждого отрисованного кадра за несколько миллисекунд. В DLSS 3 кадры генерировали с синхронизацией вывода на экран через CPU, что иногда приводило к нестабильной частоте кадров и неплавному отображению. Для улучшения этого в Blackwell внедрили аппаратный блок Flip Metering, позволяющий точнее управлять синхронизацией дисплея при генерации нескольких кадров.
Многие уже писали о том, что генерация кадров улучшает плавность видеоряда за счёт увеличения количества кадров в секунду. Однако это не снижает задержки ввода, которые зависят от времени между полноценными кадрами, отрисованными игровым движком. Так что FG и MFG делают всё более плавным и удобным для глаз, но отзывчивость не улучшается, если настоящая частота кадров ниже определённого значения комфорта. Конечно, это зависит от игры: иногда достаточно 30-40 FPS, а иногда нужны 60 FPS. Генерация же кадров даже немного увеличивает время реакции, так как требует работы GPU над сгенерированными кадрами, поэтому задержки могут незначительно возрасти. Для решения проблемы используется обновленная технология Reflex, получившая вторую версию — в ней может использоваться смещение кадра в зависимости от действий игрока перед его отправкой на дисплей.
Reflex — это технология снижения задержки в играх, выпущенная в 2020 году. Она синхронизирует работу процессора и видеопроцессора, ускоряя вывод действий игрока на экран и предоставляя преимущество в многопользовательских играх. За четыре года технологию интегрировали в более чем сто игр. В скором времени популярные игры получат вторую версию технологии — Reflex 2, которая может ещё сильнее сократить задержку вывода. В Reflex 2 сочетается известный режим Reflex Low Latency с новой технологией Frame Warp из VR, где также важны минимальные задержки. Она сокращает задержку путём обновления кадра на основе действий игрока непосредственно перед его отправкой на экран.
В DLSS 4 произошли существенные обновления всех технологий: Ray Reconstruction, Super Resolution и DLAA. Предыдущая версия DLSS использовала сверточные нейронные сети (CNN) для генерации новых пикселей на основе анализа локального контекста и отслеживания изменений в последовательных кадрах. Новая модель трансформер точнее оценивает значимость каждого пикселя как в кадре, так и в нескольких кадрах. Модели DLSS 4 обрабатывают вдвое больше параметров для более глубокого понимания сцены и используют большую вычислительную мощность тензорных ядер для реконструкции изображений с лучшим качеством в статике и динамике. Новая модель трансформер генерирует изображение более высокого качества, эффективнее распознавая крупные паттерны, а также лучше масштабируется.
Повышение качества особенно заметно в играх с трассировкой лучей. Новая модель трансформер значительно улучшает качество реконструкции лучей при сложных условиях освещения. В игре Alan Wake 2 сетчатое ограждение отрисовывается лучше, снижается двоение и смазывание изображения на вращающихся объектах, устраняется мерцание тонких линий электропередач. В Horizon Forbidden West новая модель ИИ улучшает детализацию текстур одежды и аксессуаров главной героини, обеспечивает лучшую четкость в целом.
Реконструкция лучей улучшает качество изображения при применении ИИ для генерации дополнительных пикселей в сценах с интенсивной трассировкой лучей. DLSS заменяет работу шумодавов обученной нейросетью, которая создаёт более качественные пиксели. Чем сложнее и интенсивнее трассировка лучей в сцене, тем больше прирост качества от перехода на новую модель, особенно заметен это в сценах со сложным освещением. Модель трансформер для масштабирования Super Resolution демонстрирует отличные результаты, обеспечивая лучшую временную стабильность, меньшее количество ореолов и более высокую детализацию при движении.
Многокадровая генерация и новые модели трансформеров доступны в играх, уже поддерживающих более ранние версии DLSS, и на видеокартах серии GeForce RTX 50 их можно использовать сразу во многих играх и приложениях. Alan Wake 2, Cyberpunk 2077, Indiana Jones and the Great Circle, Star Wars Outlaws имеют встроенную поддержку многокадровой генерации. Black Myth: Wukong, Naraka: Bladepoint, Marvel Rivals и Microsoft Flight Simulator 2024 также получат её в скором времени. Black State, Doom: The Dark Ages и Dune: Awakening поддержат эту технологию с момента релиза.
Для игр с поддержкой прошлых версий DLSS доступна новая функция подмены DLSS 4. DLSS OverrideВ настройках нового драйвера можно переопределить параметры DLSS для каждой поддерживаемой игры. Переопределение DLSS для генерации кадров включает многокадровую генерацию и доступно только на GeForce RTX 50. Переопределение DLSS для предустановок моделей ИИ включает последнюю модель генерации кадров для GeForce RTX 50 и RTX 40, а модель трансформера для суперразрешения и реконструкции лучей доступна всем пользователям GeForce RTX.
Возможность принудительного включения DLSS в режим DLAA или DLSS Ultra Performance даже если его нет в настройках игры. Поддержка DLSS Override есть для 75 игр и приложений на момент запуска, а новая реконструкция лучей на основе модели трансформера, Super Resolution и DLAA поддерживается более чем в 50 играх и приложениях.
В обновленной версии драйвера добавлен новый функционал. Nvidia Smooth MotionНовая модель ИИ в драйвере генерирует дополнительный кадр между двумя отрисованными игрой кадрами. Это позволяет увеличить итоговую частоту кадров в играх без поддержки генерации кадров DLSS, но простым способом. Smooth Motion можно включать в играх, работающих в родном разрешении, а также с технологиями сверхвысокого разрешения или другими методами масштабирования. В итоге увеличивается частота кадров.
Конечно, это работает не так хорошо, как полноценная генерация кадров DLSS, использующая данные из движка игры для улучшения качества. Но в некоторых случаях такая интерполяция смотрится неплохо. Smooth Motion включается в совместимых DirectX 11 и DirectX 12 играх в настройках приложения Nvidia.
Новый тип шейдеров — нейронные шейдеры
Blackwell представил очередное нововведение, весьма многообещающее, но не дающее мгновенных результатов. Nvidia предлагает новый вид шейдеров для непосредственного участия нейросетей в рендеринге, дополняя работу традиционных вычислительных блоков. Компания внесла существенные изменения в игровую индустрию в 2018 году с выпуском первых видеокарт серии GeForce RTX. Тогда критики раскритиковали их за небольшой прирост производительности в существующих играх в погоне за «ненужной» (как казалось тогдашним критиками) аппаратной трассировкой, которую использовали лишь в двух-трех играх. Но с тех пор уже несколько сотен игр и приложений используют трассировку лучей и технологии искусственного интеллекта различными способами, а
присутствуют они и в игровых консолях. Трассировка лучей и трассировка пути в реальном времени — именно то, что приносит играм реалистичное изображение с максимально точной и достоверной имитацией реалистичного освещения, и игр с их поддержкой становится всё больше.
Сейчас трассировка лучей пользуется популярностью, её эффективность уже проверена. Nvidia всё же стремится предложить разработчикам новые технологии, в данном случае это нейронный рендеринг. RTX Neural Rendering Технологии искусственного интеллекта и ускоренного рендеринга сложных сцен, наряду с реалистичной визуализацией объектов, стали частью набора возможностей. Архитектурные улучшения Blackwell направлены на повышение производительности и эффективности нового типа шейдеров. Шейдеры вычисляют уровни освещения и цвета для всех пикселей сцены, работая на GPU в составе графического конвейера.
Изначально использовались простые программы с фиксированными функциями, все операции предопределены частично настраиваются, но программировать их было нельзя. GPU были ориентированы на выполнение конкретного предопределенного набора операций. Но в GeForce 3 появились зачатки программируемого затенения и вершинные шейдеры. Затем для затенения пикселей применялся язык HLSL, в DirectX 10 – геометрические шейдеры, в DX11 — вычислительные шейдеры, а в DX12 и аппаратная трассировка лучей.
Нейронные шейдеры представляют собой следующий этап развития программируемых шейдеров, позволяя обучить модели ИИ для получения результата без традиционных шейдеров. Nvidia прогнозирует, что нейронные шейдеры станут преобладающим типом шейдеров в будущем, применяясь во всех играх при рендеринге. Компания уже использует нейросети в DLSS с помощью тензорных ядер, а расширение графических API даст доступ к тензорным ядрам любым типам шейдеров, включая пиксельные шейдеры и трассировку лучей. Это открывает возможности для использования множества технологий нейросетей, таких как нейронное сжатие текстур, Neural Materials, Neural Radiance Cache, RTX Skin и RTX Neural Faces. Специализированные SDK позволят разработчикам обучать нейросети в шейдерах на GeForce RTX и ускорять их на тензорных ядрах.
Компрессия текстур RTX Neural Texture Compression (NTC) Использование ИИ при сжатии текстур позволяет «нейронному» представлению занимать в памяти в несколько раз меньше места – до 7 раз по сравнению с традиционными методами, сохраняя качество. Рост объема данных, используемых играми, особенно текстур, увеличивает требования к объему памяти GPU и влияет на производительность из-за ее ограниченной пропускной способности. Нейронное сжатие текстур применяет нейросети из шейдеров для эффективного сжатия и распаковки. Пример Nvidia Neural Materials: 1110 МБ памяти требуются для стандартных материалов фонаря и ткани, а с нейронными материалами – всего 333 МБ (трикратная экономия при более высоком качестве).
Заслуживает внимания и стохастическая фильтрация текстур. Stochastic Texture Filtering (STF)Техника, вводимая для случайности в выборках текстур, уменьшает визуальные артефакты алиасинга и муара.
Её применяют там, где нецелесообразно использовать традиционные фильтры — трилинейный или анизотропный — например, при использовании нейронного сжатия текстур. Также её можно комбинировать с аппаратной фильтрацией для достижения более высокого уровня фильтрации — кубической или гауссовой.
Благодаря удвоению скорости выборки точек из текстур на графических процессорах семейства Blackwell стохастическая фильтрация работает в два раза быстрее по сравнению с GPU предыдущих поколений.
Нейроматериалы Neural Materials Используют возможности ИИ для сокращения сложного шейдерного кода, применяемого для многослойных материалов, таких как фарфор и шелк. Рисование этих материалов происходит в несколько раз быстрее, что снижает ресурсоемкость рендеринга. Некоторым материалам свойственен состав из нескольких слоев, а полноценная трассировка лучей для них слишком затратна. Методы ИИ могут заменить математическую модель материала нейронной аппроксимацией, обеспечивая качественное отрисовку и высокую частоту кадров.
Neural Radiance Cache (NRC) Шейдер с использованием нейросетей для кэширования и аппроксимации информации об освещении.
Этот шейдер использует нейронные сети, обученные игровыми данными, для точной отрисовки непрямого освещения в игровой сцене. С его помощью можно сохранять информацию о сложном освещении и использовать её для создания качественного глобального освещения (GI) при рендеринге в реальном времени. NRC частично трассирует один-два луча, сохраняет данные в кэше и затем выводит условно бесконечное количество отскоков лучей для реалистичного представления непрямого освещения в игре. Это одновременно улучшает качество непрямого освещения при трассировке пути и повышает производительность, так как в процессе трассируется меньше лучей. NRC уже доступен через RTX Global Illumination SDK и будет применяться в Portal RTX, а затем и в RTX Remix.
Нейронный шейдер NRC использует результат трассировки пути после одного отскока луча и выдает значения освещения для многих отскоков.
NRC обучает малые нейронные сети на игровых данных в реальном времени, имитируя трассировку пути с большим количеством отскоков лучей и помещая эти данные в кэш. По мере обучения во время игры NRC постепенно подстраивается для получения точного профиля глобального освещения для различных игровых сцен.
Верный визуализации кожи – одна из известных проблем трехмерной графики. Если изображать ее без учета проницаемости, как будто она непрозрачная для света, словно дерево или металл, то изображения людей будут казаться неестественными. На самом деле лучи света проникают под кожу и рассеиваются внутри, излучаясь затем в других частях.
Традиционные методы визуализации недостаточно точно имитируют взаимодействие света с кожей, поэтому для улучшения ее отображения часто используют подповерхностное рассеивание (SSS). RTX Skin Подповерхностное рассеяние в сочетании с трассировкой лучей можно использовать в играх для имитации проникновения света в полупрозрачные материалы и его рассеивания внутри. В результате достигается более мягкий и естественный вид кожи, не только человеческой.
Реалистичная визуализация человеческих лиц – еще одна сложность при рендеринге в реальном времени. Люди легко замечают любые недостатки на лицах, даже самые незначительные. Для этого есть термин «Зловещая долина» – когда искусственный человек выглядит очень похожим на настоящего, но с небольшими неточными деталями, вызывающими большее отторжение, чем если бы объект совсем не был похож на человека. В кинофильмах проблему решили со временем, хотя это обычно требует больших вычислительных ресурсов.
RTX Neural Faces Предлагается новый метод повышения качества рендеринга лиц с применением генеративного искусственного интеллекта. Для обработки используется обычное растровое изображение лица и данные о его положении в пространстве (поза, поворот и так далее). Модель генеративного ИИ отрисовывает более реалистичные лица. Нейросеть может обучаться на тысячах изображений лиц под разными углами, освещением, с различными выражениями эмоций и т.д., используя реальные фотографии или высококачественные изображения, сгенерированные за длительное время. Обученная модель оптимизируется Nvidia TensorRT и применяется для отрисовки лиц в режиме реального времени — это значительный шаг к переопределению графики с помощью генеративного ИИ в реальном времени.
RTX Neural Faces можно дополнить RTX Character Rendering SDK Для отрисовки реалистичных волос и кожи, задача не из лёгких, применяются специальные методы. Методы отрисовки волос по прядей требуют до 30 треугольников на каждую прядь и около 4 миллионов треугольников для всех волос, что существенно усложняет трассировку лучей. Linear-Swept Spheres (LSS)Технология сокращает объем геометрии для визуализации волос, заменяя треугольники сферами. Это ускоряет трассировку лучей на GeForce RTX 50, повышая производительность.
Существует множество методик применения нейронных шейдеров. Nvidia демонстрирует лишь некоторые из них. Нейронные шейдеры могут отрисовывать сложные многослойные материалы или материалы, для которых важен расчет подповерхностного рассеивания света, без точных физических расчетов. Зачем упрощать рендеринг, если мы перешли к физически корректной трассировке лучей? Все дело в том, может ли нейронный шейдер создать изображение, аналогичное результату точного физического расчета. Если да, пользователь не заметит разницу между полноценной трассировкой пути и ее имитацией при помощи нейросетей. В отличие от хаков растеризации, которые часто создают неправдоподобное изображение, нейронные шейдеры способны в некоторых случаях имитировать корректный результат с приемлемой точностью.
Технологии нейронного рендеринга — прекрасно и перспективно, однако увидеть их в играх сегодня точно не получится, завтра тоже маловероятно. Будут они, но на начальном этапе скорее выборочно, чтобы продемонстрировать возможности технологии. Для широкого распространения необходима поддержка не только разработчиков игр, но и графических API. Пока что можно использовать NVAPI и расширения Nvidia для Vulkan, было бы очень хорошо получить полноценную поддержку со стороны DirectX. Компания Nvidia уже сотрудничает с Microsoft для внедрения поддержки функциональности. Cooperative VectorsВведение новой возможности позволит производить умножение матриц с любыми размерами в шейдерном коде, что необходимо для функционирования нейросетей.
Это откроет возможности тензорных ядер GeForce RTX и даст разработчикам игр возможность ускорить нейронные шейдеры на решениях Nvidia, а затем и на графических процессорах других производителей. Другие производители видеокарт будут вынуждены интегрировать поддержку Cooperative Vectors в свои продукты, что в конечном итоге принесет пользу всей индустрии. Пока же эта функция доступна только для решений Nvidia и не получила широкого распространения, хотя перспективы технологии внушительны.
Другие изменения и улучшения
В графических процессорах Ada Lovelace теперь можно динамически перегруппировывать инструкции. Shader Execution Reordering (SER)Данная технология повышает согласованность доступа к данным в задачах, таких как обработка отраженных лучей с помощью пиксельных шейдеров. В архитектуре Blackwell эффективность SER возросла вдвое, что способствует более эффективному использованию тензорных ядер при выполнении нейронных шейдеров. В архитектуре Blackwell также появились программируемый планировщик контекста. AI Management Processor (AMP)Новое решение основано на ядре RISC-V. Ранее подобные графические процессоры уже использовали схожий планировщик, однако AMP позволяет более гибко и эффективно распределять время GPU между различными задачами.
Технология Перестройка выполнения шейдеров (SER) позволяет при трассировке лучей перестраивать вычислительные потоки на GPU для наилучшего использования аппаратных возможностей. Динамическое переупорядочение особенно эффективно в сложных нагрузках, таких как трассировка пути. Потоки, выполняющие нейронные задачи, могут быть отправлены в тензорные ядра, SER ускоряет и нейронное затенение. В Blackwell SER был улучшен как аппаратным, так и программным путем. Основная логика переупорядочения SER в Blackwell вдвое эффективнее, что снижает накладные расходы. SER контролируется приложениями через небольшой API, что позволяет разработчикам применять переупорядочение более точно. Несколько игр с реализацией трассировки пути уже используют SER.
В контроллере вывода на дисплеи и медиадвижках GeForce RTX 50 произошли изменения. Графические процессоры Blackwell теперь поддерживают разъемы для вывода изображения. DisplayPort 2.1bДанные интерфейсы обеспечивают пропускную способность до 80 Гбит/с в режиме передачи UHBR 20. Это дает возможность использовать дисплеи с высоким разрешением и частотой обновления: 8K при 165 Гц (с DSC) и 4K при 480 Гц (также с DSC). В более обыденных случаях такая пропускная способность позволяет подключить 8K-дисплей с частотой обновления 60 Гц по одному кабелю.
Новые видеокарты GeForce RTX 50 поддерживают кодирование и декодирование видео с цветовой субдискретизацией 4:2:2 для форматов H.264 и H.265. Ранее архитектуры Ada Lovelace и предыдущие предлагали только поддержку 4:2:0 для этих форматов, в то время как новое семейство добавило возможность кодирования и декодирования с улучшенным качеством. Формат 4:4:4 сохраняет полное значение каждого канала цвета, но это приводит к большим размерам файлов и повышенной пропускной способности. Цветовая субдискретизация снижает эти требования за счет хранения меньшей информации о цвете. В формате 4:2:0 полные данные сохраняются только по яркости, а каналы цветности содержат лишь 25% исходной информации о цвете. Формат 4:2:2 предлагает баланс между сохранением цветовой информации и уменьшением размера файла, храня половину исходной цветовой информации.
Этот формат обеспечивает наилучшее качество и пользуется популярностью в дорогих полупрофессиональных и профессиональных видеокамерах, однако программное обращение данных затруднено из-за высокой требовательности к ресурсам. ФОРМАТ 4:2:2 предоставляет вдвое больше информации о цвете при размере файла всего на 30% большем по сравнению с 4:2:0. Эта дополнительная цветовая информация особенно полезна для HDR-контента и сохранения мелких деталей. На видеокартах без аппаратной поддержки декодирование 4:2:2 осуществляется программно, что создает довольно высокую вычислительную нагрузку. Аппаратная же поддержка декодирования 4:2:2 позволяет видеоредакторам работать с таким контентом без труда.
Программные возможности кодирования значительно медленнее по сравнению с аппаратными кодерами NVEnc 9-го поколения, доступными в решениях семейства Blackwell. Старшая пара из анонсированных решений семейства Blackwell имеет два декодера NVDec, как и их аналоги в Ada Lovelace, но производительность при работе с видеоданными в формате H.264 выросла вдвое. В чипах количество кодировщиков видеоданных разное — в топовом кристалле GB202 их три, а в рассматриваемом GB203 — два блока NVEnc. Также появился новый режим… AV1 Ultra High Quality (UHQ)Более требовательный алгоритм с незначительным повышением качества изображения.
Предварительная оценка производительности
Оценим теоретические характеристики видеокарт GeForce RTX 50, представленных на основе трех процессоров GB20x.
RTX 5090 | RTX 5080 | RTX 5070 Ti | RTX 5070 | |
---|---|---|---|---|
Графический процессор | GB202 | GB203 | GB203 | GB205 |
Транзисторов, млрд. | 92,2 | 45,6 | 45,6 | 31,1 |
Площадь чипа, мм² | 750 | 378 | 378 | 263 |
Количество ядер CUDA | 21760 | 10752 | 8960 | 6144 |
Количество блоков TMU | 680 | 336 | 280 | 192 |
Количество блоков ROP | 176 | 112 | 96 | 80 |
Количество RT-ядер | 170 | 84 | 70 | 48 |
Тензорные ядра | 680 | 336 | 280 | 192 |
Турбо-частота, ГГц | 2,41 | 2,62 | 2,45 | 2,51 |
Объем памяти, ГБ | 32 | 16 | 16 | 12 |
Шина памяти, бит | 512 | 256 | 256 | 192 |
Пропускная способность, ГБ/с | 1792 | 960 | 896 | 672 |
Энергопотребление, Вт | 575 | 360 | 300 | 250 |
Цена, $ | 1999 | 999 | 749 | 549 |
Чип GB202, лежащий в основе видеокарты RTX 5090, установил рекорд сложности для игровых графических процессоров — 92,2 млрд транзисторов. Это число близко к чипу GB100, специализированному вычислительному чипу той же архитектуры Blackwell, состоящему из 104 млрд транзисторов. По площади кристалла GB202 (750 мм²) уступает лишь чипу TU102 архитектуры Turing (754 мм²). Флагманское решение включает 192 потоковых мультипроцессора SM, что дает в общей сложности 24576 CUDA-ядер. Пропускная способность этого GPU также впечатляет: 512-битный интерфейс памяти и память GDDR7 обеспечивают скорость передачи данных 1792 ГБ/с. Тем не менее, топовый GPU явно ограничен возможностями техпроцесса. В отличие от Ada Lovelace, которая с большим шагом по микроэлектронному производству позволила повысить вычислительную мощность более чем на 70%, GB202 превосходит своего предшественника лишь на треть. Инженерам Nvidia удалось разместить больше ALU и других блоков на той же площади, но не увеличить плотность транзисторов на единицу площади кристалла.
Остальные игровые чипы семейства Blackwell обладают характеристиками, значительно уступающими быстрому GPU. GB203, второй по счету, вдвое меньше флагмана как по площади, так и по сложности, и не слишком впечатляет количеством вычислительных блоков на фоне чипа AD103 предыдущего поколения с аналогичным позиционированием. Кроме того, шина памяти у GB203 вдвое уже — всего 256 бит. Однако с GDDR7-памятью это не является узким местом для такого уровня решения. При сравнении новинки с GeForce RTX 4080 и RTX 4080 Super ее тактовая частота лишь немного выше, а рост пиковой производительности не превышает 10%-15%. Таким образом, в играх без использования новых технологий RTX 5080 вряд ли значительно превзойдет графические процессоры предыдущего поколения того же уровня.
GeForce RTX 5080 располагает 16 ГБ GDDR7-памяти с эффективной частотой 30 ГГц, подключенной по 256-битной шине. Это обеспечивает пропускную способность 960 ГБ/с, что на треть выше по сравнению с RTX 4080. Прирост производительности может привести к соответствующему росту частоты кадров, но вряд ли превысит 25%-30% в общем случае. Лишь в самых требовательных играх с трассировкой лучей прирост составит более 15%-20%. Улучшения также возможны в играх с расчетом глобального освещения, где обрабатывается большое количество отражений лучей, так как эти алгоритмы часто сталкиваются с ограничениями по пропускной способности памяти.
С энергопотреблением в 360 Вт, превышающим 320 Вт у предыдущих моделей, новая версия для многих читателей выглядит скорее как GeForce RTX 4080 Ti, чем как RTX 5080. Nvidia сохранила рекомендованную цену в $999, поэтому она напоминает улучшенную RTX 4080 Ti. Но всё же аппаратные улучшения в графической архитектуре есть, хоть и незначительные. Это скорее RTX 5080 с косметическими аппаратными изменениями. К сожалению, разрыв между RTX 5080 и RTX 5090 в этом поколении очень велик: у флагмана все характеристики вдвое или почти вдвое лучше, включая объем памяти с ПСП. Цена отличается ровно вдвое.
Технический прогресс замедлился по объективным причинам, поэтому рост производительности GPU не может происходить прежними темпами. Специалистам Nvidia пришлось извлечь максимум из техпроцесса 5 нм с помощью новой функциональности, и Blackwell отличается новыми возможностями технологии DLSS, внедрением нейронных шейдеров и другими функциями. Это продолжение движения к тому, чтобы рендеринг осуществлялся не только традиционными исполнительными блоками, но и дорисовыванием пикселей при помощи масштабирования и генерации кадров с помощью DLSS 4, а в будущем — широким использованием нейронных шейдеров.
Nvidia традиционно демонстрирует превосходство новинки над RTX 4080 в два и более раза, но этот прирост производительности не всегда честный. Часто он основан на многокадровой генерации, а качество масштабирования может быть недостаточным, хотя в DLSS 4 серьёзно его улучшили, устранив многие артефакты прошлых версий. Иногда, даже при высокой частоте кадров, из-за работы MFG большие задержки ввода всё равно не позволят комфортно играть, так как реальная родная частота кадров будет ниже уровня минимального комфорта.
Чистая производительность для графических процессоров всё ещё важна. GeForce RTX 5080 в этом аспекте почти не уступает RTX 4080. В прошлых поколениях увеличенная мощь RTX 4080 позволяла догнать предыдущего флагмана, но на этот раз RTX 4090 остаётся быстрее. Новая модель всё ещё стоит дорого, а RTX 5080 по рекомендованной цене не отличается от предшественников такого же уровня. Непонятно, по каким реальным ценам можно будет купить решения новой линейки, так как они пока в дефиците.
Характеристики видеокарты Palit GeForce RTX 5080 GameRock с памятью объёмом 16 ГБ.
Сведения о производителеКомпания Palit Microsystems (торговая марка Palit) была основана в 1988 году в Китайской Республике (Тайвань). Штаб-квартира находится в Тайбэе, центр по логистике — в Гонконге. Второй офис (по продажам в Европе) — в Германии. Фабрики компании расположены в Китае. На рынке в России Palit присутствует с 1995 года. Первоначально компания продавала безымянные продукты под названием Noname, а продукцию под маркой Palit начала поставлять после 2000 года. В 2005 году компания приобрела торговую марку и ряд активов Gainward (после банкротства одноименной компании), в результате чего был образован холдинг Palit Group. Открылся еще один офис в Шеньжене, ориентированный на продажи в Китае. На сегодняшний день внутри Palit Group сосредоточено несколько торговых марок и брендов. .
Объект исследованияВидеокарта Palit GeForce RTX 5080 GameRock с объемом памяти 16 ГБ и шиной 256 бит.
Видеокарта Palit GeForce RTX 5080 GameRock объемом памяти 16 ГБ с шиной памяти GDDR7 шириной 256 бит. | ||
---|---|---|
Параметр | Значение | Номинальное значение (референс) |
GPU | GeForce RTX 5080 (GB203) | |
Интерфейс | PCI Express x16 5.0 | |
Частота работы GPU (ROPs), МГц | BIOS P: 2617(Boost)—2842(Max) BIOS S: 2617(Boost)—2842(Max) |
2617(Boost)—2850(Max) |
Рабочая частота памяти (физическая, МГц; эффективная, Гбит/с) | 2500 (30) | 2500 (30) |
Ширина шины обмена с памятью, бит | 256 | |
Число вычислительных блоков в GPU | 84 | |
Число операций (ALU/CUDA) в блоке | 128 | |
Суммарное количество блоков ALU/CUDA | 10752 | |
Число блоков текстурирования (BLF/TLF/ANIS) | 336 | |
Число блоков растеризации (ROP) | 112 | |
Число блоков Ray Tracing | 84 | |
Число тензорных блоков | 336 | |
Размеры, мм | 330×150×71 | 310×120×40 |
Видеопамять на системном блоке. | 4 | 2 |
Цвет текстолита | черный | черный |
Энергопотребление пиковое в 3D, Вт (BIOS P/BIOS S) | 346/347 | 360 |
Энергопотребление в режиме 2D, Вт | 37 | 37 |
Энергопотребление в режиме «сна», Вт | 10 | 10 |
Уровень шума при максимальной загрузке в 3D, дБА (настройки BIOS P/BIOS S). | 31,9/28,7 | 39,0 |
Уровень шума в 2D (просмотр видео), дБА | 18,0 | 18,0 |
Уровень шума в 2D (в простое), дБА | 18,0 | 18,0 |
Видеовыходы | 1×HDMI 2.1b, 3×DisplayPort 2.1b | 1×HDMI 2.1b, 3×DisplayPort 2.1b |
Поддержка многопроцессорной работы | нет | |
Максимальное число приемников и мониторов для одновременной картинки | 4 | 4 |
Питание: 8-контактные разъемы | 0 | 0 |
Питание: 6-контактные разъемы | 0 | 0 |
Питание: 16-контактные разъемы | 1 | 1 |
Вес карты с комплектом поставки (брутто), кг | 3,22 | 2,9 |
Вес карты чистый (нетто), кг | 2,2 | 2,0 |
Максимальное разрешение/частота, DisplayPort | 3840×2160@240 Гц, 7680×4320@120 Гц | |
Максимальное разрешение/частота, HDMI | 3840×2160@144 Гц, 7680×4320@120 Гц | |
Примерная цена видеокарт с чипом GeForce RTX 5080. | 180 000 рублей |
Память
Карта оснащена 16 гигабайтами оперативной памяти GDDR7 SDRAM, распределёнными между восемью микросхемами по 16 гибитов на главной плате. Производителем микросхем памяти является компания Samsung. K4VAF325ZC-SC32Проектированы для работы на номинальной частоте 2666 МГц с эффективной ПСП 32 МТ/с.
Характеристика карты и её сравнение с Palit GeForce RTX 4080 Super GamingPro (16 ГБ).
Сравниваем новинку с продуктом прошлого поколения, обладающим аналогичным уровнем (GeForce RTX 4080 Super). Очевидно, что карты отличаются существенно, несмотря на одинаковые шины обмена с памятью. Графические ядра различаются по размерам, система питания претерпела изменения, а печатная плата стала короче, но при этом выше (благодаря высокой системе охлаждения).
Ядро выпущено на 51-й неделе 2024 года (кристалл изготовлен по техпроцессу TSMC 4N — по разным оценкам это 5 нм). Обозначение — GB203-400, а -400 обычно указывает на полнофункциональный чип (все блоки активны). Следовательно, если в будущем появится вариант GeForce RTX 5080 Super/Ti на базе GB203, повышение производительности будет возможно только за счет увеличения частот работы.
Видеокарта Palit GeForce RTX 5080 GameRock имеет общее число фаз питания, равное девятнадцати — шестнадцать плюс три.
На схеме питание ядра обозначено зеленым цветом, память — красным.
Шестнадцать фаз питания ядра регулирует ШИМ-контроллер MP29816 от Monolithic Power Systems. Это устройство рассчитано на максимум шестнадцать фаз и размещено на обратной стороне платы.
В преобразователе питания ядра и микросхем памяти применяют транзисторные сборки DrMOS — MP87993 от компании MPS, предназначенные для тока до 90 ампер.
Питание микросхем памяти контролирует ШИМ-контроллер MPS MP2988 с OEM-маркировкой, работающий до трёх фаз и находящийся на лицевой стороне платы.
На обратной стороне платы напечатана схема с контроллером от компании On Semi, который следит за напряжениями и температурами.
В видеокартах Palit управление подсветкой реализовано с помощью контроллера Holtek.
Карта функционирует в двух режимах, заданных двумя вариантами BIOS, переключение между которыми осуществляется посредством переключателя на лицевой панели карты. P (performance / производительный, он же 1) и S (silent / тихий, он же 2)Режимы отличаются лишь скоростью вращения вентиляторов, максимальное потребление энергии у обоих режимов равно 360 Вт.
Частоты памяти и значение Boost для частоты ядра в обоих режимах BIOS (1(P)/2(S)) совпадают с референсными. Максимальная частота GPU Palit немного ниже референсной (на 8 МГц), что не влияет на производительность. Исследования показали, что Palit демонстрирует такую же производительность в играх, как и референсная карта.
В тестах энергопотребление видеокарты Palit достигало … 346 Вт (в режиме BIOS P) и до 347 Вт Однако, в игре Cyberpunk 2077 при определенных настройках графики энергопотребление может достигать 363 Вт.
Ручной разгон позволил достичь частот 2955/31538 МГц, что при игре в разрешении 4К увеличило производительность всего на 2,5% по сравнению с базовыми показателями. Невозможно повысить лимит энергопотребления, поэтому реальный прирост скорости оказался незначительным. Энергопотребление карты составило 349 Вт.
Питание для видеокарты Palit поступает по разъёму питания типа PCIe 5.0 с шестнадцатью контактами.
В комплект поставки карт входит переходник на разъем такого типа с тремя стандартными 8-контактными разъемами.
Карта отличается внушительными размерами, особенно толщина — свыше семи сантиметров. Из-за этого видеокарта занимает четыре слота в корпусе компьютера.
GeForce RTX 5080 не Поддерживает многокарточную конфигурацию по технологии SLI, специальный разъем для этого отсутствует на верхней части карты.
Карта оснащена тремя видеовыходами DP 2.1b и одним выходом HDMI 2.1b.
ThunderMaster, фирменная утилита для управления работой карты, уже неоднократно упоминалась нами. Программа позволяет управлять вентиляторами (три вентилятора объединены в два блока: центральный и боковые), частотами работы карты, напряжением ядра, а также осуществляет мониторинг состояния карты.
Нагрев и охлаждение
Видим кулер, охлаждающий радиатор через отверстия в его задней части. Система охлаждения состоит из большого многосекционного радиатора из никелированных пластин с тепловыми трубками, передающими тепло по ребрам радиатора.
Восемь трубок приварены к большой медной испарительной камере. Она охлаждает как ядро, так и микросхемы памяти с помощью термопрокладок. Термопастой обеспечивается теплообмен для охлаждения ядра (не жидкий металл!).
На радиаторе для преобразователей питания VRM установлены отдельные подошвы, предназначенные для их охлаждения. Задняя пластина выполняет функцию защиты платы печатных проводников (PCB).
Радиатор закрывает кожух с тремя вентиляторами диаметром 92 мм, у которых по девять лопастей и одинаковая скорость вращения (по умолчанию; через программу ThunderMaster можно настроить отдельно центральный и два крайних). Кожух из литого алюминия является массивной рамой, обеспечивающей жесткость всей конструкции.
Радиатор имеет пластины с наклоном тридцати градусов. Такое решение уменьшает шум и улучшает охлаждение.
При малой нагрузке на видеокарту вентиляторы останавливаются при температуре GPU ниже 50 градусов и нагреве микросхем памяти ниже 80 градусов. При запуске ПК вентиляторы работают, но после загрузки видеодрайвера происходит опрос рабочей температуры, после чего вентиляторы выключаются. видеоролик на эту тему.
Мониторинг температурного режима:
Последняя на момент написания материала версия 8.20 утилиты HWInfo ещё не поддерживала GeForce RTX 50, поэтому часть показаний с её датчиком была не совсем корректной. Для демонстрации температурных показателей и максимального энергопотребления использовалась утилита MSI Afterburner 4.6.6.beta5.
Обратите внимание, что инженеры Nvidia исключили из отслеживаемых данных показатель температуры самой горячей точки ядра (hot spot). Из-за этого программа HWInfo выдает неверные значения, проигнорировать которые рекомендуется.
Режим BIOS 1(P):
Максимальная температура ядра при работе под нагрузкой составила не более 71 градуса, а микросхем памяти — 76 градусов, что хорошо. Мощность потребления карты достигала 346 Вт.
Мы засняли и ускорили в 50 раз 8-минутный прогрев
Нагрев был наибольшим внизу платы в районе разъема PCIe и рядом с разъемом питания карты.
При ручной регулировке температуры графического процессора практически не изменились показатели работы, кроме незначительного роста частоты вращения вентиляторов, а энергопотребление достигло 349 Вт.
Режим BIOS 2(S):
Максимальная температура ядра после нагрузки не превысила 75 градусов, микросхем памяти — 80 градусов, что является приемлемым показателем. Энергопотребление карты достигало 347 Вт.
Шум
Измерение шума проводится в изолированном помещении без реверберации. Изучаемый системный блок не имеет вентиляторов и не генерирует механический шум. Базовый уровень шума составляет 18 дБА, он включает шум помещения и самого шумомера. Измерения выполняются с расстояния 50 см от видеокарты на уровне системы охлаждения.
Режимы измерения:
- В режиме ожидания в двумерном изображении открыт веб-браузер с сайтом iXBT.com, окно программы Microsoft Word и несколько интернет-программ для общения.
- Функция просмотра фильмов в режиме 2D использует аппаратное декодирование со вставкой промежуточных кадров от проекта SmoothVideo Project (SVP).
- Проводятся тесты FurMark при максимальной нагрузке на графический процессор в режиме трёхмерного отображения.
Классификация уровней шума представлена следующим образом:
- менее 20 дБА: условно бесшумно
- от 20 до 25 дБА: очень тихо
- от 25 до 30 дБА: тихо
- от 30 до 35 дБА: отчетливо слышно
- от 35 до 40 дБА: громко, но терпимо
- выше 40 дБА: очень громко
В режиме ожидания двухмерная система нагрелась не более чем до 34 градусов Цельсия, вентиляторы были отключены, шум составлял 18 децибел — уровень окружающего шума.
Во время просмотра фильма с аппаратным декодированием происходили изменения.
Режим BIOS 1(P):
При максимальной нагрузке температура процессора в трехмерном режиме достигала 71/76 градусов по Цельсию (ядро/память). Вентиляторы вращались со скоростью 2290 оборотов в минуту, шум составлял 31,9 децибел: слышно отчетливо.
Аудиозапись шума — здесь. Спектрограмма шума проблем не выявила:
Режим BIOS 2(S):
При максимальной нагрузке в трёхмерной графике температура составляла 75/80 градусов по Цельсию (ядро/память). Вентиляторы достигали скорости 1850 оборотов в минуту, шум повышался до 28,7 децибел. Это тихое значение шума.
Подсветка
Карта оборудована стильной подсветкой «хамелеон» по всей лицевой стороне корпуса. Подсветка «хамелеон» прекрасно выглядит и без включения, меняя цветовую гамму в зависимости от внешнего освещения.
На верхней грани карты обозначен логотип серии.
Регулирование режимов подсветки, включая её отключение, выполняется с помощью программы ThunderMaster.
В карте можно сохранить выбранный режим, таким образом, после настройки подсветки однажды программа запускаться не потребуется.
Комплект карт серии GameRock включает кабель для подключения к разъему ARGB (5 В) на материнской плате. Это позволяет синхронизировать работу подсветки с платой. В таком случае запускать утилиту ThunderMaster не нужно: карта самостоятельно определит подключение, и подсветка будет синхронизирована по умолчанию.
Комплект поставки и упаковка
В комплект входят карта, блок питания, регулируемая подставка под видеокарту, наклейки и коврик для мыши.
Тестирование: синтетические тесты
Провели испытания новой видеокарты Nvidia на штатных частотах в комплексе тестовых программ. Сет постоянно обновляется: иногда добавляются новые тесты, а устаревшие исключаются. Пожелание добавить больше примеров с вычислениями сталкивается с трудностями. Постоянно совершенствуем и расширяем набор тестовых программ.
Если у вас есть конкретные и обоснованные предложения — напишите их в комментариях к статье или авторам.
Среди новых бенчмарков добавили тесты производительности трассировки лучей, масштабирования разрешения и увеличения производительности (DLSS, FSR и XeSS). В качестве полусинтетических тестов также используется набор подтестов из 3DMark: Time Spy, Port Royal, DX Raytracing, Speed Way и др. Приложения DirectX 11 и 12 из разных SDK пришлось исключить, так как они все чаще показывали некорректные результаты, делая анализ бесполезным.
На таких видеокартах выполняли синтетические тесты.
- GeForce RTX 5080 со стандартными параметрами на шине PCIe 5.0 (RTX 5080 PCIe 5)
- GeForce RTX 5080 со стандартными параметрами на шине PCIe 4.0 (RTX 5080 PCIe 4)
- GeForce RTX 4090 со стандартными параметрами (RTX 4090)
- GeForce RTX 4080 Super со стандартными параметрами (RTX 4080 Super)
- Radeon RX 7900 XTX со стандартными параметрами (RX 7900 XTX)
Для оценки производительности новой видеокарты GeForce RTX 5080 использовали две видеокарты Nvidia предыдущего поколения. Первая — флагманская RTX 4090, самая мощная модель на основе прежней архитектуры. Сравним, насколько новая карта приблизилась к ней. Вторая — RTX 4080 Super того же ценового уровня, которую заменяет новинка семейства Blackwell. По их сравнительным результатам станет понятно: смогла ли новая архитектура ускорить решение этого уровня задач и насколько сильно на производительности сказывается пропускная способность памяти, так как по количеству исполнительных блоков карты довольно близки.
В качестве прямого конкурента для новой модели выбрали Radeon RX 7900 XTX, так как это самая мощная видеокарта компании AMD и по рыночной цене близка к новинке. Другие видеокарты Radeon не подходят для сравнения с RTX 5080 из-за меньшей мощности и цены, а новое поколение GPU пока не представлено на рынке. Сравнение с таким соперником даст представление о том, насколько хороша новинка по сравнению с единственной условно конкурирующей моделью.
Тесты 3DMark Vantage
В течение многих лет обращаем внимание на синтетические тесты из пакета 3DMark Vantage, поскольку в них часто можно обнаружить сведения, отсутствующие в более современных тестах. Тесты Feature этого пакета поддерживают DirectX 10 и остаются относительно актуальными. При анализе результатов новых видеокарт мы всегда получаем полезные выводы.
Feature Test 1: Texture Fill
Первый тест оценивает работу блоков текстурных выборок. В нём заполняется прямоугольник данными из малой текстуры с помощью большого числа переменных текстурных координат, которые меняются каждую секунду.
Эффективность работы видеокарт AMD и Nvidia в текстурном тесте Futuremark обычно высока, результаты близки к теоретическим параметрам, хотя иногда получаются несколько заниженными для некоторых GPU. Производительность полной версии графического процессора GB203 в этом тесте оказалась на ожидаемом уровне — RTX 5080 немного превзошла предшественницу, обойдя RTX 4080 Super на 8%, что чуть ниже ожиданий исходя из теории.
Новая видеокарта превосходит единственного прямого конкурента от AMD по результатам теста, несмотря на то, что предыдущие поколения Radeon показывали лучшие результаты. Тем не менее, эффективность текстурирования текущей линейки Radeon снизилась, и аналогичные по цене карты Nvidia догнали её. Что касается топовой модели прошлого поколения — RTX 4090, — она значительно опережает остальных участников теста, что естественно при огромном количестве блоков текстурирования в ее арсенале.
Feature Test 2: Color Fill
Вторая задача — тестирование скорости заполнения пикселями. Для нее применяется простая пиксельная шейдерная программа, не оказывающая существенного влияния на производительность. Интерполированный цвет записывается в внеэкранный буфер с использованием альфа-блендинга. Буфер 16 бит формата FP16, часто применяемый в играх с HDR-рендерингом, делает этот тест актуальным.
Результаты второго подтеста 3DMark Vantage демонстрируют производительность блоков ROP без учета пропускной способности видеопамяти. Тест фокусируется именно на производительности подсистемы ROP, а блок шейдерного процессора обычно не оказывает явного влияния на результаты. У новой видеокарты GeForce RTX 5080 ситуация почти такая же, как у предшественницы RTX 4080 (Super): новинка опережает более старый GPU по скорости подсистемы ROP на 11%, что близко к теоретической разнице. Понятно, что топовое решение предыдущего поколения заметно быстрее, так как обладает большим количеством блоков ROP.
В данном тестировании все видеокарты Nvidia проигрывают флагманской модели AMD Radeon RX 7900 XTX, которая обошла даже RTX 4090. GeForce по пиковой скорости заполнения сцены всегда уступали конкурентам, поэтому подобные результаты в этом тесте не удивительны.
Тест функционала 3: Параллаксное скрытие отображения.
Этот тест относится к категории интересных, поскольку подобные методики применяются в играх с давних пор. В нем создается четырёхугольник (точнее, два треугольника) с использованием техники Parallax Occlusion Mapping, которая визуализирует сложную геометрию. Для этого используются ресурсоёмкие операции трассировки лучей и карта глубины высокого разрешения. Поверхность также освещается при помощи алгоритма Strauss. Данный тест представляет собой серьёзную нагрузку для видеочипа пиксельного шейдера: многочисленные текстурные выборки во время трассировки лучей, динамические ветвления и сложные расчеты освещения по Strauss.
Результаты теста из пакета 3DMark Vantage зависят от нескольких параметров одновременно, а не только от скорости математических вычислений, эффективности исполнения ветвлений или скорости текстурных выборок. Для достижения высокой скорости важен правильный баланс GPU и эффективность выполнения сложных шейдеров. Тест довольно полезен, так как результаты в нем часто коррелируют с результатами игровых тестов.
Математическая и текстурная производительность важны, и в бенчмарке 3DMark Vantage новая модель GeForce RTX 5080 демонстрирует ожидаемый результат, близкий к показателю модели RTX 4080 Super — лишь на 8% быстрее. Небольшое количество улучшений в новом GPU привело к такому скромному приросту скорости. Топовая RTX 4090 предыдущего поколения всё ещё лидирует, а конкурент новинки, видеокарта Radeon RX 7900 XTX, показала такой же результат, как рассматриваемая модель семейства Blackwell.
Feature Test 4: GPU Cloth
Четвёртый тест интересен тем, что в нём рассчитываются физические взаимодействия (имитация ткани) с помощью графического процессора.
Используется вершинная симуляция, которая сочетает работу вершинных и геометрических шейдеров в нескольких проходах. Для передачи вершин из одного прохода симуляции в другой применяется stream out. Таким образом проверяется производительность работы вершинных и геометрических шейдеров, а также скорость stream out.
Скорость рендеринга в тесте зависит от нескольких параметров. Главными факторами являются производительность обработки геометрии и эффективность выполнения шейдеров. Преимущество чипов Nvidia должно проявиться в этом тесте, но ранее получаемые результаты не всегда корректны, поэтому стоит принимать их с оговоркой.
Ранее подобная ситуация наблюдалась только у GeForce, но со временем и видеокарты Radeon попали в ту же ловушку — последние решения AMD и их драйверы демонстрируют низкие результаты. Вероятно, причина кроется в драйверах, которые давно не оптимизируются для устаревшего тестового пакета. Новая модель оказалась почти на 40% быстрее предшественницы RTX 4080 Super — возможно, новый драйвер работает лучше, а может быть, ускорились аппаратные блоки, так как в них были внесены некоторые изменения.
Feature Test 5: GPU Particles
Тест физической симуляции эффектов на основе систем частиц, рассчитываемых графическим процессором. В тесте применяется вершинная симуляция: каждая вершина моделирует отдельную частицу. Stream out используется для оптимизации расчетов, как и в предыдущем тесте.
Сотни тысяч частиц анимируются отдельно, с учетом столкновений с картой высот. Отрисовка частиц реализована геометрическим шейдером, который из каждой точки создает четыре вершины – составляющие частицы. Наибольшую нагрузку испытывают шейдерные блоки за счет расчетов вершин, также тестируется Stream out.
Во втором геометрическом тесте из 3DMark Vantage новинки демонстрируют результаты, далекие от теоретических, поэтому не факт, что они достоверны. Если считать результаты корректными, то рассматриваемая новая видеокарта архитектуры Blackwell показала результат между моделями RTX 4080 Super и RTX 4090, что подтверждает теорию. Условно конкурирующая со всеми топовая Radeon RX 7900 XTX проиграла всем представленным в сравнении видеокартам Nvidia, что можно объяснить разве что плохой оптимизацией драйверов, ведь раньше результаты GPU обоих производителей были заметно выше.
Feature Test 6: Perlin Noise
Последние тесты пакета Vantage – это математически сложные испытания для графического процессора. Они рассчитывают несколько октав алгоритма шума Perlin в пиксельном шейдере. Каждый цветовой канал применяет собственную функцию шума, увеличивая нагрузку на видеочип. Алгоритм Perlin noise — стандартный метод, часто используемый при процедурном текстурировании, он основан на большом количестве математических вычислений.
Результаты математического теста показывают производительность решений, близкую к пиковой мощности видеочипов в сложных задачах, хотя и не всегда полностью соответствующую теории. Тест использует операции с плавающей запятой, новые архитектуры могли продемонстрировать возможности двойного запуска команд, но устаревшая конструкция теста не позволяет fully оценить потенциал современных GPU по их результатам.
Новая видеокарта GeForce RTX 50 отстала от старшей модели RTX 4090 всего на 10% по сравнению с предшественницей аналогичного уровня. В сравнении с Radeon RX 7900 XTX GeForce RTX 5080 оказалась быстрее. Сейчас проверим её работу в современных синтетических тестах с повышенной нагрузкой.
Тесты Direct3D 12
В наших тестах исключены примеры из SDK Microsoft и AMD, применяющие API Direct3D12, поскольку они по большей части демонстрируют некорректные результаты. В качестве единственного вычислительного теста с поддержкой Direct3D12 в этом разделе остался бенчмарк Time Spy из 3DMark. Нас интересует не только общее сравнение GPU по производительности, но и различие в результатах при включенной и отключенной возможности асинхронных вычислений, представленных в DirectX 12. Для объективности мы протестировали видеокарты в двух графических тестах.
С тестов сравнивали производительность новой GeForce RTX 5080 в двух режимах работы — по шине PCIe 5.0 и 4.0. Разница оказалась незначительной. Новое решение Nvidia в этой задаче по сравнению с видеокартой предыдущего поколения того же уровня оказалось быстрее на 10%-15%, что соответствует теории о разнице в этих рамках. Удивительно, что до RTX 4090 новому решению не так уж далеко, оно расположилось ровно посередине между парой GPU предыдущей архитектуры.
В данном тесте видеокарты Radeon обычно превосходят по производительности более доступные GeForce. Новая GeForce RTX 5080 показала практически такую же производительность, как и Radeon RX 7900 XTX, а также RTX 4080 Super. Однако важно отметить, что результаты этого теста не всегда коррелируют с реальной игровой производительностью. Возможно, в задачах растеризации решения AMD будут немного эффективнее, но перейдем к тестам трассировки лучей, где ситуация меняется.
Тесты трассировки лучей
Бенчмарк Port Royal от создателей тестов серии 3DMark — один из первых тестов производительности трассировки лучей. Этот тест функционирует на всех видеокартах с поддержкой DirectX Raytracing API. Проверили несколько видеокарт в разрешении 2560×1440 при разных настройках: отражения рассчитывались трассировкой лучей в двух режимах и традиционным для растеризации методом.
Бенчмарк демонстрирует новые возможности применения трассировки лучей через DXR API, используя алгоритмы отрисовки отражений и теней с её помощью. Тест, однако, не слишком оптимизирован и сильно нагружает, даже мощные GPU. Для сравнения производительности различных GPU в этой конкретной задаче тест всё же подходит.
Результаты теста наглядно демонстрируют разницу подходов компаний AMD и Nvidia к аппаратной поддержке трассировки лучей, по крайней мере до RDNA3 включительно, хотя последняя немного улучшила положение. Новая GeForce RTX 5080 показала ожидаемый результат, обогнав RTX 4080 Super на 15%-20% — подтверждается предположение, что в сложных условиях новинка может оторваться сильнее. Обе видеокарты уровня RTX x080 заметно медленнее недавней топовой модели RTX 4090. Единственное решение конкурента в этом тесте оказалось не таким уж плохим: RX 7900 XTX медленнее и RTX 4080 Super, но отставание не критичное.
Новый подтест 3DMark проверяет производительность трассировки лучей DirectX Raytracing. В отличие от предыдущего, он не гибридный и не использует растеризацию, а только трассировку лучей, отображая скорость GPU именно по возможностям аппаратного ускорения. Сцена в бенчмарке знакома по другим подтестам 3DMark и небольшая — BVH-структура может поместиться в большой кэш, что потенциально помогает новым видеокартам.
В этих условиях GeForce существенно опережают Radeon, поскольку выделенные RT-ядра Nvidia выполняют большую часть работы и обладают большей универсальностью. Переход к трассировке лучей не снижает производительность RT-ядер так значительно, как у ядр Ray Accelerator + обычных SIMD-ядер конкурента. В большинстве игр с применением трассировки лучей нагрузка на RT-блоки заметно меньше, и положение Radeon улучшается. Тем не менее, в данном тесте видеокарты Nvidia сохраняют явное преимущество.
Первый тест показал неожиданное падение новой GeForce RTX 5080: вместо ожидаемого превосходства над RTX 4080 Super она продемонстрировала результат вдвое хуже, сравнимый только с единственным решением конкурента. Обычно трассировка лучей даёт больший прирост скорости, чем чистая растеризация, но в данном случае что-то пошло не так – вероятно, вина драйверов, так как во всех остальных тестах результаты соответствуют ожиданиям. Стоит отметить, что это редко используемый синтетический тест, о котором почти все забыли, и в играх такого результата нет.
В 2022 году к пакету 3DMark добавили тест Speed Way с высокой нагрузкой на трассировку лучей в преддверии выхода новых графических процессоров Nvidia и AMD. Тест по своей нагрузке на различные блоки GPU больше напоминает популярные игровые проекты, активно использующие трассировку лучей, что делает его для нас весьма интересным.
Приемлемая частота кадров в обоих разрешениях демонстрируют преимущественно топовые GPU, и GeForce RTX 5080 достиг такого уровня, приблизившись к 60 FPS в 4K. Разница между Radeon и GeForce уменьшилась, единственная видеокарта AMD в данном сравнении не сильно уступает по стоимости конкурирующему RTX 4080 Super. Новое решение серии Blackwell на 22%-23% превосходит RTX 4080 Super в этом тесте, поэтому прирост производительности в сложных условиях может быть больше теоретически прогнозируемых 15%. Даже бывшая флагманская модель RTX 4090 всего лишь на 10%-12% быстрее новинки.
Рассмотрим полусинтетический бенчмарк Boundary, разработанный на реальном игровом движке из Китая. Проект поддерживает DXR и DLSS. Бенчмарк предъявляет серьезные требования к GPU, активно использующий трассировку лучей для сложных отражений с несколькими отскоками луча, мягких теней и глобального освещения. В тестах Radeon использовать технологию DLSS невозможно.
Даже при Full HD разрешении приемлемо работают только мощные видеокарты, а самая быстрая на сегодня карта от AMD уступает всем GeForce, но всё равно показала больше 60 FPS. В 4K разрешении играбельно только на топовой RTX 4090, даже новая RTX 5080 не смогла показать более 40 FPS. Новая модель обошла RTX 4080 Super всего на 13% в 4K, а в Full HD они очень близки. Тест показал, что скорость не ограничивается пропускной способностью видеопамяти, так как у RTX 5080 она много выше, но это ей ничего не дало. Показатели единственной представленной в сравнении карты Radeon почти вдвое ниже, в тестах трассировки лучей решения AMD не могут конкурировать с GeForce.
С включением масштабирования разрешения качественным методом DLSS 2 все протестированные видеокарты Nvidia даже в 4K обеспечивали приемлемую частоту кадров, превысив порог в 60 FPS. Новая модель GeForce RTX 5080 показала результаты до 20% выше, чем RTX 4080 Super. При такой нагрузке только включение DLSS позволяет играть в 4K-разрешении при максимальных настройках в самых требовательных играх. К сожалению, в еще одном знакомом игровом бенчмарке, основанном на китайской игре — Bright Memory — новая видеокарта не заработала, как и на видеокарты AMD.
Вычислительные тесты
Продолжаем искать бенчмарки с использованием OpenCL для актуальных вычислительных задач, чтобы добавить их в набор синтетических тестов. Пока что этот раздел включает старый и не слишком хорошо оптимизированный тест трассировки лучей (не аппаратной) — LuxMark 3.1. Кроссплатформенный тест основан на LuxRender и использует OpenCL.
Видеокарта GeForce RTX 5080, построенная на полном чипе GB203, обладает лишь немного большим числом вычислительных блоков по сравнению с RTX 4080 Super, поэтому неудивительно, что в этом тесте она незначительно превзошла последнюю — всё объяснимо теорией. Только в среднем из трех тестов разница получилась выше ожидаемой, ну а RTX 4090 опережает остальных. Что касается топовой видеокарты конкурента, то результат новинки во всех подтестах выше, чем у лучшего Radeon, и в самом сложном подтесте разница двукратная. Более современный вариант шины PCIe практически не повлиял на скорость.
В-Ray Benchmark — еще один тест вычислительной производительности графических процессоров, основанный на трассировке лучей без использования аппаратного ускорения. Тест производительности на базе рендерера V-Ray демонстрирует возможности GPU в сложных расчетах и может показать преимущества новых видеокарт. В прошлых тестах использовались разные версии бенчмарка, выдающие результат в виде времени, затраченного на рендеринг, и в виде количества миллионов просчитанных путей за секунду, но остался только первый вариант.
Тест демонстрирует программную трассировку лучей, где новая модель GeForce RTX 5080 соответствовала по производительности RTX 4080 Super, и обе уступали RTX 4090. В этом тесте единственный Radeon, который можно рассматривать как конкурента, показал слабый результат, находясь скорее на уровне RTX 3090 Ti, чем более современных видеокарт Nvidia.
Новая модель не заработала ни в Cinebench 2024, ни в OctaneRender 2020.1.5. Возможно, эти приложения в будущем получат обновления с оптимизацией под серию GeForce RTX 50, но пока это временно заменили другими версиями бенчмарка V-Ray, с более продвинутыми возможностями. К сожалению, видеокарты AMD в них уже не работают.
Различий между версиями шины PCIe выявить не удалось, ее пропускная способность никак не сказывается на результатах. Новая GeForce RTX 5080 лишь немного превосходит RTX 4080 Super, что огорчает. Даже топовая модель прошлого поколения RTX 4090 хоть и быстрее остальных, но преимущество невелико. RTX 3090 Ti добавили для сравнения, чтобы было видно прирост производительности в прошлых тестах по сравнению с нынешним поколением GPU — разница очевидна.
Для данного теста отсутствуют данные предыдущей модели флагмана, однако новая модель GeForce RTX 5080 превосходит аналогичную Super-модель прошлого поколения на 22% в режиме CUDA. При включенном аппаратном ускорении RTX производительность графических процессоров Nvidia возрастает, разница составила порядка 10%, что также является значительным показателем. Заметно, что даже RTX 3090 Ti не отстаёт слишком сильно.
Повышенная пропускная способность PCIe не принесла ожидаемого эффекта. Проверим влияние разных версий PCI Express — 5.0 и 4.0 — на производительность. Для этого воспользуемся тестом из пакета 3DMark, который измеряет пиковую пропускную способность по шине.
Видно, что максимальная пропускная способность зависит от версии шины PCIe. Разница между версией 5.0 и 4.0 меньше теоретически вдвое большей, но всё равно составила почти полтора раза большую. Правда, это в теории, а на практике такая высокая скорость передачи данных практически не меняет результаты реальных тестов — особой разницы между 5.0 и 4.0 мы не нашли ни в одном из тестов, есть лишь пара-тройка процентов преимущества. Но видеокарта нового поколения готова к будущему и сможет использовать возможности PCIe больше, когда и если это потребуется.
Шины PCI Express пятого поколения уже доступны в настольных компьютерах и применяются твердотельными накопителями, однако графические процессоры пока не получают существенного преимущества от удвоенной пропускной способности, поэтому решение не пользуется большой популярностью среди производителей видеокарт. Тем не менее, все анонсированные решения архитектуры Blackwell поддерживают ширину интерфейса в 16 линий PCIe 5.0, что может быть полезным в перспективе.
Тесты технологий DLSS/XeSS/FSR
В данном разделе разбираются дополнительные тесты, связанные с технологиями повышения производительности. Сначала это были технологии масштабирования разрешения (DLSS 1.x и 2.x, FSR 1.0 и 2.0, XeSS), затем добавилась технология генерации промежуточных кадров — DLSS 3, а позже — DLSS 4. Сначала в материалы включили отдельный тест технологии DLSS, хотя ранее уже проводились тесты с применением DLSS в приложениях с трассировкой лучей, посчитали полезным провести и отдельное тестирование. Рассмотрим результаты GPU компании Nvidia в разрешении 4K с включением технологии DLSS разных уровней качества нескольких версий.
В режиме Performance сначала выполняется рендеринг в низком разрешении, затем картинка масштабируется до 4K и дополняется сгенерированными кадрами. Без DLSS рендеринг производится в полном разрешении, что снижает производительность: даже RTX 4090 выдаёт лишь 58 FPS в 4K, чего недостаточно для комфортной игры. RTX 5080 и RTX 4080 Super справляются ещё хуже. При включении DLSS 2 в «производительном» режиме достигнутый уровень частоты кадров оказывается достаточным для всех видеокарт. Новая RTX 5080 быстрее RTX 4080 Super более чем на 10%, что не является самым впечатляющим приростом для нового поколения.
Не забывайте: у Blackwell есть свое преимущество — в отличие от видеокарт с графической архитектурой Ada Lovelace, где DLSS 3 генерирует один промежуточный кадр, в Blackwell их может быть до трех. Подробнее о технологии рассказано в теоретической части статьи, а на практике включение генерации промежуточных кадров дает RTX 5080 Super большое преимущество даже по сравнению с RTX 4090. При генерации одного дополнительного кадра новинка уступает предыдущему топовому решению, но включение DLSS 4 дает ей двукратное преимущество над RTX 4080 Super и полуторакратное — над RTX 4090.
В режиме качественного DLSS все GeForce обеспечивают более чем 60 FPS. Новая модель без генерации кадров опережает RTX 4080 Super на 16%, что близко к результатам без DLSS, но до предыдущего лидера RTX 4090 ей далеко. Генерация одного кадра повышает плавность при небольшом увеличении задержки управления, однако «настоящий» FPS должен быть не ниже 30-40 кадров в секунду, чтобы генерация кадров обеспечивала необходимую отзывчивость.
В режиме DLSS 3, с одним сгенерированным кадром, новая RTX 5080 почти дотягивает до уровня RTX 4090, так как Blackwell работает более эффективно с нейросетями. Увеличение количества дополнительных кадров до трех снова обеспечивает новинке двукратное преимущество над RTX 4080 Super и дает +60% к скорости RTX 4090. Плавность движения увеличивается, хотя сравнивать эти значения с количеством «настоящих» кадров сложно.
XeSS — это метод повышения производительности за счет рендеринга в меньшем разрешении и масштабирования до более высокого. Это аналог DLSS 2.0 от Intel, который также использует искусственный интеллект для восстановления информации в кадре. XeSS работает не только на редких видеокартах Intel, но и на всех современных GPU, хоть и не так эффективно, как на решениях Intel. Для тестирования использовался бенчмарк из пакета 3DMark с пониженным разрешением рендеринга.
XeSS может увеличить частоту кадров вдвое или даже больше. Технология универсальна и достойна внимания, так как DLSS, самая продвинутая, работает только на Nvidia, а FSR, самая универсальная, но самая простая, уступает DLSS по качеству и функциональности. В этом тесте GeForce RTX 5080 демонстрирует большую эффективность по сравнению с GeForce RTX 4090 и GeForce RTX 4080 Super — вероятно, программисты Nvidia оптимизировали это в драйверах.
Radeon RX 7900 XTX показывает не очень впечатляющие результаты по сравнению с новой моделью, а видеокарта AMD в целом отстает в этом тесте. Улучшения архитектуры Blackwell позволили новой модели стать не только производительнее RTX 4080 Super, но и превзойти RTX 4090, хотя в родном разрешении проигрывала ей. Разница между версиями шины PCIe в этот раз также отсутствует.
FSR 2.0 от AMD — ещё одно представительство семейства технологий масштабирования рендеринга. Эта технология недавно появилась в списке специализированных подтестов 3DMark. Сцены разных технологий масштабирования отличаются, сравнить их напрямую невозможно. Можно только оценить прирост производительности, но необходимо учитывать реальное разрешение рендеринга и разницу в качестве, что усложняет задачу.
FSR — универсальная технология, работающая практически одинаково на разных графических процессорах. В тестах FSR 2.0 особых откровений не наблюдалось. Radeon RX 7900 XTX оказался менее эффективным по сравнению с любыми Nvidia. При отключении FSR его производительность была на уровне RTX 4080 Super, но при каждом снижении разрешения рендеринга его производительность относительно видеокарты GeForce явно падала.
Новая модель GeForce RTX 5080 немного быстрее предыдущей версии, без FSR она была на 13% быстрее супер-предшественницы, как и ожидалось. С включением технологии масштабирования разница в скорости составила 15%-16%, но не более. В тестах этой технологии масштабирования ничего необычного не наблюдалось. За исключением многокадровой генерации в DLSS 4, новинка немного превосходит RTX 4080 Super по чистой скорости на 15% в среднем. Переходим к тестированию новой видеокарты Nvidia в реальных игровых тестах.
Тестирование: игровые тесты
Конфигурация тестового стенда
Конфигурация тестового стенда
Список инструментов тестирования
При проведении всех игровых тестов была выбрана максимальная графика.
- Чёрный Миф: У Конг (Игра Наука/Игра Наука)
- Cyberpunk 2077 от Софтклаба и CD Projekt RED, обновление 2.21 (январь 2025 года).
- Сага Сеною: Адская blade 2 (Ниндзя Теори/Xbox Games)
- «Call of Duty: Modern Warfare II» от Infinity Ward / Activision (без трассировки и DLSS/FSR/XeSS!).
- Alan Wake 2 (Remedy/Epic Games)
- Ratchet и Кланк: Разлом Реальности (Инсо́мниак Геймс/Сони/Софтклаб).
- Смерти Цушимы: Директоровское издание (Студия Sucker Punch Productions / Sony Interactive)
- Наследие Хогвартса (Аваланч Софтвейр/Варнер Браз)
- Avatar: Frontiers of Pandora (Ubisoft)
- Atomic Heart (Mundfish/VK)
- Индиана Джонс и Великий круг (Machine Games/Bethesda Softworks) с поддержкой RTX, DLSS, FSR и XeSS.
Кратко о производительности в 3D-играх
Прежде чем представить подробные тесты, сообщаем краткую информацию об эффективности серии, к которой принадлежит испытуемый ускоритель, и его конкурентов. Все это мы оценили субъективно по 7-балльной шкале.
Игры с классической растеризацией изображения. :
GeForce RTX 5080 занимает второе место среди протестированных карт (в ожидании GeForce RTX 5090). Такие топовые решения иногда не могут полностью проявить себя в классических играх, даже при разрешении 4K, — общая производительность ограничена ресурсами системы, прежде всего, производительностью процессора. В данном случае всё ясно: можно играть на максимальных настройках графики в любом разрешении, включая 4K (2160p), а в некоторых играх — даже в 8K.
Игровые проекты, применяющие трассировку лучей и технологии DLSS/FSR/XeSS. :
Во все игры можно играть с высокими настройками графики, даже в 4К, включив трассировку лучей. Динамическое масштабирование (апскейлинг) не обязательно. DLSS 3, а тем более DLSS 4, обеспечат значительный прирост FPS в разрешении 8K (правда, не во всех играх поддерживается DLSS в 8K, да и наличие 16 ГБ локальной видеопамяти уже станет обязательным).
По производительности в играх при включении RT и DLSS карта GeForce RTX 5080 опережает GeForce RTX 4090, поскольку три из десяти тестовых игр поддерживают DLSS4 с MFG, где показатели GeForce RTX 5080 заметно выше. Вопрос о «честности» такой производительности остаётся открытым для наших читателей.
Результаты тестирования в 3D-играх
Результаты тестов при стандартных настройках без использования аппаратной трассировки лучей в разрешениях 1920×1080, 2560×1440 и 3840×2160.
Black Myth: Wukong
Cyberpunk 2077 v.2.21
Senua’s Saga: Hellblade II
Call of Duty: Modern Warfare II
Alan Wake 2
Ratchet and Clank: Rift Apart
Ghost of Tsushima Director’s Cut
Hogwarts Legacy
Avatar: Frontiers of Pandora
Atomic Heart
Результаты тестов при активации аппаратной трассировки лучей и/или DLSS/FSR/XeSS в разрешениях 1920×1080, 2560×1440 и 3840×2160.
Black Myth: Wukong, RT+DLSS/FSR/XeSS
Cyberpunk 2077 v.2.21, RT
Cyberpunk 2077 v.2.21, RT + DLSS/FSR
Senua’s Saga: Hellblade II, DLSS/FSR/XeSS
Alan Wake 2, RT
Alan Wake 2, RT + DLSS/FSR
Ratchet and Clank: Rift Apart, RT
Раチェт и Кланк: Раздвоение реальностей, поддержка RT, DLSS/FSR/XeSS.
Ghost of Tsushima Director’s Cut, DLSS/FSR/XeSS
Hogwarts Legacy, RT
Hogwarts Legacy, RT + DLSS/FSR/XeSS
Avatar: Frontiers of Pandora, RT
Avatar: Frontiers of Pandora, RT + DLSS/FSR
Atomic Heart, DLSS/XeSS
Indiana Jones and the Great Circle, RT
Индиана Джонс и Великий круг, RTX с поддержкой DLSS/FSR/XeSS
Результаты тестов при включённой аппаратной трассировке лучей и применении технологий DLSS/FSR/XeSS с разрешением 7680×4320.
Cyberpunk 2077, RT + DLSS/FSR
Senua’s Saga: Hellblade II, DLSS/FSR/XeSS
«Раチェт и Кланк: Разлом реальности, RTX с поддержкой DLSS/FSR».
Ghost of Tsushima Director’s Cut, DLSS/FSR/XeSS
Hogwarts Legacy, RT + DLSS/FSR/XeSS
Indiana Jones and the Great, RT + DLSS/FSR/XeSS
Рейтинг iXBT.com
Методика расчета рейтингов
Рейтинг ускорителей iXBT.com Показать возможности видеокарт по сравнению друг с другом возможно в двух вариантах.
- Вариант рейтинга iXBT.com без включения RT
Рейтинг сформирован на основе всех тестов без применения трассировки лучей. Нормировка рейтинга выполнена относительно наименее мощного ускорителя из группы — Arc A310 (скорость и возможности Arc A310 приняты за 100%). Рейтинги составляются для 30 регулярно исследуемых нами акселераторов в рамках проекта. Лучшая видеокарта месяцаДля анализа отобрана группа видеокарт, включающая GeForce RTX 5080 и его аналоги.
Рейтинг приведен для разрешения 4K.
№ | Модель ускорителя | Рейтинг iXBT.com | Рейтинг полезности | Цена, руб. |
---|---|---|---|---|
01 | RTX 4090 24 ГБ, 2520—2640/21000 | 5365 | 188 | 286 000 |
02 | Palit RTX 5080 GameRock 16 ГБ, 2617—2850/30000 | 4899 | 272 | 180 000 |
03 | RTX 4080 Super 16 ГБ, 2550—2705/23000 | 4484 | 356 | 126 000 |
04 | RX 7900 XTX 24 ГБ, 2500—2990/20000 | 4412 | 398 | 111 000 |
05 | RTX 4080 16 ГБ, 2505—2625/22400 | 4152 | 338 | 123 000 |
GeForce RTX 5080 в разрешении 4K превосходит GeForce RTX 4080 Super на 9,2%, GeForce RTX 4080 — на 18%, а Radeon RX 7900 XTX — на 11%. При этом GeForce RTX 5080 уступает GeForce RTX 4090 — флагману предыдущего поколения — на 8,6%.
Современные флагманы в тяжёлых играх с включением RT наиболее интересны. Производительность в классических играх давно избыточна, однако прирост откровенно маловат для карт одной категории разных поколений, он скорее соответствует разнице между ускоренными вариантами типа Super или Ti внутри одного поколения.
- Рейтинг iXBT.com с поддержкой RT, DLSS, FSR и XeSS.
Рейтинг основан на результатах 10 тестов, где применяются технологии трассировки лучей вместе с Nvidia DLSS, AMD FSR или Intel XeSS. Рейтинг нормирован по производительности самой слабой в группе видеокарты — Arc A310 (скорость и возможности Arc A310 приняты за 100%).
Рейтинг приведен для разрешения 4K.
№ | Модель ускорителя | Рейтинг iXBT.com | Рейтинг полезности | Цена, руб. |
---|---|---|---|---|
01 | Palit RTX 5080 GameRock 16 ГБ, 2617—2850/30000 | 12134 | 674 | 180 000 |
02 | RTX 4090 24 ГБ, 2520—2640/21000 | 10783 | 377 | 286 000 |
03 | RTX 4080 Super 16 ГБ, 2550—2705/23000 | 9184 | 729 | 126 000 |
04 | RTX 4080 16 ГБ, 2505—2625/22400 | 8542 | 694 | 123 000 |
07 | RX 7900 XTX 24 ГБ, 2500—2990/20000 | 6208 | 559 | 111 000 |
Новинка GeForce RTX 5080 лидирует в группе из-за поддержки DLSS4 с многокадровой генерацией (MFG) в трех из десяти тестовых игр. Это позволяет видеокартам поколения GeForce RTX 50 значительно превосходить предшественников по производительности, иногда в разы. О возможных потерях в качестве поговорим позже в отдельном материале. На данный момент серьезных проблем с качеством в таких играх не обнаружено.
В этом наборе игр в разрешении 4K GeForce RTX 5080 обошёл GeForce RTX 4090 на 12,5%, GeForce RTX 4080 Super — на 32,1%, GeForce RTX 4080 — на 42%, Radeon RX 7900 XTX — на 95,4%. Такая разница демонстрирует смена поколений, прирост значительный. Необходимо помнить, что этот рост обусловлен использованием DLSS4, а не чисто аппаратными возможностями GeForce RTX 5080.
В связи с этим мы провели дополнительные тесты GeForce RTX 5080 при использовании только DLSS 2/3, без DLSS4. (Генерация одного дополнительного кадра в играх с поддержкой DLSS 3 сохраняется, но сравнение GeForce RTX 50 и GeForce RTX 40 проводится в равных условиях). Ситуация выглядит иначе: GeForce RTX 5080 получает рейтинг iXBT.com 10065 Карта опережает GeForce RTX 4080 Super на 9,6%, GeForce RTX 4080 — на 17,8%, Radeon RX 7900 XTX — на 62%, но отстаёт от GeForce RTX 4090 на 6,6%. Это больше похоже на карту «GeForce RTX 4080 Ti Super» (или ещё у Nvidia есть полузабытый суффикс Ultra), чем на следующее поколение. Остаётся принять как данность, что видеокарты — это программно-аппаратный комплекс, то есть программная часть в нём не менее важна, а сейчас вообще стала самой важной.
Рейтинг полезности
Рейтинг полезности Получаются те же карты, если коэффициент предыдущего рейтинга разделить на цены указанных ускорителей. Для расчёта рейтинга полезности применена розничная цена. на начало февраля 2025 года.
- Вариант рейтинга полезности без включения RT
Рейтинг приведен для разрешения 4K.
№ | Модель ускорителя | Рейтинг полезности | Рейтинг iXBT.com | Цена, руб. |
---|---|---|---|---|
06 | RX 7900 XTX 24 ГБ, 2500—2990/20000 | 398 | 4412 | 111 000 |
18 | RTX 4080 Super 16 ГБ, 2550—2705/23000 | 356 | 4484 | 126 000 |
20 | RTX 4080 16 ГБ, 2505—2625/22400 | 338 | 4152 | 123 000 |
26 | Palit RTX 5080 GameRock 16 ГБ, 2617—2850/30000 | 272 | 4899 | 180 000 |
28 | RTX 4090 24 ГБ, 2520—2640/21000 | 188 | 5365 | 286 000 |
GeForce RTX 5080 — свежая новинка, стоимость которых искусственно завышена. Немало пользователей, вложивших значительные средства в эту видеокарту, предпочтут игры с поддержкой RT и динамического масштабирования, поэтому актуальность этого рейтинга сомнительна.
- Рейтинг полезности с учетом RTX, DLSS, FSR и XeSS.
Рейтинг приведен для разрешения 4K.
№ | Модель ускорителя | Рейтинг полезности | Рейтинг iXBT.com | Цена, руб. |
---|---|---|---|---|
05 | RTX 4080 Super 16 ГБ, 2550—2705/23000 | 729 | 9184 | 126 000 |
07 | RTX 4080 16 ГБ, 2505—2625/22400 | 694 | 8542 | 123 000 |
08 | Palit RTX 5080 GameRock 16 ГБ, 2617—2850/30000 | 674 | 12134 | 180 000 |
13 | RX 7900 XTX 24 ГБ, 2500—2990/20000 | 559 | 6208 | 111 000 |
21 | RTX 4090 24 ГБ, 2520—2640/21000 | 377 | 10783 | 286 000 |
Что касается цены, применяются аналогичные рассуждения, однако для определения справедливой стоимости нового изделия мы решили использовать данный рейтинг наоборот. Тем более что GeForce RTX 5080 позиционируется как флагман. игровая В связи с тем, что GeForce RTX 4090 широко применяется в серверах и дата-центрах для расчетов и построения нейронных сетей, к ситуации с ней неприменима карта GeForce RTX 5080. Чтобы выяснить стоимость GeForce RTX 5080, при которой она обошла бы по рейтингу GeForce RTX 4080/Super (при сохранении их текущей стоимости), мы посчитали и получили сумму – 150 тысяч рублей.
Выводы и сравнение энергоэффективности
Ускоритель Nvidia GeForce RTX 5080 (16 ГБ) Это новый GeForce RTX 50, вторая модель по уровню после GeForce RTX 5090. Но это чистый игровой продукт, в отличие от GeForce RTX 5090.
Для начала анализа совершим краткий экскурс в прошлое.
Рассмотрим разницу между «предфлагманами» новых поколений и флагманами предыдущих, обратившись к обзорам и сводным таблицам рейтинга iXBT.com.
Не будем обращать внимание на цены (курс рубля был совершенно другим).
При этом берем классические игры без трассировки лучей и технологий динамического масштабирования.
GeForce RTX 2080, занимающая второе место после GeForce RTX 2080 Ti, противостоит GeForce GTX 1080 Ti, являющемуся флагманом.
В среднем GeForce RTX 2080 показывал преимущество перед GeForce RTX 1080 Ti на 18%.
GeForce RTX 3080, модель выше GeForce RTX 3090, сражается с GeForce GTX 2080 Ti, который был лидером.
GeForce RTX 3080, выпущенная второй в серии GeForce RTX 30, превосходила GeForce RTX 2080 Ti, первый в серии GeForce RTX 20, в среднем на 25%. Новая карта была существенно быстрее.
GeForce RTX 4080, вторая по могуществу после GeForce RTX 4090, противостоит GeForce GTX 3090 Ti, флагману.
Разница производительности между GeForce RTX 4080, второй моделью в серии GeForce RTX 40, и GeForce RTX 3090 Ti, первой моделью в серии GeForce RTX 30, уменьшилась до 11%, однако все равно… Новый, второй уровень ускорителя превосходил по скорости первый уровень предыдущего поколения. .
Наблюдаемая сейчас картина такова: GeForce RTX 5080 не превосходит по производительности GeForce RTX 4090, а отстает от него ощутимо. Не случайно многие авторы называют GeForce RTX 5080 «GeForce RTX 4080 Super Ti».
Цены — отдельный разговор. Вероятнее всего, рекомендованная розничная цена в 999 долларов никто в ближайшее время не увидит, даже с налогами (возможно, только перед выходом следующего поколения). Два важных фактора этому мешают:
- По подобным ценам (999 долларов плюс налоги) могут продаваться только карты самой Nvidia, потому что продукт не массовый, выпускается небольшими партиями (дизайн дорогой и очень сложный), а Nvidia может себе позволить получать минимум прибыли от продажи Founders Edition (в основном такие карты работают на имидж производителя). Партнеры Nvidia не в состоянии продавать свои модели так же дешево, потому что получают чипы по весьма высокой цене (здесь Nvidia должна зарабатывать, и много), плюс проблема с GDDR7, которая очень дорогая (хоть при покупке в комплекте с GPU у Nvidia, хоть при отдельном приобретении памяти у Samsung). Вполне вероятно, что стоимость карты на выходе с конвейера уже превышает эти 999 долларов. А еще надо зарабатывать дистрибьютерам и магазинам. Вот и получается, что это никакая не MSRP (рекомендованная производителем розничная цена).
- Nvidia не могла не учесть, что 29 января 2025 года начнется китайский Новый год, и в Китае минимум на две недели прекратится вся активность, а часто еще за три-пять дней до праздника. Так как 90% видеокарт производятся именно в Китае, там же начинаются логистические маршруты (и их обслуживанием занимаются китайцы, которые хотят праздновать). То есть все, что успели накопить до 20-22 января, отправили на прилавки, а следующие поставки начнутся не ранее 7 февраля. Отсюда и ажиотаж, к радости спекулянтов. Зачем же назначать продажи именно на такие даты? Почему нельзя было перенести хотя бы на 7 февраля? Ответ очевиден: для Nvidia это шанс создать искусственный дефицит, который, возможно, закроет их собственные промашки с производством чипов (подчеркну: возможно!).
Карты появились в продаже, цены на базу GeForce RTX 5080 в розничной торговле колебались от 170 до 220 тысяч рублей. За 170 тысяч купить их было практически невозможно. Полагаем, что ажиотаж уляжется и цены зафиксируются около 180 тысяч рублей. Для рейтинга полезности использовали именно такую цену. В обзорах серийно выпускаемых видеокарт рейтинг будет корректироваться исходя из актуальных цен.
Ранее отмечалось, что GeForce RTX 5080 будут выглядеть привлекательно при цене 150 тысяч рублей, однако имеются ряд «подводных камней».
Переход к возможностям GeForce RTX 5080 и его технологиям происходит плавно. Если сравнить спецификации графического ядра с предшественником AD103, то очевидно, что само ядро немного увеличилось, но пропускная способность памяти (ПСП) существенно выросла благодаря использованию GDDR7 со скоростью 30 Гбит/с при той же шине обмена в 256 бит. Вероятно, именно увеличенная ПСП является причиной роста производительности.
Уточнить это невозможно, так как нельзя снизить частоту работы видеопамяти на GeForce RTX 5080 до уровня GeForce RTX 4080 или повысить частоту на GeForce RTX 4080 до уровня GeForce RTX 5080. Новое ядро — не просто AD103 с увеличенным количеством блоков и быстрой памятью. Нюансы архитектуры Blackwell уже подробно освещены, в том числе особенности работы Blackwell с новой технологией мультикадровой генерации (MFG).
Посмотрите на первые тесты GeForce RTX 5080 с DLSS 4, особенно при генерации трех или более кадров на основе разных моделей ИИ, и оцените, как GeForce RTX 5080 обходит предыдущего флагмана GeForce RTX 4090 в таких тестах.
GeForce RTX 5080 соответствует сложившейся тенденции: второй по производительности ускоритель нового поколения превосходит флагмана предыдущего — но это достигается только при использовании MFG. В связи с этим Nvidia недавно выпустила новую версию драйвера, в которую вошла обновлённая версия приложения Nvidia App. Оно позволяет ускорителям поколения GeForce RTX 50 принудительно включать MFG в играх, поддерживающих старую технологию генерации промежуточных кадров (DLSS 3), а таких игр уже много. Таким образом, список игр, где карты GeForce RTX 50 могут получить существенный прирост производительности, автоматически значительно увеличился.
Остался вопрос о качестве графики при использовании DLSS 4, возможных задержках и лагах. Об этом расскажем в отдельном материале, который выйдет скоро. Это сложный аспект, его невозможно исследовать в рамках обычного обзора видеокарты или текущего материала. Пока лишь отметим, что в трех играх (Alan Wake 2, Cyberpunk 2077 и Hogwarts Legacy), где уже добавлена поддержка DLSS 4, явных нареканий на качество не было — встречались лишь мелкие артефакты, которые не портили впечатление (при генерации 4 кадров). Полагаем, что, как и с первой версией DLSS, оптимизации под игры будут проводиться непрерывно, и DLSS 4 можно будет использовать полностью.
Тщательное изучение сути MFG показывает, что доля программного обеспечения в видеокарте (как аппаратно-программной системе) значительно возросла. Даже если GPU сохранил схожий с предшественником набор аппаратных блоков, оснащённый инструментами для работы с нейронными сетями, включая программные оптимизации, он может считаться ускорителем нового поколения.
Вполне вероятно, что программная составляющая работы ускорителей всё больше будет опираться на ИИ (нейронные сети), а аппаратная часть GPU – на блоки для быстрых вычислений. Так считает глава Nvidia в своих последних публичных выступлениях.
Будет ли это означать переход игровой индустрии к генерации кадров и сцен во время игры?
Вполне возможно, но эти опасения кажутся преувеличенными. Предсказуемость поведения ИИ при генерации внутри игры остается сомнительной. Кроме того, в многих странах действуют цензоры игровых решений, которые могут запретить игру, что невыгодно издателям.
Возвращаемся с небес на землю.
В классических играх без RT и прочих программных улучшений, а также в играх с RT и/или технологиями динамического масштабирования DLSS(1/2/3)/FSR/XeSS новый ускоритель GeForce RTX 5080 располагается между GeForce RTX 4080 Super и GeForce RTX 4090 (ближе к первому). При использовании DLSS 4 (Multi Frame Generation, MFG) производительность новинки резко возрастает, и она легко опережает GeForce RTX 4090.
GeForce RTX 5080 возглавляет список по энергоэффективности. Nvidia заслуживает похвалы за создание ядра с наилучшим соотношением производительности и энергопотребления.
GeForce RTX 5080 вышла спустя неделю после GeForce RTX 5090, что немного снизило ее привлекательность по сравнению с флагманом. Архитектура Blackwell сохранилась, а второе решение в линейке предлагает те же улучшения, но их влияние на пользовательский опыт не будет ощутимым в ближайшее время. Улучшенная технология DLSS 4 – это безусловное достоинство Blackwell. Это касается как многокадровой генерации (которая работает неплохо при достаточно высоком уровне производительности), так и новой модели ИИ с лучшим качеством, функционирующей даже на видеокартах предыдущих поколений. Улучшения, такие как нейрорендеринг и мегагеометрия, интересны и перспективны, но на GeForce RTX 5080 их реализации мы, вероятно, не увидим в обозримом будущем, а заплатить придется сразу же. Придется ждать появления этих возможностей в DirectX и поддержки ими остальных участников рынка, а также игровыми консолями. Возможно, отдельные разработчики игр внедрят некоторые из предложенных Nvidia технологий раньше этого, что мы очень надеемся.
Нейронный рендеринг повышает качество изображения или производительность при замедлении производства полупроводников. Технологии масштабирования и генерации кадров DLSS увеличивают частоту кадров, обеспечивая высокое качество изображения, создавая большинство пикселей с помощью искусственного интеллекта. Технология реконструкции лучей сокращает количество лучей для создания высококачественных изображений при трассировке лучей, используя шумоподавление и реконструкцию деталей.
Искусственный интеллект совершенствуется, качество рендеринга растет при снижении вычислительных затрат и объема памяти по сравнению с обычными методами. Технологии нейронного рендеринга в Blackwell ускорят использование возможностей ИИ разработчиками, включая рендеринг и моделирование на основе генеративного ИИ в реальном времени.
Генеративный ИИ поможет создавать ландшафты и сложные сцены, реализовывать более реалистичные физические симуляции, имитировать поведение игровых персонажей.
Для рендеринга лиц можно использовать генеративный искусственный интеллект, а профессиональные приложения для 3D-дизайна смогут использовать возможности генеративного ИИ в Blackwell для ускорения рабочих процессов при создании контента. Всё это возможно в будущем.
Конкретная протестированная карта Palit GeForce RTX 5080 GameRock (16 ГБ) Габариты платы составляют 33×15 см, что соответствует 4 слотам в корпусе. Используемая система охлаждения работает умеренно тихо. Модель способна потреблять до 350 Вт (официальный лимит Nvidia — 360 Вт) и имеет один 16-контактный разъем питания 12VHPWR (PCIe 5.0).
У карты 4 видеовыхода: 1 HDMI 2.1b и 3 DisplayPort 2.1b. Последний обеспечивает пропускную способность до 80 Гбит/с в режиме UHBR 20 и позволяет подключить 8K-монитор с частотой обновления 60 Гц по одному кабелю.
Система охлаждения оснащена кожухом, названным производителем «хамелеон», впечатляющим как без подсветки, так и с ней. Подсветка отсутствует вульгарность, свойственная предыдущему варианту СО серии GameRock с кристаллами на кожухе.
Единственный недостаток визуальной части решения — контрастирующие черные круги вентиляторов. Для улучшения эффекта необходимо сделать лопасти полупрозрачными, чтобы часть свечения подсветки попадала на них.
Компанию Palit можно похвалить за комплект поставки, в котором кроме видеокарты присутствуют переходник питания, адаптер для синхронизации подсветки, прикручиваемая к карте раздвижная подставка, бонусные стикеры и коврик для мыши.
GeForce RTX 5080 обеспечит комфортную игру на максимальных настройках качества во всех играх с отключённой или включённой трассировкой лучей и технологиями масштабирования до разрешения 2160p (4K). В некоторых играх при использовании технологий DLSS/FSR/XeSS комфорт сохранится и в разрешении 8K.
В номинации «Оригинальный дизайн» карта Palit GeForce RTX 5080 GameRock (16 ГБ) получила награду: