Продолжаем тестировать китайские процессоры. Пользователи привыкли к персональным компьютерам и ноутбукам с процессорами Intel и AMD на базе x86, но санкции привели к повышенному интересу к менее распространенным решениям, таким как рассмотренный ранее Loongson 3A6000В нашем поле зрения не только китайские процессоры, но и ARM-процессоры Qualcomm для лёгких ПК и ноутбуков с Windows 11 ARM-версии. Их рассмотрим отдельно, а сегодня — ARM от Huawei Kirin 9000C. У китайцев на базе ARM есть ещё Phytium, о котором также поговорим.
Распространение процессоров с архитектурами, отличными от x86(-64), объясняется несколькими причинами: ARM выросла до возможностей, необходимых для полноценных настольных ПК и мощных мобильных решений. Кроме того, многие компании, в том числе китайские, активно разрабатывают и выпускают собственную микроэлектронику, включая универсальные и графические процессоры. Китай инвестирует значительные средства в собственные компании по проектированию и производству процессоров с целью снижения зависимости от западных полупроводников и достижения технологической самодостаточности. Этому способствует политический фактор: санкции США запрещают продажу некоторых западных микрочипов, передачу технологий их производства и даже производство на фабриках TSMC, главного мирового производителя микроэлектроники.
Многократно освещавшаяся тема: доступ китайским компаниям к передовым западным технологиям сейчас закрыт. Это тормозит разработку и производство их микрочипов, отбросив их назад на несколько лет.
Даже повторение досанкционных процессоров, производимых на TSMC, требует освоения производства с аналогичными параметрами — задача не из легких.
Китай инвестирует в собственные фабрики по производству микроэлектроники, но пока отстает от мировых лидеров.
Тем не менее, китайское правительство постепенно заменяет Intel и AMD отечественными аналогами, хотя бы в государственных учреждениях и телекоммуникационной инфраструктуре. Компьютеры на основе китайских процессоров используют собственное аппаратное обеспечение и работают под управлением отечественных операционных систем, основанных на Linux.
Сегодня рассмотрим решение Huawei для настольных ПК — процессор Kirin 9000C. Это не просто чип, а однокристальная система, содержащая всё для работы полноценного компьютера. Компания известна смартфонами и компьютерами, но ещё больше её знают как одну из крупнейших мировых компаний в сфере телекоммуникаций. Huawei давно проектирует и производит однокристальные системы на базе архитектуры ARM для своих решений, этим занимается дочерняя компания HiSilicon Technologies. Компания также одна из первых в Китае попала под санкции США, ограничивающие доступ к западным рынкам и технологиям. Это решение нанесло огромный ущерб доходам компании и разработкам. Если досанкционные ARM-процессоры Huawei для мобильных решений были одними из лучших в индустрии, а компания разрабатывала собственные процессорные ядра для своих решений, включая серверные ARM-процессоры, то запрет использования производства TSMC привёл к необходимости переделать всё под возможности техпроцессов китайской компании SMIC, которые пока что серьёзно уступают по всем характеристикам.
К сожалению, Huawei прекратила публичный доступ к информации о своих решениях, официальных данных по Kirin 9000C нет, этого решения нет на страницах веб-сайта компании вообще. Поэтому приходится основываться на выборочных знаниях о схожем процессоре Kirin 9000S, предполагая, что они близки друг другу по своему внутреннему строению. Kirin 9000S производится на втором поколении 7-нанометрового производства китайской SMIC, имеет восемь ARM-ядер с поддержкой 12 потоков: одно супербыстрое ядро Taishan, три высокопроизводительных ядра Taishan и еще четыре энергоэффективных ядра ARM Cortex-A510 в двух двухъядерных кластерах. Между 9000S и 9000C есть отличия по частоте суперъядра, в первом случае оно чуть быстрее, а во втором ограничено частотой 2,5 ГГц. Обе однокристальные системы отстают по производительности от выпущенного ранее чипа Kirin 9000, для производства которого использовался более продвинутый 5-нанометровый техпроцесс тайваньской TSMC. Это явный шаг назад для компании, которая выпустила Kirin 9000 в 2020 году и использовала его в смартфонах и планшетах, а Kirin 9000S вышел только в 2023 году и использовался в смартфонах серии Huawei Mate 60 Pro и некоторых планшетах.
Huawei пропустила примерно три года, если считать 9000 и 9000C/9000S похожими по возможностям и производительности. Возможно, Kirin 9000C отличается от Kirin 9000S отсутствием в этой однокристальной системе модема, ведь 5G-модем занимает большую часть площади кристалла, но Huawei вряд ли сделала специальный кристалл исключительно для настольных ПК — скорее всего, модем просто отключили. Самое интересное — новые SoC используют процессорные ядра Taishan, основанные не на решениях ARM, а на собственном дизайне вычислительных ядер Huawei, вероятно, основанном на их серверных ядрах Kunpeng. Ядра выделяются среди всех ARM тем, что поддерживают одновременную многопоточность — впервые для мобильных ARM-процессоров. Давайте разберемся во всем подробнее, насколько это получится при полном отсутствии официальной информации.
Особенности процессора Kirin 9000C
Компания Huawei запутывает покупателей своей линейкой процессоров Kirin серии 9000. После первоначального чипа вышли версии с приставками S, C и W, которые мало чем похожи на оригинальный Kirin 9000. Затем линейка продолжилась моделями SoC до 9010 и 9020. В октябре 2020 года была анонсирована флагманская модель Kirin 9000, производимая TSMC, которая легла в основу смартфонов Mate 40 Pro, P50 Pro и Mate X2, а также планшета MatePad Pro 12.6. После запрета американцев на использование тайваньскими мощностей TSMC китайцам пришлось искать радикальные решения. Новые процессоры Kirin 9000S, 9000C и 9000W, произведенные китайской компанией SMIC, мало похожи на оригинальный SoC.
Напомним, первоначальный Kirin 9000 включал одно ядро Cortex-A77 (3,13 ГГц), три Cortex-A77 (2,54 ГГц) и четыре Cortex-A55 (2,05 ГГц), интегрированное графическое ядро Mali-G78 MP24 (1536 ALU, 759 МГц, 2332 гигафлопс), NPU и ISP-ядра. Производство осуществлялось по 5-нанометровой технологии тайваньской TSMC. Данной однокристальной системой поддерживается память LPDDR5/4X, объем системного кэша равен 8 МБ. Huawei не раскрывает информации о новых чипах той же серии — приходится добывать ее по частям из анализа других материалов, данных бенчмарков и инструментов. Включая китайские источники, чтение и анализ которых затруднены из-за особенностей языка и сложности перевода. Поэтому в наших предположениях могут быть неточности.
Новые процессоры Kirin 9000 S и C также имеют восемь ядер, но количество поддерживаемых потоков различается из-за собственных разработок Huawei — ядра Taishan V120 вместо дизайна ARM в производительных ядрах. Кластер с энергосберегающими ядрами включает четыре ARM Cortex-A510 с частотой до 1,53 ГГц, остальные используют дизайн Huawei. Производство налажено у китайской SMIC, которая добилась массового 7-нанометрового производства. Вероятно, выход годных кристаллов на данной стадии не велик. Huawei не выбрасывает бракованные кристаллы для топовых устройств, а ограничивает возможности упрощенными версиями для смартфонов среднего ценового уровня, понижая частоту, отключая ядра и блоки.
Вероятнее всего, Kirin 9000C очень похож на Kirin 9000S. Информация о нем ограничена: используется в серии смартфонов Mate 60 (2023 года), а также в Mate X5 и версиях планшетов MatePad Pro 11 (2024) и MatePad Pro 13.2. Схема ядер схожа с Kirin 9000: суперъядро Taishan V120 (2,62 ГГц) + 3 больших ядра Taishan V120 (2,15 ГГц) + 4 малых ядра Cortex-A510 (1,53 ГГц). Появились и другие модели: Kirin 9000S1 в серии смартфонов Huawei Pura 70 (начало 2024 года), Kirin 9000W в планшетах MatePad Pro 13.2 и MatePad Pro 11 (2024), а также Kirin 9000WL и Kirin 9000WE в планшете MatePad 11.5″ S.
Все эти решения почти идентичны, отличаясь отключённой модемной частью (вероятно, W указывает на Wi-Fi) и ещё чем-то. От модели 9000S их отличает сниженная до 2,49 ГГц частота суперъядра. Возможно, также урезаны кэш или другие блоки, об этом нет информации. В Nova 12 Ultra и 8000 в Nova 12/Pro выпустили процессоры 9000SL и 8000 — у них снижены частоты и/или отключены ядра. Таким образом, Huawei использует отбракованные кристаллы 9000S в бюджетных смартфонах, а не более простые чипы, спроектированные специально для менее дорогого сегмента.
В новых моделях процессоров Kirin 9010 ядра Taishan V121 имеют увеличенное количество внутренних блоков, кэшей и очередей по сравнению с Taishan V120. Из-за усложнения ядра частота его работы снизилась, а для суперъядра в Kirin 9010 она ограничена на уровне 2,35 ГГц.
Наиболее заметные улучшения произошли в больших ядрах Kirin 9020, выпущенного в ноябре 2024 года. Его суперъядро работает на частоте 2,50 ГГц и имеет более широкий декодер (8-wide против 6-wide), вдвое больше FP-блоков, а также большее количество многих других блоков и буферов вычислительного ядра. В этом SoC даже самые маленькие ядра заменены решениями собственного дизайна вместо решений ARM.
Схема ядра Kirin 9000C: суперъядро Taishan V120 (2,49 ГГц), 3 больших ядра Taishan V120 (2,15 ГГц) и 4 малых ядра Cortex-A510 (1,53 ГГц). L2-кэш у средних ядер Taishan по 512 КБ, у суперъядра — 1 МБ. У каждой пары Cortex-A510 по 256 КБ кэша. В чипе всего 4 МБ третьего уровня кэша. Еще есть общий системный кэш (SLC) объемом в 4 МБ для доступа к данным от CPU и GPU ядер.
По результатам оценки производительности Kirin 9000S в смартфонах и планшетах большая ядра сравнимо с Cortex-X1 по производительности, но потребляет больше энергии из-за своих характеристик. Средние ядра несколько уступают не самым новым Cortex-A710 из Snapdragon 8 Gen 1, а малые ядра Cortex-A510 близки к аналогичным ядрам из этого же SoC компании Qualcomm, представленного в конце 2021 года. Huawei вследствие американских санкций по продвинутости ядер CPU отстала минимум на пару поколений назад и не менее чем на 2-3 года.
Однокристальная система Kirin 9000S (предположительно, и 9000C) включает встроенное графическое ядро HiSilicon Maleoon 910. Huawei не раскрывает о нем информации. Известно лишь, что в Kirin 9000S встроенная графика имеет 4 ядра из 1024 блоков ALU, работающих на частоте 750 МГц. Встроен кэш-память объемом 1 МБ. Поддерживаются графические и вычислительные API OpenGL ES 3.2, OpenCL 2.0, DirectX 12 и Vulkan 1.1. Вероятно, это GPU собственной разработки Huawei, но возможно, модификация Mali-G78 с меньшим количеством блоков по сравнению с Kirin 9000.
Эта модель графического процессора ARM может иметь от 7 до 24 ядер и конфигурируемую кэш-память объемом от 512 КБ до 2 МБ, поддерживает все необходимые возможности API OpenGL ES 3.2, DirectX 12, OpenCL 2.0 и Vulkan 1.2, и похожа на то, что предлагает Huawei в Kirin 9000S/9000C. Но если Mali-G78 MP24 имеет 1536 ALU, частоту 759 МГц и производительность 2332 гигафлопс, то Maleoon 910 имеет лишь 1024 ALU, работающие на частоте 750 МГц, и дающие до 1536 гигафлопс для вычислений FP32 — в полтора раза меньше.
В плане производительности и энергоэффективности встроенная графика в Kirin 9000S/9000C сопоставима с Snapdragon 888 конца 2020 года, но более новый Snapdragon 8 Gen 1 превосходит их обоих, как и более свежие чипы Qualcomm. Если по скорости CPU-ядер Kirin 9000S/9000C немного опережает тот же Snapdragon 888, то по графике они примерно равны. Для смартфонов и планшетов это допустимо, но для ПК и ноутбуков на базе Windows 11 Qualcomm в этом году выпустил топовый чип Snapdragon X Elite с впечатляющими характеристиками: 12 продвинутыми ядрами Oryon с большей производительностью на такт, частотой до 3,4 ГГц, 12 МБ L2-кэша, более чем вдвое большей пропускной способностью памяти и графикой в три раза производительнее. Разница в скорости между этими решениями может быть многократно больше, и она может увеличиваться — многое зависит не от Huawei, а от возможностей полупроводникового производства SMIC. Тем не менее, Huawei постепенно улучшает линейку Kirin 9000 в пределах своих возможностей, что впечатляет, учитывая полностью собственную разработку последних модификаций.
Аппаратное обеспечение
Для тестов производительности использовалась готовая компактная система на базе процессора Kirin 9000C — китайский мини-ПК Huawei с полным набором оборудования и предустановленной операционной системой. В 2024 году компания выпустила новые ПК моделей Qingyun W515x и W585x, основанные на том же процессоре. Серия Huawei Qingyun, предназначенная для коммерческих пользователей, была запущена в марте 2023 года и включает ноутбуки, планшеты, принтеры и интеллектуальные экраны.
Huawei представила Qingyun W515x, первый настольный компьютер с процессором Kirin 9000C собственной разработки. Компания нашла способ выпуска простых ПК после санкций, запрещающих поставки западных процессоров. Линейка Qingyun изначально включала модели B730 и B530 с процессорами Intel Core 12-го поколения и Windows 11. Переход на Kirin 9000C и китайские ОС показывает новую стратегию Huawei по снижению зависимости от иностранных поставщиков и улучшению собственных технологий. В редакцию попал Qingyun W515x на Kirin 9000C с 8 ГБ памяти и 256 ГБ твердотельным накопителем. Накопитель можно легко заменить или дополнить, а вот увеличить объем памяти невозможно, так как она расположена на SoC, что может повлиять на работу требовательных приложений.
Система разработана для компаний, использующих не очень мощные системы форм-фактора Micro-ATX с поддержкой низкопрофильных PCIe карт расширения. У модели несколько конфигураций: 8 или 16 ГБ памяти могут быть объединены с накопителями в таких вариантах: 256 ГБ SSD, 256 ГБ SSD + 1 ТБ HDD, 512 ГБ SSD, а также 512 ГБ SSD + 1 ТБ HDD. Модель W585x имеет только вариант 8 ГБ ОЗУ + 256 ГБ SSD. Микросхемы памяти, напоминающие мобильные решения, установлены прямо на однокристальной системе, возможна конфигурация с 8 или 16 ГБ памяти LPDDR5-6400 с 64-битной шиной. Один обязательный твердотельный накопитель SAMSUNG KLUEG4RHGB-B0E1 имеет интерфейс UFS, а еще один NVMe-накопитель можно установить в дополнительный разъем M.2. Системная плата также предлагает два порта SATA 3.0, один из которых занят оптическим DVD-RW устройством.
Модели Qingyun на базе Kirin имеют встроенную графику и набор разъемов: спереди – один разъем USB-C, три USB-A 3.2 Gen 1, комбинированный аудиоразъем 3,5 мм (наушники/микрофон), сзади – VGA, HDMI, четыре USB-A 3.2 Gen 1, гигабитный RJ45, COM-порт, интерфейс для микрофона, стереовыхода и аудиовхода. Поддержка Wi-Fi 6 через модуль (IEEE 802.11a/b/g/n/ac/ax) и Bluetooth 5.2 (ОС поддерживает только Bluetooth 4.2). Такой набор интерфейсов обеспечивает совместимость со всеми периферийными устройствами.
Три низкопрофильных слота для карт расширения имеются на корпусе, но системная плата предоставляет только один слот PCIe 3.0 x1, подходящий для низкопрофильных карт. Достаточный блок питания невысокой мощности дополняет ПК, а компактный корпус удобен и просторен для такой системы. В комплекте идет проводная клавиатура Huawei K100 и проводная мышь Huawei M100. Полностью поддерживаются операционные системы Kylin OS или Tongxin UOS Desktop — предустановка одной из них по выбору возможна.
Для настольных компьютеров в версии с процессором китайского производства установлена простая система охлаждения. В ее состав входит невысокий алюминиевый радиатор и небольшой вентилятор. Такая конструкция обеспечивает низкий уровень шума и эффективное охлаждение.
В тесте Kirin 9000C разогревался не выше 67 °C, согласно встроенному датчику и системе мониторинга. Перегрев процессора может возникнуть только при полном отсутствии системы охлаждения. Простой воздушный кулер справляется с охлаждением протестированной однокристальной системы.
Система не отличается современностью, разве что COM-порт может быть полезен в специфических приложениях, например, при разработке ПО для контроллеров, что актуально для китайского рынка. Однако возможности по настройке в BIOS Setup весьма ограничены, разгона и изменения важных для производительности параметров нет, поэтому посещать настройки бессмысленно.
Программное обеспечение и впечатления от работы
Теоретически Kirin 9000C может работать под управлением специальной ARM-версии Windows 11, но пока это не пробовали. Официально поддерживаются две специальные версии Linux: Kylin и UOS. Huawei предоставила нам систему с предустановленной операционной системой Kylin на базе Linux, но мы использовали также известную нам UOS, которая также основана на Linux. Дадим краткое описание впечатлений от обеих систем и их практического применения — применяемые в них оболочки визуально не сильно отличаются от других современных операционных систем.
Разработка системы Kylin началась в Китае в начале века. Первые ее версии базировались на FreeBSD и использовались китайскими военными и государственными структурами. В 2013 году система перешла на Ubuntu, что привело к ее более широкому распространению. Сейчас она предлагается для настольных ПК и ноутбуков различным пользователям, существуют версии для x86-64 и ARM.
Операционная система UOS основана на дистрибутиве Deepin, который сам построен на Debian. Разработана компанией UnionTech по заданию правительства КНР для замены иностранных операционных систем. Существуют версии как для настольных компьютеров, так и для серверов. Первые релизы появились в 2019 году. UOS ориентирована на китайский рынок и призвана стать заменой Microsoft Windows. Поддерживает аппаратные платформы Zhaoxin, Loongson, Sunway, а также процессоры на базе архитектуры ARM. Также доступна x86-64 версия.
Для людей, знакомых с современными Linux-системами, UOS и Kylin кажутся привычными. Известно, что для получения прав суперпользователя (root) в первой ОС требуется регистрация по телефону, электронной почте или мессенджеру WeChat. Неполный перевод с китайского языка для части ПО, включая магазин приложений, может вызывать неудобства, но можно обойтись онлайн-переводчиком через камеру мобильного телефона.
Обе операционные системы содержат все необходимое для базовой работы: браузер, плеер и магазин приложений. Обе системы выглядят современно и обладают основными функциями для обычного пользователя. Несмотря на сходство, различие в устройстве ОС и степени оптимизации приводит к разнице в производительности. В соответствующем разделе будут представлены показатели работы Kirin 9000C в обеих системах. Пока же краткое впечатление от использования ПК Huawei с Kirin 9000C.
Магазины программ в обеих операционных системах достаточно развиты и предлагают ПО для разнообразных нужд.
Располагают разделами по категориям, рейтингу и т.д., поддерживают автоматическое обновление, имеют отзывы пользователей — все как обычно. Но ассортимент представленных программ не так велик, в сравнении с более известными системами. В отличие от UOS на Loongson, здесь есть полноценный офисный пакет — WPS Office, да еще и в более свежей версии, чем та, что обнаружили для LoongArch64 раньше.
Это продвинутый офисный пакет с необходимым для работы инструментом: редакторами текста и таблиц, программой для презентаций и т. д. Работать в нем на системе с Kirin 9000C комфортно при Full HD разрешении. С системами x86 сравнивать не нужно, ведь последние всегда более отзывчивы и обновляют информацию плавнее. Все же работать на системе с Kirin возможно. Единственное, современные браузеры загружают память, комфортно в них только с небольшим числом открытых страниц, а 8 ГБ оперативной памяти в тестовой системе — мало. При большой нагрузке ОЗУ система может стать не слишком отзывчивой.
Производительность встроенного видеоядра Kirin 9000C оказалась близкой к показателям Loongson. В тесте GLmark2 при Full HD разрешении двухканальный режим работы памяти дал 70 баллов для GPU в Loongson и 88 — в Kirin (UOS) или 74 (Kylin). В тесте HardInfo по 2D-графике значения составили 1144 в UOS и 967 в Kylin для Kirin против 4108 у Loongson. Многое зависит от ПО и оптимизации. Установки дискретной видеокарты не проводились, так как это не представляется целесообразным из-за одного разъема PCIe x1.
Kirin 9000C справляется с просмотром видеороликов высоких разрешений благодаря специализированным блокам для аппаратного декодирования, разгружающим остальные компоненты системы. У Huawei большой опыт работы с такими блоками, и у этой мобильной однокристальной системы официально поддерживается аппаратное ускорение декодирования в наиболее востребованных форматах.
Встроенные в операционную систему проигрыватели способны декодировать 4K-ролики различных форматов, таких как H.265. Загрузка процессора при этом колеблется в диапазоне от 15% до 25%, завися от битрейта и типа видеоданных. В целом аппаратное ускорение декодирования видео заметно, в отличие от системы на базе Loongson.
Предполагали, что с проигрыванием потоковых роликов всё так же хорошо, но оказалось не совсем так. Загрузка CPU даже при просмотре 4K-роликов на Youtube не превышала 40%, однако пропуски кадров были ощутимы. При FullHD и 60 FPS пропуски отмечались, но рывков на глаз особых не было заметно, а с 30 FPS было еще лучше. В 4K при 60 FPS смотреть ролики не нужно, так как пропускается примерно каждый второй кадр, плавного воспроизведения не получалось. Мощности Kirin 9000C хватает для разрешения Full HD, подобно тому, что мы сделали в обзоре Loongson.
Обе системы (Kylin и UOS) работоспособны и обеспечивают достаточный комфорт для пользователей при работе с простыми программами, небольшими документами и пассивными фоновыми задачами. Несмотря на ограниченную мощность, такой функционал полностью соответствует их назначению.
Тестирование производительности
Тестовые системы и условия
В ходе тестирования применялся готовый китайский ПК с процессором Kirin 9000C, включающим перечисленные выше компоненты. Для сравнения использовались другие процессоры с соответствующими комплектующими.
Китайская однокристальная система Kirin 9000C имеет память стандарта LPDDR5-6400 объемом 8 ГБ, размещенную непосредственно на чипе, и ее замена невозможна. Также в настройках BIOS Setup отсутствует возможность регулирования частоты и таймингов памяти — все параметры заранее выставлены и настроены.
Конкурентами нового китайского процессора, который вряд ли продемонстрирует высокую производительность, остались те же модели, что и в статье о Loongson. Так как доступны только минимальные конфигурации систем на базе процессоров Intel и AMD, были выбраны: Core i3-12100 с памятью DDR5 и «Ryzen 5 1500X». Последний был смоделирован с помощью процессора Ryzen 7 1700, установив в BIOS Setup режим 2+2 ядра. В четырехъядерном процессоре Ryzen 5 1500X заблокирована половина ядер, не в одном блоке CCX, а по паре ядер в каждом из них. Это позволило сохранить весь объем кэша L3 в 16 МБ, но создало узкое место в виде сниженной скорости передачи данных между ядрами по Infinity Fabric. Также для полной имитации Ryzen 5 1500X первой серии был установлен соответствующий лимит энергопотребления. В результате получилась практически полноценная копия Ryzen 5 1500X.
Для процессоров Ryzen и Core использовались имеющиеся тестовые материнские платы и память с настройками из XMP-профилей. Ограничения потребления энергии соответствовали спецификациям процессоров. Западные процессоры также тестировались при постоянной частоте 2,5 ГГц: для Core i3-12100 отключены Turbo Boost и Thermal Velocity Boost, а лимит потребления установлен ниже. Аналогично поступили с имитированным Ryzen 5 1500X, измененным множителем для работы на постоянной частоте 2,5 ГГц и отключенными технологиями повышения частоты, вроде Precision Boost Overdrive.
В результате получились процессоры с ядрами, всегда работающими на частоте 2,5 ГГц, что сравнимо с максимальной частотой суперъядер в процессоре Huawei, хотя данный чипсет имеет неоднородные ядра с разными тактовыми частотами. С помощью пар Core и Ryzen с сниженной до 2,5 ГГц частотой можно будет оценить эффективность ARM-ядер китайского процессора по сравнению с относительно новыми, но все же производительными решениями Intel и AMD при схожей тактовой частоте.
Программную часть тестировали на Kirin 9000C в UOS и Kylin. Тестируемый ПК имел предустановленной операционной системой вторую из них. Для сравнения производительности процессоров Ryzen 5 и Core i3 использовали x86-совместимую версию UOS. Возможно, другие версии Linux или Windows для x86-64 дадут лучшие результаты для x86-процессоров, что следует учитывать.
Выбор тестового программного обеспечения сохранился прежним – да, оно не идеально, но для сравнения Kirin 9000C с таким же Loongson 3A6000 других вариантов практически не существовало – необходимо было, чтобы тесты и методики работали на процессорах таких разных архитектур. Поэтому для сегодняшнего тестирования снова использовался пакет Phoronix Test Suite, максимально возможное количество тестов из него, работающих на всех трех архитектурах: LoongArch64, AArch64 и x86_64.
Получение всех данных непростое: некоторые тестовые пакеты не работают на разных архитектурах, другие используют библиотеки и оптимизации только для x86-64, не собираясь работать на других. Даже без жесткой привязки к архитектуре могут возникнуть проблемы со сборкой, отсутствием библиотек. Решение этих проблем не гарантирует корректной работы ПО: результаты могут быть неверными, программа может завершаться ошибкой или вовсе ничего не выдавать. В итоге снова запустили те же тесты из Phoronix Test Suite, что и в статье о Loongson — их можно использовать для оценки производительности Kirin 9000C.
Синтетические тесты
Производительность памяти и системы кэширования
В первую очередь анализируем эффективность контроллера памяти и системы кэширования, созданных инженерами HiSilicon. Из-за невозможности привести тестовые процессоры к одинаковым параметрам памяти, пришлось использовать разные условия. Важно помнить, что процессоры Huawei и Intel поддерживают память DDR5, а AMD и Loongson — лишь DDR4, при этом китайский процессор работал в двухканальном режиме DDR4-1866 у нас.
Вначале будет тест CacheBench из пакета LLCbench. Программа измеряет пропускную способность при чтении, записи и в смешанном режиме работы с данными. По результатам предыдущих тестов пропускная способность кэшей оказывает большее влияние на результат, чем оперативной памяти. В ходе тестирования UOS и Kylin для Kirin 9000C разницы между системами не обнаружено, результаты близкие.
К сожалению для китайцев, процессор Intel привычно выиграл во всех режимах, что неудивительно — даже с применением не самой быстрой памяти DDR5-5200 в штатном режиме Core i3-12100 оказался чуть ли не вдвое быстрее по работе с кэшем и памятью по сравнению с Kirin 9000C. Ryzen 5 1500X опередил рассматриваемый китайский CPU лишь в двух из трех подтестов, по чтению результаты близки. Что касается сравнения Kirin и Loongson, то по чтению заметно быстрее 9000C, также чуть лучше он же в смешанном режиме, ну а в режиме записи процессоры равны.
Различия в работе с западными CPU видны только при полном использовании частоты, а при условном равенстве 2,5 ГГц система Huawei во всех параметрах превосходит AMD Ryzen 5 1500X и даже приведенный к 2,5 ГГц Core i3-12100 в двух из трех тестов. Результат для Kirin довольно хороший, он работает с кэшем лучше устаревшего Zen 1 и на уровне бюджетного процессора Core 12 поколения, но только при сниженной частоте.
Второй бенчмарк Memory BandWidth (MBW) — это простой тест пропускной способности оперативной памяти для операций копирования с различными режимами по объему данных и способу копирования. Было выбрано 128 МБ и 4 ГБ. При таких объемах больше сказывается сама пропускная способность оперативной памяти, а не кэш. MBW менее синтетический, чем другие тесты, так как имитирует операции популярных программ. Другие тесты измеряют скорее пиковые показатели. В обеих ОС однокристальная система HiSilicon показала близкие результаты.
Результаты в последней колонке оказались нулевыми из-за недостатка памяти системы на базе Kirin 9000C — всего 8 ГБ против 16 ГБ у остальных. Для этого теста её памяти оказалось мало. В других подтестах Core i3-12100 уже не является самым быстрым, поскольку измеряется ПСП, а системы Intel и HiSilicon используют память DDR5 с более высокой частотой работы у Kirin 9000C. Ryzen 5 1500X оказался медленнее китайского процессора, да и Loongson также опережает его. Причина в том, что оба работают с памятью DDR4.
RAMspeed — тест производительности оперативной памяти, использующий два режима средней скорости передачи данных в двух форматах: целочисленном и с плавающей запятой. В этом тесте важнее пропускная способность именно оперативной памяти, что видно по разнице между режимами с одним и двумя каналами у Loongson. Разница между UOS и Kylin отсутствует.
Несмотря на применение памяти DDR5, Kirin 9000C в этот раз не смог обойти всех. Лидером стала модель Core i3-12100 от Intel с многолетним опытом работы. Разница между ней и китайским SoC невелика, что можно считать хорошим результатом для Kirin 9000C. Ryzen 5 1500X оказался существенно медленнее китайского процессора, а Loongson 3A6000 отстаёт более чем вдвое.
Заключительный тест раздела носит название Stream — популярный бенчмарк для оценки оперативной памяти с четырьмя вариантами измерения пропускной способности. Отличительная черта бенчмарка Stream заключается в стремлении измерять пиковые показатели, а не производительность при работе ПО в реальных условиях.
Интересно, но именно здесь Kirin 9000C проигрывает — китайский процессор не смог соперничать с Core i3-12100, отставая от него в два раза. Даже Ryzen 5 1500X опередил рассматриваемый процессор в режиме копирования, хотя в остальных Kirin оказался либо близок к процессору AMD, либо даже чуть быстрее — но у него память DDR4, которая уступает по теоретическим показателям. Так что ещё один китайский процессор не догнал западные образцы по эффективности работы контроллера памяти, хотя у Huawei получилось явно лучше.
Синтетические и общие тесты
Синтетические тесты производительности из различных пакетов могут быть полезны для оценки низкоуровневой производительности в специфических задачах, хотя некоторые из них стремятся к определенной универсальности. Эта категория тестов демонстрирует относительную производительность ЦП в разных приложениях и сценариях.
Тест Core-Latency определяет задержки между всеми парами ядер процессора и выдает минимальные, средние и максимальные значения. Результаты наиболее информативны при чиплетной организации ядер или группировке их в блоки, а также в многопроцессорных системах, где различия в задержках между ядрами велики. Межъядерные задержки Kirin 9000C при работе в двух операционных системах неожиданно различаются, но это может быть связано с ошибкой UOS во время запуска теста. Достоверными считаются показания в Kylin.
В отличие от Loongson 3A6000, разница в задержках между ядрами у Kirin существенно больше. Несмотря на монолитный кристалл, организация неоднородных ядер увеличила максимальную и среднюю задержку до уровня многокристального Ryzen первого поколения, и даже чуть выше. Минимальная задержка отличная, лучше только у монолитного Core i3-12100, но максимальная (и средняя) — плохие: худшие показатели среди всех протестированных CPU. Такой зоопарк разнородных ядер отсутствует у других CPU. Даже Ryzen 5 1500X с двумя блоками CCX имеет несколько меньшие максимальные и средние задержки.
EEMBC CoreMark — набор синтетических тестов для оценки производительности процессоров и микроконтроллеров, предназначенный для замены теста Dhrystone. В него входят реализации алгоритмов поиска и сортировки данных, матричных операций, подсчета контрольной суммы и др. Результаты выражаются в количестве повторений за секунду, что удобно для сравнения разных систем.
Результат слабо зависит от скорости памяти и операционной системы. Kirin 9000C в этом тесте явно быстрее Loongson 3A6000 и даже Ryzen 5 1500X, работающего даже на полной частоте в 3,5 ГГц, поэтому Kirin справляется с задачей эффективнее процессора поколения Zen 1. Core i3-12100 быстрее его лишь при стандартных частотах до 3,3 ГГц, а с 2,5 ГГц уже немного отстает. Другой китайский CPU показал заметно худший результат — на 30% ниже.
Swet — синтетический тест производительности процессоров и оперативной памяти, включая многоядерные и многопроцессорные системы. Результат теста выражается в количестве операций за секунду. В предыдущем тесте не было заметного влияния скорости ОЗУ на результаты, а также разницы между используемыми операционными системами для Kirin.
Сравнение разных процессоров показывает, что китайский CPU, хотя и превосходит Loongson по внешнему виду, в этом тесте почти вдвое медленнее Ryzen 5 1500X и втрое медленнее Core i3-12100. Приблизительное снижение частоты западных процессоров до 2,5 ГГц позволяет Kirin 9000C приблизиться к Ryzen, но самый быстрый Intel всё равно значительно опережает его. Возможно, тест недостаточно оптимизирован для архитектур, отличных от x86, что может быть ещё одним подтверждением этого предположения.
HardInfo — встроенное приложение для просмотра сведений о системе и оборудовании, а также мониторинга, включающее несколько небольших тестов производительности, охватывающих широкий спектр задач, от трассировки лучей до криптографии. Некоторые результаты указаны по времени выполнения, а другие представлены в определённых баллах.
В этом тесте Kirin 9000C не демонстрирует преимуществ перед Loongson 3A6000. HiSilicon местами превосходит конкурента, но в целом показатели равны. В задаче трассировки лучей другой китайский процессор показал результат вдвое лучше Kirin — Loongson превзошёл Ryzen 5 1500X и находится на одном уровне с Core i3-12100, работающими на номинальной частоте! В задаче N-Queens Kirin 9000C опередил Loongson и всех остальных.
Kirin продемонстрировал неплохой результат в тесте CryptoHash (быстрее всех был Kylin), а также в тесте Fibonacci — с той же Kylin опередил Loongson и Ryzen 5 в номинале, и Core i3 при сниженной до 2,5 ГГц частоте. В FFT процессор Huawei показал средний результат, уступив Loongson и сильно проиграв Ryzen 5 1500X на номинальной частоте и Core i3-12100 даже при 2,5 ГГц. В среднем Loongson 3A6000 и Kirin 9000C находятся примерно на одном уровне, близки к Ryzen 5 1500X на номинальных частотах, а Core i3-12100 быстрее обоих.
Представлен тестовый пакет научных вычислений SciMark 2.0 в версии для Java. В него входят разные алгоритмы тестирования: метод Монте-Карло, быстрое преобразование Фурье, метод последовательной сверхрелаксации Якоби, операции умножения над разреженными матрицами и LU-разложение матрицы. Увеличенная ПСП оказывает влияние на результаты некоторых тестов в двухканальном режиме, но не во всех случаях.
Модель процессора Kirin 9000C показала скромные результаты в данном тесте, уступая даже Loongson 3A6000, а по сравнению с более ранними AMD и Intel — отстаёт существенно. Разрыв между ним и полновесными Ryzen 5 1500X и Core i3-12100 значителен, хотя в отдельных тестах Kirin проявляет себя лучше. В первом комбинированном тесте процессор заметно проиграл Loongson и не смог приблизиться к замедленным Ryzen и Core.
Метод последовательной сверхрелаксации Якоби и операции над разреженными матрицами Kirin выполнил быстрее Loongson, но превзошёл только замедленный Ryzen 5 1500X среди западных CPU. В тесте LU-разложения матрицы Kirin уступил всем соперникам (Loongson — более чем вдвое), что вновь указывает на зависимость от задачи и оптимизации приложения. Быстрое преобразование Фурье выполнил лучше, чем Loongson.
Многое зависит от ПО, но в целом китайские настольные процессоры приближаются к устаревшему Zen 1 по показателю IPC, но не дотягивают даже до младшего Core 12-го поколения.
Бенчмарк Stress-NG
Это специализированное приложение для комплексного тестирования оборудования с множеством разных испытаний. Из-за большого числа тестов в пакете выводится таблица с результатами, включающая лишь те, которые успешно прошли на всех системах.
В тесте заметно различаются результаты процессора Kirin 9000C при работе под управлением двух операционных систем: UOS и Kylin. Это подчеркивает важность выбора ОС. Разница в результатах прослеживается и у Loongson, иногда достигая полуторакратного значения в отдельных тестах. Иногда результаты отличаются от других CPU непонятно сильно, например, при работе с NMAP и NUMA.
Без значительных отклонений Kirin 9000C и Loongson 3A6000 часто близки друг к другу. В среднем они приближены к Ryzen 5 1500X с тактовой частотой 2,5 ГГц и Core i3-12100 в этом же режиме. Но Intel на номинальной частоте всё же превосходит остальных.
Loongson чаще всего проигрывал в задачах с матричными вычислениями, где важны специализированные SIMD-инструкции для высокой производительности, а Kirin 9000C лучше справлялся с этими подтестами. Kirin также быстрее Loongson в сжатии данных и криптографии. Возможно, тест не очень хорошо оптимизирован для наборов инструкций Loongson, но использует их на x86 и ARM, поэтому результаты такие.
Рендеринг
Тесты рендеринга представляют собой одну из самых трудных задач для современных процессоров благодаря многопоточной природе работы трассировки лучей. Процессоры в подобной ситуации стремятся поддерживать максимальную частоту, потребляя при этом максимум энергии и сильно нагреваясь. Разработчики CPU часто применяют тесты рендеринга для сравнения производительности своих процессоров с решениями конкурентов — под нагрузкой при рендеринге лучше работают процессоры с большим количеством ядер и потоков.
Результаты четырех тестов скорости рендеринга представлены на одной диаграмме.
- AOBench — это простой рендерер с применением окружения освещения, работающий с разрешением 2048 на 2048 пикселей.
- C-Ray — это простое приложение для многопоточного отслеживания лучей, предназначенное для проверки производительности вычислений с плавающей точкой.
- POV-Ray — это программа для расчёта изображения с помощью метода трассировки лучей, разработанная компанией Persistence of Vision.
- Smallpt — компактный рендерер, реализующий расчет глобального освещения методом трассировки путей Монте-Карло с использованием многопоточной обработки через библиотеку OpenMP.
Производительность памяти при рендеринге почти не влияет на результат, равно как и выбор операционной системы — разница между UOS и Kylin в большинстве тестов незначительная. Процессор Kirin 9000C в тестах рендеринга показал результаты немного лучше, чем Loongson 3A6000, что неплохо, ведь этот китайский процессор справляется с задачами достойно. ARM-процессор сравнялся с Core i3-12100 при частоте последнего в 2,5 ГГц, демонстрируя хороший показатель количества инструкций за такт, а в половине тестов даже приблизился к Ryzen 5 1500X, работающему на номинальной частоте.
i3-12100 сохранил лидерство при штатной частоте в 3,3 ГГц, однако при понижении до 2,5 ГГц уже не всегда побеждал. Loongson опередил Kirin 9000C только в тесте POV-Ray, в остальных же проиграл. Результаты Kirin 9000C показывают хорошие показатели по IPC, близкие к устаревшим, но производительным процессорам западных фирм.
Работа с медиаданными
Тестовый раздел включает несколько тестов по обработке медиаданных: фотографий и видеороликов. В большинстве случаев это практические задачи, такие как кодирование аудио- и видеоданных в специализированные форматы, а также синтез речи. Такие задачи выполняют многие пользователи, поэтому практическая значимость результатов этого раздела велика.
Вначале проверили сжатие аудиоданных в форматах APE, FLAC и WavPack. Все эти форматы специализируются на сжатии звука без потерь. Влияния объема оперативной памяти на результаты не зафиксировано, зависимость от скорости ОЗУ отсутствует. Разница между UOS и Kylin проявилась только в одном тесте — FLAC.
В двух из трёх тестов аудиокодирования Kirin 9000C демонстрировал заметное превосходство над Loongson 3A6000. Решение HiSilicon на архитектуре ARM всегда побеждало, но наиболее существенное преимущество проявилось в формате APE, а более чем двукратное лидерство в FLAC внушительно. По-видимому, под LoongArch отсутствуют специфические оптимизации для этого ПО, поскольку оно пока не получило широкого распространения.
При сравнении Kirin с Ryzen и Core он оказался быстрее первого по номиналу в одном тесте и близко к нему в другом, а второй всё же заметно превосходит китайский чип. Однако кодирование аудио — не самая актуальная задача в современном мире, поскольку процесс сейчас происходит достаточно быстро. Рассмотрим другие тесты, связанные с обработкой звука.
Данная диаграмма демонстрирует результаты двух тестов: одного по синтезу речи, другого — по обработке звука. Google SynthMark — кроссплатформенный тест производительности CPU под нагрузкой при обработке аудио в реальном времени. Он использует модель полифонического синтезатора и измеряет задержку, джиттер и вычислительную пропускную способность. Во втором тесте eSpeak оценивается время синтеза речи книги «The Outline of Science» с помощью усовершенствованного движка eSpeak-NG с выводом аудио в формате WAV.
Разница между UOS и Kylin невелика. В сравнительных тестах процессоров первый тест демонстрирует небольшое преимущество над Loongson 3A6000 — в тесте обработки аудиоданных в реальном времени Kirin 9000C оказался быстрее всех, кроме Core i3-12100, работающего на номинальной частоте, опередив Ryzen 5 1500X даже при номинале — очень хороший результат.
В тесте синтеза речи производительность несколько ниже, чем у Loongson и на уровне Ryzen 5 1500X. Процессор HiSilicon немного быстрее Core i3-12100 при частоте 2,5 ГГц, но медленнее его при частоте 3,3 ГГц. Kirin показывает хороший результат по количеству исполняемых за такт инструкций при оптимизации и использовании специализированных инструкций для потоковой обработки. Однако до полноскоростного Core i3 с вдвое меньшим количеством ядер китайскому процессору еще далеко.
David — высокоскоростной программный декодер видеоданных формата AV1. С его помощью проверили время декодирования пары видеороликов с разным разрешением: Full HD и 4K. Результаты показывают влияние пропускной способности памяти, а у Kirin 9000C с LPDDR5 всё должно быть на высоте. Также UOS немного опережает Kylin, что тоже нужно учитывать.
При декодировании видео формата AV1 Loongson отстает из-за недостатка оптимизации и использования специализированных инструкций, поэтому dAV1d работает медленнее. Kirin 9000C справляется лучше, но скорость декодирования находится на уровне между частотами Ryzen 5 1500X 2,5 ГГц и 3,5 ГГц. Core i3-12100 на номинальной частоте в два раза быстрее рассматриваемого китайского процессора. В типичном использовании редко требуется одновременное декодирование нескольких 4K-роликов в формате AV1, поэтому пользователю хватит производительности китайских процессоров, но они все же уступают западным аналогам.
Следующий тест — программное кодирование видеоданных на CPU в формат H.265 с помощью распространенного кодировщика x265. Используются два разрешения: Full HD и 4K. При кодировании видеоданных для поддержания высокой производительности должны использоваться инструкции SIMD, такие как SSE, AVX, AVX2 и AVX-512 в случае x86-совместимых процессоров. В этом случае нет высоких показателей FPS, а каждый кадр в секунду — на вес золота. Хотя на современных системах кодированием и декодированием видеоданных чаще занимается графический процессор, при отсутствии такой поддержки этим приходится заниматься центральному процессору. Влияния скорости памяти нет, а вот в Kylin OS этот тест по какой-то причине не заработал.
В предыдущем материале говорилось о том, что тест, вероятно, не оптимизирован для архитектуры LoongArch, включая специализированные мультимедийные инструкции. Из-за этого Loongson уступает Core i3 и Ryzen 5 на порядок. Kirin 9000C демонстрирует лишь немного лучшую скорость. Сравнение с западными CPU на номинальных частотах показывает разницу в несколько раз, зависящую от разрешения ролика. Intel заметно превосходит Ryzen, а его производительность в 8-9 раз выше, чем у Kirin 9000C.
Исследуем еще более жесткий тест кодирования видео. VVenC — это быстрый и эффективный кодировщик видеоданных в формате H.266/VVC (Fraunhofer Versatile Video Encoder), применяющий SIMD Everywhere (SIMDe) — библиотеку, обеспечивающую переносимую реализацию SIMD для разных платформ. В списке поддерживаемых платформ нет Loongson, но есть ARM. Если на x86-совместимых процессорах будут использоваться все виды наборов инструкций SSE и AVX, а на ARM — SIMD-ускоренные операции Neon, то у Loongson возникнут трудности с производительностью.
Задача сложнее без SIMD-инструкций. Код, хорошо оптимизированный для x86-процессоров, работает на ARM-ядрах, но в 2-2,5 раза хуже на Loongson. Преимущество Kirin 9000C над другим китайским процессором не помогает приблизиться к западным CPU: Kirin уступает Core i3-12100 в 6 раз и Ryzen 5 1500X в 3,3 раза. Даже в замедленном режиме AMD быстрее Kirin в 2,4 раза, а Core i3 – в 4 раза. Без хорошей оптимизации под китайские CPU могут наблюдаться провалы не только у Loongson, но и у ARM-процессоров.
Обработка изображений
Этот раздел тестов частично повторяет предыдущий, но выделен из-за фокуса на обработку, сжатие и распаковку статичных 2D-изображений для разных задач.
G’MIC — платформа с открытым исходным кодом для обработки цифровых изображений.
Предоставляя возможность преобразования и обработки изображений различных форматов, G’MIC предлагает сотни алгоритмов и функций. Поддерживая многопоточность и OpenMP для ускорения вычислений путем распараллеливания нагрузки на несколько ядер, платформа предоставляет результаты в секундах, необходимых для завершения каждого из трех тестов.
Результат теста зависит от пропускной способности памяти, а выбранная операционная система также оказывает влияние: Kylin показал лучшую скорость обработки изображений. Kirin 9000C не демонстрирует лучших результатов, особенно в тесте двумерной функции — по неизвестной причине Kirin уступает Loongson даже в несколько раз, хотя в двух других подтестах примерно на одном уровне с ним.
Ryzen 5 1500X с тактовой частотой 2,5 ГГц заметно медленнее, и даже при номинальной частоте не опережает китайский SoC, за исключением странного теста 2D Function. Даже Core i3-12100 в замедленной версии не так быстр и приближается к Kirin 9000C только в двух из трех тестов. В сравнении на номинальных частотах китайский процессор отстает значительно.
Следующий тест RSVG/librsvg оценивает библиотеку для работы с векторной графикой SVG. Тест измеряет время преобразования векторной графики в PNG (растеризация), что часто требуется при просмотре веб-страниц. Для теста используется большая картинка, хотя в реальности встречаются и маленькие изображения.
При обработке векторной графики Kirin 9000C также продемонстрировал худшие результаты по сравнению с другими. Даже при использовании более быстрой ОС Kylin результат оказался ниже, чем у Loongson. Разница между китайскими процессорами достигает полуторакратного значения в лучшем случае. Ryzen 5 1500X и Core i3-12100, работающие на сниженной частоте, превосходят Kirin 9000C в два раза. Более высокие частоты западных процессоров оставляют китайский вариант далеко позади: на 3,3 ГГц процессор Core i3 работает в три раза быстрее, а Ryzen 5 — на 76% эффективнее.
Рассмотрим еще один универсальный тест для работы с изображениями. RawTherapee — кроссплатформенная программа для каталогизации и обработки изображений с цифровых фотоаппаратов в формате RAW. Это аналог Adobe Photoshop Lightroom и Aperture, но с открытым кодом. В бенчмарке измеряется время обработки и конвертации RAW-файлов, чем часто занимаются профессиональные фотографы.
В тесте Kirin 9000C пока выглядит предпочтительнее Loongson, но 12% преимущества незначительны по сравнению с западными CPU. Оба китайских процессора не обладают должной оптимизацией, что видно из скорости конвертации RAW в RawTherapee. Она оказалась хуже, чем у Ryzen 5 1500X на пониженной до 2,5 ГГц частоте, а Core i3-12100 при номинальных параметрах в 2,3 раза быстрее рассматриваемого сегодня Huawei. В этом разделе ситуация неудовлетворительная, и это ощутимо на практике: вместо минуты обработки каждого кадра потребуется две или даже две с половиной, что заметно при большом количестве фотографий.
Переходим к компрессии и расширению изображений. tjbench — это бенчмарк для измерения скорости разжатия JPEG-файлов с помощью библиотеки libjpeg-turbo, оптимизированной с применением инструкций SIMD современных CPU. Неясно, насколько хорошо библиотека работает под ARM и LoongArch, хотя добавление поддержки инструкций SIMD, по описанию программы, выполнено.
Для Kirin 9000C результаты существенно лучше. Второй китайский процессор отстал почти вдвое, замедленный до 2,5 ГГц процессор AMD также позади. Core i3-12100 на сниженной частоте работает на равных с разработкой HiSilicon. Понятно, что при номинальной частоте процессор Intel выполняет преобразование JPEG-файлов ещё на 75% быстрее. Тем не менее, то, как сегодня рассматриваемый китайский процессор справился с задачей, свидетельствует о хорошей программной оптимизации в этом конкретном случае. Подтверждается главный недостаток малораспространенных решений — никогда не знаешь, где они будут быстрыми, а где нет.
Тесты кодирования изображений более сложны. OpenJPEG — это кодек для изображений формата JPEG 2000. В одноименном тесте используется большое панорамное изображение TIFF-файла объемом 717 МБ, которое конвертируется в формат JPEG2000. Время конвертации представлено на диаграмме в миллисекундах. Разница между операционными системами есть, в этот раз — в пользу UOS.
К сожалению, наблюдаем плохой результат по сравнению даже с Loongson 3A6000. Возможно, ПО лучше оптимизировано под его набор инструкций, чем под ARM, и Kirin 9000C в этом тесте уступил Loongson на 20%. Ryzen 5 1500X при сниженной до 2,5 ГГц частоте даже чуть медленнее Kirin, но при номинальной он явно сильнее. Про Core i3-12100 говорить нет смысла, он быстрее всех в номинальном режиме, а вот с приведением его к 2,5 ГГц он сравнялся с рассматриваемым китайским процессором Huawei — получается, что по IPC в этом тесте всё не так уж плохо, скорее просто Loongson еще лучше. Рассмотрим результаты при других форматах сжатия.
Новый тест сжатия изображений. Бенчмарк применяет библиотеку Google libwebp для перекодирования изображения в формат WebP с помощью утилиты cwebp. На вход подаётся JPEG-файл размером 6000×4000 пикселей, а измеряется производительность его перекодирования в WebP — мегапикселей за секунду. Разница между UOS и Kylin практически отсутствует, но первая ОС немного быстрее.
Оптимизация ПО под возможности Kirin пока оставляет желать лучшего. Kirin 9000C в два раза превосходит Loongson по скорости во двух из трёх тестов, но в третьем, сложном тесте сжатия без потерь, проигрывает ему в полтора раза, что может быть связано с недостаточным объёмом кэша. В первых двух тестах Kirin почти сравнялся с Ryzen 5 1500X при его замедлении до 2,5 ГГц, но номинальная частота делает разницу между ними существенной. Core i3-12100 показал ещё более высокую скорость, особенно на стандартной частоте — более чем вдвое.
Тест аналогичен предыдущему: библиотека Google libwebp2 кодирует изображение в формат WebP2, как и в прошлом тесте. Для кодирования используется тот же входной файл. WebP2 — это экспериментальный формат разработки, поддерживающий 10-битный HDR-формат, более эффективное сжатие с потерями и улучшенное без потерь, а также полноценную многопоточность.
Не ожидалось особых нововведений, и в этом тесте Kirin 9000C всё ещё немного превосходит Loongson 3A6000. При номинальных частотах западных CPU Core i3-12100 примерно вдвое быстрее, а Ryzen 5 1500X — на полтора раза. Однако при частоте в 2,5 ГГц решение компании AMD опережает рассматриваемый процессор Kirin уже не так сильно, таким образом по IPC наблюдается примерное равенство с Zen 1.
Последний тест раздела — Etcpak — «самый быстрый компрессор ETC на планете», утверждают разработчики. Программа максимально быстро сжимает текстуры в форматы ETC и S3. В качестве входного изображения используется текстура 8K×8K, которую сжимают при помощи одного вычислительного потока в многопоточном формате. Разница между UOS и Kylin незначительная.
В предыдущем обзоре мы указали на медленное сжатие текстур этим пакетом на процессорах Loongson 3A6000 из-за отсутствия оптимизации под архитектуру LoongArch. В то время как на ARM Kirin 9000C все значительно лучше — решение Huawei работает в шесть раз быстрее. Сравнение же героя сегодняшней статьи с Ryzen 5 1500X и Core i3-12100 бессмысленно, поскольку при номинальных частотах они еще в два и четыре раза производительнее соответственно. Даже снижение частоты до 2,5 ГГц сохраняет преимущество у западных процессоров. Такое поведение возможно в неоптимизированных программах на системах с китайскими CPU.
Криптографические тесты
Криптографические задачи – важный раздел тестирования производительности процессоров. Современные CPU способны выполнять шифрование больших объёмов информации в режиме реального времени, а некоторые из них поддерживают специальные инструкции для широко распространённых алгоритмов шифрования, например, AES.
Aircrack-ng — это набор утилит для обнаружения Wi-Fi сетей, перехвата трафика и проверки надежности ключей шифрования WEP и WPA/WPA2. Для проведения таких тестов важно количество вычислительных ядер и высокопроизводительная архитектура с максимальной тактовой частотой, а не кэш и быстрая память. Зависимость от операционной системы есть, но незначительная.
Оптимизация набора утилит под архитектуру ARM в данном случае значительно лучше, чем у LoongArch. Результаты Kirin 9000C превосходят показатели Loongson 3A6000 более чем в три раза, и даже Ryzen 5 1500X с пониженной до 2,5 ГГц частотой уступил китайскому процессору. На номинальной же частоте AMD всё же немного опережает чип Huawei. Core i3-12100 заметно быстрее всех остальных, рассматриваемый сегодня китайский CPU в два раза медленнее его в полной версии и в полтора — при сниженной частоте.
Борк — компактное кроссплатформенное приложение для шифрования файлов, созданное на Java. Тест оценивает время, затрачиваемое на шифрование файла-примера. Метод шифрования не ясен, но аппаратное ускорение шифрования на поддерживающих его процессорах не используется, как кажется. Операционная система оказывает существенное влияние — под UOS результат Kirin 9000C оказался почти в два раза хуже, чем под Kylin.
Утилита Kirin 9000C демонстрирует худшие результаты по сравнению с Loongson — вероятно, бенчмарк не оптимизирован для всех вычислительных архитектур одинаково. Результат Kirin слабый: китайский процессор сравним с Ryzen 5 1500X на частоте 2,5 ГГц и уступает всем остальным участникам теста, проигрывая Intel в номинале более чем в 2,3 раза.
Crypto++ — открытая библиотека для C++, которая работает с различными криптоалгоритмами. Поддерживается множество алгоритмов, для x86-процессоров доступно расширение AES-NI, оптимизации для ARM также, в отличие от Loongson. Для всех поддерживаемых тестовым ПО алгоритмов использовался один общий результат. Зависимость от операционной системы присутствует, но не сильная.
Сравнение Kirin 9000C с Loongson 3A6000 показывает, что китайский чип более чем вдвое быстрее. Даже по сравнению с западными конкурентами есть основания для радости — в этом тесте китайский процессор превзошёл Ryzen 5 1500X, работающий на частоте 2,5 ГГц, и был почти на одном уровне с Core i3-12100 в аналогичных условиях. Полные версии западных процессоров быстрее, но явное преимущество остаётся только у Intel — он примерно в 1,75 раза быстрее.
Последний тест раздела — OpenSSL. Это криптографическая библиотека с открытым исходным кодом, известная по расширению SSL/TLS для протокола HTTPS. Она поддерживает большинство алгоритмов хеширования, шифрования и популярных криптографических стандартов. В тестировании использовались два варианта: RSA4096 и SHA512. Скорость первого измеряется в количестве подписей в секунду, второго — МБ/с. UOS показал скорость чуть выше, чем Kylin, но разница не существенная.
Производительность китайского процессора в этом случае явно хороша, особенно в SHA512. Модель Kirin 9000C в первом подтесте вдвое быстрее Loongson и уступает лишь одному западному процессору — Core i3-12100, который быстрее чуть ли не вдвое. Ryzen 5 1500X на равных даже с родной частотой. Снижение частоты AMD до 2,5 ГГц привело к победе Kirin.
Результаты второго подтеста значительно лучше для обоих китайских процессоров. Kirin – явный лидер, опередив Core i3-12100 на 17% при заводской частоте, а Ryzen 5 1500X отстал на внушительные 73%. В тесте с показателем IPC у Kirin всё отлично: он быстрее Zen 1 и соперничает с процессорами Core 12-го поколения, пусть и не с самой мощной моделью. Результаты в OpenSSL-бенчмарке весьма удачные для рассматриваемого процессора Huawei.
Сжатие и распаковка
Сжатие и распаковки файлов в архивах знакомы многим пользователям, как и самые известные программы для работы с ними.
Gzip — популярный в Unix-системах формат сжатия без потерь, основанный на методе Deflate (комбинация алгоритмов LZ77 и Хаффмана). Тест измеряет время сжатия двух копий исходных кодов ядра Linux 4.13. По результатам предыдущих материалов, влияние пропускной способности памяти несущественно, а вот влияние применяемой ОС обнаружено, по крайней мере в случае с Kirin 9000C.
Китайский процессор выполнил задачи практически на уровне Loongson 3A6000. Сравнивая его с процессорами AMD и Intel, работающими на пониженной частоте в 2,5 ГГц, Kirin занимает промежуточное положение между Ryzen 5 1500X и Core i3-12100, имея схожий показатель IPC. Однако стоит отметить, что это устаревшие западные процессоры, которые даже на номинальной частоте работают быстрее. В таких условиях Kirin 9000C уже вдвое медленнее процессора Intel и на треть медленнее Ryzen 5 1500X.
Архиватор 7-zip широко применяется на различных платформах благодаря своей эффективности и требовательности к вычислительным ресурсам. Интересно то, что тест кроссплатформенен, и его результаты можно сравнивать при использовании разных операционных систем. При сжатии производительность часто зависит от объема памяти, а при распаковке этот фактор менее значителен. Разница в результатах тестирования UOS и Kylin незначительна.
Результаты рассматриваемого сегодня процессора Huawei можно назвать неплохими. По сжатию китайский CPU справляется на 12% быстрее Loongson, но на 70% хуже Core i3-12100. Лишь притормаживание последнего до 2,5 ГГц дает Kirin возможность приблизиться, но не догнать его. Ryzen 5 1500X ближе к китайцу даже при номинальной частоте — показатели практически равны. По показателю IPC в этот раз Kirin заметно опережает процессор AMD.
Разгонка Kirin 9000C превосходит Loongson 3A6000, который в свою очередь опережает процессоры AMD и Intel при частоте 2,5 ГГц. По количеству исполняемых за такт инструкций Kirin демонстрирует достойный результат. И даже с невысокой рабочей частотой Core i3 отстает на 5%, а Ryzen 5 — на 23% в номинальном режиме. Для Kirin это отличный показатель.
Каждый тест сжатия определяет время сжатия и распаковки образцового файла silesia.tar при помощи алгоритма LZ4 из семейства методов сжатия LZ77. Данный без потерь способ сжатия данных ориентирован на высокую скорость сжатия и распаковки.
LZ4 сжимает с меньшей степенью, чем gzip, но значительно быстрее. В тестах был использован уровень сжатия Level 9 для сравнения скорости сжатия и распаковки. Разница между двумя операционными системами практически отсутствует.
Kirin 9000C по скорости сжатия сравнялся с Loongson, обойдя Core i3-12100 и Ryzen 5 1500X, работающие на частоте 2,5 ГГц. По показателю количества инструкций за такт у китайского процессора всё в порядке. Но из-за меньшей рабочей частоты Kirin также отстает от западных конкурентов в номинальном режиме. Отставание от процессора AMD небольшое, но Core i3 на 61% быстрее.
Распаковка файлов происходит значительно быстрее и не зависит от объема ОЗУ, в отличие от сжатия, а Kirin 9000C уже немного опережает Loongson. В результате чип HiSilicon при одинаковой частоте для всех CPU сравним с Core i3 и чуть превосходит Ryzen 5. При номинальной частоте Core i3 более чем на 70% быстрее, а Ryzen 5 — на четверть.
Тест сжатия определяет время сжатия и распаковки файла silesia.tar с использованием алгоритма Zstd (Zstandard). Это алгоритм без потерь, разработанный при поддержке Facebook. Он объединяет словарь LZ77 и энтропийное кодирование ANS, подобное коду Хаффмана. Тестирование проведено на уровне сжатия Level 19 Long. Влияние операционной системы малозаметно.
Рассматриваемый сегодня процессор Kirin 9000C продемонстрировал производительность сжатия хуже, чем даже у Loongson, став худшим в сравнении. Core i3-12100 и Ryzen 5 1500X, работающие на частоте 2,5 ГГц, опередили китайское решение. Из-за более высокой рабочей частоты у конкурентов результат ещё лучше — процессор Intel на 73% быстрее, а AMD — на 42%. С распаковкой Kirin 9000C находится чуть ниже приторможенного решения от AMD, а в номинальном режиме Ryzen быстрее на 44%, а Core — сразу в 2,3 раза.
Известный формат сжатия — многопоточная реализация bzip2, алгоритма Барроуза — Уилера. Сжимает большинство файлов эффективнее gzip и zip, но медленнее. Важным является то, что работает при большой нагрузке на CPU и распараллеливается в современной версии. Бенчмарк измеряет время сжатия и распаковки файла FreeBSD-13.0-RELEASE-amd64-memstick.img методом Parallel BZIP2. ПСП оказывает явное влияние на скорость сжатия, производительность распаковки немного от нее зависит, а вот разница в результатах между ОС небольшая.
Процессор Kirin 9000C в данном тесте демонстрирует производительность близкую к уровню второго китайского CPU. При сжатии данных он опережает конкурентов на 12% благодаря быстрой памяти, но при распаковке отстает на 24%. В работе на частоте 2,5 ГГц Kirin 9000C показывает результат лучше, чем Ryzen 5 1500X, но уступает Core i3-12100, не говоря уже о полной рабочей скорости. Процессор Intel при номинальной частоте сжимает файл ровно вдвое быстрее, а Ryzen 5 1500X — более чем на треть. Распаковка файлов происходит в два раза быстрее на Intel, а AMD — на 30% быстрее.
Финальным испытанием раздела станет проверка скорости распаковки архива .tar.xz установочных файлов веб-браузера Mozilla Firefox 84.0. Как установили предыдущие тесты, производительность может варьироваться в зависимости от доступной оперативной памяти. Также выявлена зависимость результата от используемой операционной системы: Kirin 9000C с UOS показал практически вдвое худшую скорость по сравнению с Kylin.
Firefox на китайском процессоре медленнее всех, кроме Ryzen 5 1500X с пониженной частотой — тут результаты равны. Loongson 3A6000 выполнил распаковку на 30% быстрее, не говоря о западных процессорах, которые в два раза быстрее для Core i3-12100 на полной частоте и на треть — для Ryzen 5 1500X. При работе на частоте 2,5 ГГц китайский Kirin 9000C немного быстрее Ryzen, как и писалось ранее, но всё же уступает Core i3 на 25%. Но Core i3 — это более продвинутый западный CPU с памятью DDR5, важной при распаковке данных.
Компиляция и разработка
Несмотря на некрупный размер и сравнительно небольшую популярность среди разработчиков программного обеспечения, данный раздел представляет определённый интерес. Архитектуры ARM и не-x86 в настольных ПК стали широко использоваться только недавно, поэтому спрос на разработку ПО для них всё ещё ощутим, особенно в Китае, который активно переходит на отечественные технологии. Проверим, насколько новый китайский процессор справляется с компиляцией кода, сборкой приложений и другими задачами разработки программного обеспечения.
Build2 – кроссплатформенный набор инструментов для компиляции кода C/C++. Первый тест раздела оценивает время установки Build2 из исходного кода. Влияние памяти на результаты отсутствует, как выяснилось ранее. От операционной системы время сборки отличается: UOS быстрее системы Kylin более чем на четверть.
Если в прошлой статье говорилось, что Loongson 3A6000 нечем похвастать, то у Kirin 9000C дела обстоят не сильно лучше, даже если не рассматривать провал сборки в Kylin. Однокристальная система Huawei лишь на 12% быстрее своего китайского собрата, а к западным процессорам приближается только при замедлении последних до уровня в 2,5 ГГц. Тогда Kirin 9000C оказывается чуть быстрее замедленного Ryzen 5 1500X, но всё равно сильно проигрывает даже приторможенному Core i3-12100. В этом тесте скоростью Kirin не блещет, разница сильно увеличивается при работе условных западных соперников в их номинальных режимах, когда процессор Intel становится более чем вдвое быстрее, а решение AMD выигрывает 30%.
PyBench — это тесты общей производительности, выполняющие различные функции, написанные на Python. Вычисляется общее время выполнения для функций, таких как BuildinginFunctionCalls и NestedForLoops — общий результат дает приблизительную оценку средней производительности Python в системе. Разница между UOS и Kylin все еще заметна, но теперь вторая ОС ощутимо быстрее.
При оценке лучшего показателя из двух у Kirin 9000C получается не просто на уровне заторможенного Ryzen 5 1500X, но и незначительно превосходит его при штатных скоростях. Это можно считать победой, учитывая уже многолетнюю историю архитектуры AMD. Китайский процессор Loongson 3A6000 в этом тесте отстал от Kirin более чем на 40%. Core i3-12100, даже на частоте 2,5 ГГц, и тут явно быстрее, а в обычном режиме еще и вдвое.
Заключают этот краткий раздел два теста времени компиляции: примеров из Eigen — библиотеки линейной алгебры на C++ и Erlang — языка программирования и среды выполнения для масштабируемых программных систем реального времени. В этих бенчмарках измеряется время компиляции указанных проектов в секундах. Влияние ПСП здесь незначительно. Разница между двумя ОС при Kirin 9000C уменьшилась, но всё же сохранилась — во всех случаях в пользу UOS.
Интересно, что даже в лучшем случае Kirin 9000C сравнялся с процессором Loongson по скорости компиляции только одного проекта, проиграв во втором. Почти на том же уровне оказалась замедленная до 2,5 ГГц версия Ryzen 5 1500X — очередной китайский процессор догнал по возможностям архитектуру Zen 1 и в этот раз. Но она позволяет CPU работать на куда более высокой частоте, и при номинальных параметрах процессор AMD на 35% быстрее рассматриваемого китайского. С Core i3-12100 всё как всегда: он заметно быстрее в режиме 2,5 ГГц частоты, и в 2—2,5 раза быстрее в номинале, а до уровня производительности современных западных CPU очень далеко.
Высокопроизводительные вычисления
Тестовый раздел вызывает неоднозначные чувства. С одной стороны, высокопроизводительные вычисления предъявляют максимальные требования к мощности процессоров. С другой стороны, маловероятно, что кто-либо будет использовать процессор начального уровня для таких задач. Но у Huawei есть серверные CPU той же архитектуры с большим количеством ядер. По скорости настольного Kirin можно оценить вычислительную архитектуру компании в целом, а не только модель CPU для настольных ПК.
Первый тест раздела Algebraic Multi-Grid (AMG) — параллельный алгебраический многосеточный решатель для линейных систем на неструктурированных сетках. Тест выдаёт значение, показывающее итоговую производительность, и чем оно выше, тем быстрее выполняются вычисления. Как и предсказывалось, пропускная способность памяти существенно влияет на результат. Однако в Kylin многие тесты раздела отказались работать, выводя ошибку OpenMPI, поэтому в соответствующих строках будет стоять ноль.
В первом тесте Kirin 9000C показал скорость на уровне Loongson 3A6000, более чем вдвое ниже даже замедленного до 2,5 ГГц процессора Ryzen 5 1500X. Ни одному из китайских решений в этом тесте не удалось похвастаться количеством выполняемых инструкций за такт, даже при том, что Ryzen 5 при частоте 3,5 ГГц не особо ускорился. Core i3-12100 тоже не сильно ускорился в номинальном режиме — возможно, упор сделан на скорость работы с памятью, но уже далеко не новый процессор Intel втрое быстрее китайского Kirin в этом тесте.
Тест High Performance Conjugate Gradient (HPCG) решает систему линейных алгебраических уравнений с разреженной квадратной матрицей больших размеров методом сопряженных градиентов с предобуславливателем Гаусса-Зейделя. Реализация алгоритма построена с использованием MPI и OpenMP, обеспечивая поддержку многоядерных CPU. В Kylin тест вновь не заработал. В тесте заметно проявляется влияние пропускной способности памяти, даже процессоры AMD и Intel при разной частоте показывают близкие показатели производительности.
Работа китайской однокристальной системы Kirin 9000C оказалась медленной: даже Loongson 3A6000 работает быстрее в два раза. В втором бенчмарке ситуация еще хуже. Производительность Kirin 9000C на 6,7 раза ниже чем у Ryzen 5 1500X, и более чем на 8 раз отстает от Core i3-12100. Возможно, в тестах используется много памяти, а в системе с Kirin её вдвое меньше, чем в других системах, и увеличить ее объем нельзя.
В тестах с меньшими требованиями к памяти процессор Huawei может продемонстрировать более высокие результаты. Бенчмарк Himeno — линейный решатель давления Пуассона, использующий точечный метод Якоби, который выдает производительность в мегафлопах. Здесь тоже заметно влияние пропускной способности памяти, но не только она определяет результат — процессоры AMD и Intel с разными частотами показывают существенно отличающиеся результаты. Разницы между двумя ОС нет, этот тест в Kylin заработал.
Kirin 9000C оказался на 17% быстрее Loongson 3A6000, результат сопоставим с полноскоростным Ryzen 5 1500X — это неплохо для китайского процессора из семейства Zen 1. Однако при сравнении с Core i3-12100 с памятью DDR5 работающим на номинальной частоте, отставание китайца в два раза ощутимо. При разгоне до 2,5 ГГц показатели приближаются, ситуация не столь печальна.
«Mocassin» — это тест моделирования ионизированных туманностей с помощью метода Монте-Карло. Для этого используются два варианта, один из которых более сложен и выполняется дольше, вычисляя время решения в секундах. Влияние ПСП есть, но не столь заметно, как в предыдущих тестах. Система Kylin вновь не справляется.
К сожалению, в этом тесте рассматриваемая сегодня однокристальная система HiSilicon показала почти худшие результаты из всех сравниваемых. В данном конкретном тесте она оказалась в 5-6 раз медленнее Loongson — вероятно, это следствие недостатка оперативной памяти у системы на базе Kirin 9000C с встроенными прямо на однокристальную систему микросхемами памяти объемом 8 ГБ. Сравнение с западными процессорами бессмысленно, так как даже Loongson в этом тесте хорош — иногда даже быстрее Ryzen 5 1500X на его полной частоте в 3,5 ГГц. Core i3-12100 еще быстрее, но по сравнению с Loongson 3A6000 вовсе не в разы.
NAS Parallel Benchmarks (NPB) — это тест, разработанный НАСА для высокопроизводительных компьютерных систем. В нём используются несколько задач разной сложности и размера. Были выбраны два варианта из предлагаемых бенчмарком, результаты которого выдаются в виде количества операций в секунду (миллионов в секунду). Явное влияние ПСП заметно только в первом подтесте, тест в системе Kylin не работает.
Можно повторить наблюдения, сделанные при анализе результатов предыдущего теста: Kirin 9000C имеет объем ОЗУ вдвое меньше — у нас версия с 8 ГБ памяти, которую невозможно расширить. В результате китайский процессор Kirin 9000C в тесте 3D-FFT показал еще более низкую производительность, чем Loongson и оказался во много раз медленнее Ryzen 5 1500X и Core i3-12100. Во втором тесте Kirin продемонстрировал лучшую результативность, однако все равно показывал вдвое худшие показатели, чем Loongson 3A6000. До Ryzen 5 и Core i3 ему еще очень далеко, даже при их работе на пониженной частоте.
Parboil — набор тестов исследовательской группы Университета Иллинойса для измерения производительности вычислительных архитектур. Сценарии Parboil поддерживают многопроцессорные среды OpenMP, OpenCL и CUDA. Исследователи использовали только вариант OpenMP в четырех подтестах. В каждом подтесте измеряется время исполнения задачи. Влияние ПСП заметно не во всех подтестах, но в некоторых оно существенное и дает весомую разницу в производительности. Под Kylin тест заработал в среднем лучше, чем под UOS.
В сравнении с Loongson скорость Kirin 9000C достаточно хорошая, быстрее в половине тестов, а порой и вдвое. Loongson 3A6000 в этих тестах не блеснул против западных CPU, показав замедление в 2,5-3 раза по сравнению с Ryzen 5 1500X и Core i3-12100. Даже снижение частоты последних до 2,5 ГГц не сильно сократило разницу. Если не учитывать MRI Gridding, то Kirin 9000C практически на уровне Ryzen 5 1500X при сниженной до 2,5 ГГц частоте, что неплохо. Понятно, что при полной частоте западные CPU быстрее, но кратная разница наблюдается только в LBM.
В тесте MRI Gridding Loongson 3A6000 оказался быстрее Core i3-12100 при максимальной частоте работы, тогда как Kirin 9000C проиграл приблизительно в пять раз. Возможно, недостаток памяти объемом 8 ГБ помешал Kirin 9000C, но это предположение. Не исключено также, что тест выполняется некорректно на китайских процессорах.
Rodinia — пакет для ускорения сложных приложений с помощью CUDA, OpenMP и OpenCL. В данном тестировании использовался только вариант с OpenMP из-за невозможности ускорения вычислений на GPU. Время выполнения четырех подтестов указывается в секундах: меньше времени значит лучше. Влияние ПСП наблюдалось в половине подтестов — первом и третьем, тест заработал на обеих операционных системах для Kirin.
В тесте HotSpot3D возникла ошибка на обеих операционных системах, вероятно из-за недостатка памяти или других причин (на Лоонгсоне показан слабый результат).
Сравнение Kirin 9000C с соперниками проводится в остальных тестах. Два китайских процессора иногда близки по результатам (LavaMD), иногда Kirin выигрывает (Streamcluster), а иногда Loongson (CFD), что не позволяет сделать однозначный вывод.
i3-12100 и Ryzen 5 1500X на базовых частотах существенно быстрее, порой даже в несколько раз. В некоторых случаях рассматриваемый китайский процессор демонстрировал скорость, сравнимую с производительностью Ryzen при сниженной до 2,5 ГГц частоте, или даже превосходил его. Однако, в целом можно заключить, что китайскому процессору Kirin 9000C, как и Loongson, для полноценной конкуренции не хватает частоты, несмотря на неплохой показатель IPC. Некоторые тесты выявляют значительные недостатки производительности, указывающие на проблемы программной оптимизации под разные архитектуры вычислений.
Молекулярная динамика
Эти тесты также относятся к высокопроизводительным вычислениям, обсуждаемым ранее, но из-за большого количества были выделены в отдельный раздел.
CloverLeaf – тест гидродинамики по методу Лагранжа-Эйлера, использующий OpenMP для многопоточных процессоров. В качестве примера взят самый простой расчет clover_bm, результат работы теста – время его выполнения в секундах. Влияние ПСП на результат теста заметно, разница между двумя ОС в случае Kirin есть, но не существенна.
Процессор Kirin 9000C показал скорость, явно превышающую скорость Loongson 3A6000 — более чем на 30%, что значительный результат. Вероятно, это связано с недостатком оптимизации программного обеспечения для специфических особенностей второго китайского процессора. Kirin 9000C оказался на 34% медленнее придушенного до 2,5 ГГц процессора Ryzen 5 1500X, а полноскоростная версия этого решения AMD более чем в полтора раза быстрее. Не говоря уже о процессоре Core i3-12100, который при номинальной частоте сразу в 2,5 раза производительнее рассматриваемой сегодня однокристальной системы Huawei.
Dolfyn – это бенчмарк для оценки современных методов численного моделирования вычислительной гидродинамики (CFD). Тест измеряет время работы демонстрационных программ CFD, предоставляемых в комплекте — отображается затраченное на расчеты время. Влияние ПСП в этом тесте незначительно, в отличие от тактовой частоты процессора. Разница между UOS и Kylin есть, но не существенна.
В данном тесте Kirin 9000C вновь оказался немного быстрее Loongson, примерно на четверть, если учитывать более быструю систему Kylin. При сравнении Kirin с западными CPU на частоте 2,5 ГГц китаец демонстрирует производительность, близкую к замедленному Core i3-12100: количество исполняемых за такт инструкций у Kirin выше, чем у Zen 1 и почти соответствует возможностям процессора Intel. Однако максимальная частота у него явно ниже, так как даже Ryzen 5 1500X в номинальном режиме немного быстрее, а Core i3-12100 при родной частоте уже на 83% производительнее Kirin 9000C.
LAMMPS — пакет для классической молекулярной динамики, применяемый для сложных расчетов. На многопроцессорных системах используется интерфейс MPI, но он не работал на системе Kylin. Для тестов была выбрана модель белка Rhodopsin. Влияние пропускной способности памяти в этом бенчмарке невелико.
Результаты теста Kirin 9000C удивительно низкие по сравнению с Loongson 3A6000, который показал отличные результаты. HiSilicon, рассматриваемая в статье однокристальная система с ядрами архитектуры ARM, продемонстрировала худший результат в этом тесте. Если это не объясняется вдвое меньшим объемом памяти, то ситуация для Kirin печальна — он более чем вчетверо медленнее Loongson и более чем в 8 раз отстаёт от Core i3-12100 при работе на номинальных частотах.
Livermore Unstructured Lagrangian Explicit Shock Hydrodynamics (LULESH) — трёхмерная неструктурированная гидродинамическая модель Лагранжа для решения стандартной аналитической задачи Седова. Влияние ПСП на производительность незначительно и может быть пренебрежено. В системе Kylin тест не заработал из-за ошибки OpenMPI, в то время как в UOS всё функционирует должным образом.
Этот раз китайский процессор показал весьма слабые результаты, в восемь раз медленнее Loongson и Ryzen 5 1500X при его частоте 2,5 ГГц. Полностью нагруженный Core i3-12100 оказался в 18 раз быстрее. Если по количеству инструкций за такт Loongson 3A6000 не выглядит таким уж плохим, то Kirin 9000C провалился — скорее всего, опять сказалось ограничение объема памяти в системе на кристалле.
Пеннэнт — приложение для расчета гидродинамики неструктурированных сеток в двумерном представлении. Содержит два подтеста и выдает время их расчета в секундах. Влияние пропускной способности памяти на результаты велико в обоих подтестах. Что касается операционных систем, то OpenMPI в Kylin снова не заработал, поэтому рассматриваем только UOS.
История этого раздела печальна: Kirin 9000C демонстрирует отвратительные результаты. Даже Loongson производительнее в 3,4 раза, Ryzen 5 1500X – в 5 раз, а Core i3-12100 – в 7-10 раз, в зависимости от тестов. В очередном испытании процессор Huawei вновь оказался худшим, причина неясны: недостаток памяти, проблемы с оптимизацией или что-то ещё.
Последний бенчмарк раздела. Incompact3d — высокопроизводительный код на основе Fortran-MPI для решения системы уравнений Навье-Стокса для несжимаемой жидкости. Используем самый простой вариант со 129 ячейками на направление, результат выводится в затраченном времени в секундах. Влияние ПСП достаточно велико, а система Kylin снова не позволила запустить тест из-за ошибки, связанной с OpenMPI.
Тест с плохими результатами Kirin 9000C показал, что этот китайский процессор, по крайней мере в модификации с 8 ГБ памяти, не подходит для высокопроизводительных вычислений, в частности в вычислительной гидродинамике. В этом тесте Kirin 9000C оказался медленнее Loongson 3A6000 в 2,3 раза. Западные CPU значительно опережают его как по стандартным тактам, так и при замедлении до 2,5 ГГц. Core i3-12100 превосходит Kirin 9000C в 5 раз, а Ryzen 5 1500X — втрое. Отставание Kirin 9000C слишком велико, тем более что указанные западные процессоры появились давно, и сейчас продаются другие поколения.
Машинное обучение
Нельзя было не затронуть актуальную тему ресурсоемких вычислений, применяемых в машинном обучении. В этом разделе всего два теста, но они интересны даже несмотря на то, что для подобных вычислений всё чаще используются графические процессоры, работающие более эффективно. Всё же и универсальные CPU находят свое применение.
NumPy — это библиотека с открытым исходным кодом для языка программирования Python, предназначенная для математических вычислений. Она поддерживает многомерные массивы, включая матрицы, а также функции для работы с ними на высоком уровне. В данном случае система UOS не смогла запустить бенчмарк. Однако результат, полученный в Kylin, будет рассмотрен.
В этом тесте результат лучше, чем у Loongson 3A6000. Китайский ARM-процессор оказался почти вдвое быстрее своего собрата из Китая. Кроме того, Kirin 9000C обогнал даже Ryzen 5 1500X на стандартной частоте. Справиться с полноскоростным Core i3-12100 не удалось, при 3,3 ГГц он быстрее почти на 60%. Зато придушенный до 2,5 ГГц процессор Intel находится на уровне Kirin в тесте с матричными вычислениями.
Это несколько более подходящий для раздела тест. TNN — высокопроизводительная кроссплатформенная платформа глубокого обучения с открытым исходным кодом от Tencent. Она хорошо масштабируется от мобильных устройств до мощных систем и серверов на базе GPU. В эксперименте использовали лишь две модели из четырех, предлагаемых в бенчмарке. На диаграмме показано время выполнения тестовой задачи, и Kylin справился с ней лучше, чем UOS.
Во втором тесте Kirin 9000C обошёл Loongson на 38%-42%. По количеству исполняемых инструкций за такт китайский процессор оказался на уровне Ryzen 5 1500X. В одном из подтестов Core i3-12100 при частоте 2,5 ГГц показал лишь небольшую опережение. В обычном режиме Intel всё же работает почти вдвое быстрее.
Выводы
Результаты тестов и небольшой практики использования системы на основе Kirin 9000C позволяют утверждать, что очередной китайский процессор для настольных систем пригоден для широкого круга задач домашних и рабочих ПК — несложных, не требующих большой вычислительной мощности, таких как браузер, почта и офисные приложения. Не более того, но и не менее. Huawei в лице подразделения HiSilicon давно занимается разработкой однокристальных систем для мобильных решений и выпускает серверные решения на основе архитектуры ARM, имея опыт и возможности в этой области. Это дало явное преимущество по выводу на рынок вполне проработанного и стабильного процессора для настольных систем, в том числе по сравнению с другими китайскими компаниями, выпускающими аналогичные решения.
Ядра Taishan построены по архитектуре ARM, но отличаются от стандартного дизайна компании Huawei своими разработками. По уровню эффективности и количеству исполняемых инструкций за такт они приближаются к процессорам Zen первого поколения, как показали тесты Kirin 9000C, часто близко подбирающийся к Ryzen 5 1500X с частотой 2,5 ГГц. Данный китайский процессор достаточно мощный для большинства обычных задач. Процессоры Zen первого поколения всё ещё используются в системах не требующих максимальной производительности. В высокопроизводительных вычислениях этот тип процессоров не применяется, а Kirin 9000C в таких тестах показал слабые результаты. Особенно заметно отставание в малораспространённом ПО из-за отсутствия специальных оптимизаций, например, при неиспользовании дополнительных наборов инструкций, необходимых для высоких показателей производительности.
Процессор Kirin 9000C не назвать отличным, поскольку по многим объективным причинам находится примерно на уровне процессоров AMD и Intel нескольких поколений назад, да ещё и далеко не топовых моделей соответствующих линеек. Сравнивая данный CPU с самыми современными западными аналогами, заметное отставание будет наблюдаться и по количеству исполняемых инструкций за такт, особенно учитывая куда меньшую тактовую частоту. Впрочем, для начала и это уже неплохо, особенно учитывая условия, в которых оказались китайские компании. Для производства SoC используется 7-нанометровый техпроцесс SMIC, пусть и в улучшенном варианте N+2, предположительно отличающимся более высокой плотностью размещения транзисторов. Это похуже 5-нанометрового техпроцесса TSMC, который компания использовала до начала действия санкций, и заметно хуже более современных вариантов технологии, которые может предложить та же TSMC сейчас.
Китайским компаниям недоступна возможность производства чипов на самых современных процессорах. Из-за санкций США SMIC не может приобретать современное EUV-оборудование, необходимое для массового производства кремниевых пластин. Вероятно, при производстве используются более старые DUV-станции. Чипы для Huawei по западным оценкам в два раза дороже, чем если бы их производили на TSMC благодаря более высокой литографии — из-за меньшего выхода годных кристаллов и большей себестоимости производства. Следующие процессоры Kirin, вероятно, будут выпускаться с использованием 7-нанометрового техпроцесса SMIC, но еще более усовершенствованного — N+3 с повышенной плотностью транзисторов по сравнению с Kirin 9000C и 9010. Разработка более продвинутых техпроцессов у китайцев ведется, но пока не позволяет начать массовый выпуск продукции.
Предполагаем, что Kirin 9000C во многом схож с Kirin 9000S, который в некоторых аспектах превосходит своего предшественника Kirin 9000. Последний почти идентичен по конструкции, но обладает более современным техпроцессом производства микроэлектроники. По максимальной частоте и энергоэффективности Kirin 9000 остается непередаваемым — это обусловлено различием между техпроцессами TSMC 5 нм и SMIC 7 нм. Вероятно, себестоимость массового производства китайских версий Kirin 9000 с буквенными индексами также выше, но для пользователей это несущественно. Для применения в ПК не особенно важна энергоэффективность, а хотя Kirin 9000S/C явно уступает по этому параметру, это было бы проблематично скорее для смартфонов и ноутбуков, которым необходимо автономное функционирование. А вот что плохо и для настольных систем, так это менее производительное встроенное графическое ядро в Kirin 9000S/C — оно, по разным оценкам, на 20%-30% медленнее, чем в Kirin 9000. Вероятно, на 7 нм компания не смогла сделать GPU быстрее, но хотя у 9000S/C есть и другие недостатки даже по сравнению с моделью 9000 четырехлетней давности, это все равно достаточно мощные процессоры для многих задач. Правда, для бытовых компьютеров мы советовали бы всё же выбрать конфигурацию с 16 ГБ встроенной памяти, ведь 8 ГБ хватает не везде, а модернизация невозможна.
Низкие тактовые частоты ограничительны для универсальных вычислительных ядер Kirin 9000C: максимальная частота лучшего ядра меньше 2,5 ГГц. Восьмё из них архитектурно энергоэффективные с частотой до 1,5 ГГц. Поэтому Kirin 9000C не может конкурировать с мощными современными процессорами AMD и Intel с частотами почти в 6 ГГц. Надежда на прогресс в плане улучшения вычислительных ядер есть: мобильная версия Kirin 9020 использует более новое ядро Taishan с лучшим показателем производительности на такт, но его частота всё ещё недостаточна. Повысить её без ухудшения других показателей сложно – AMD и Intel долго работали над своими архитектурами для этого.
Решить вопрос о технологическом отставании китайских производителей от западных компаний сложнее всего. Даже Ryzen 5 1500X по техпроцессу 14 нм показывает производительность на уровне Kirin 9000C, изготовленного по технологии 7 нм — при меньшем количестве ядер. Core i3-12100, четырёхъядерный процессор Intel, явно быстрее. В линейке Intel есть и более мощные решения, например Core i9-12900K с большим количеством ядер и высокой тактовой частотой. Уровень Kirin 9000C мало отличается от уровня Loongson 3A6000 – полностью китайского процессора, который тоже не может конкурировать с западными решениями. Китайским производителям предстоит ещё много работы, чтобы достичь такого же уровня. Остается надеяться, что технологическое отставание будет сокращаться.
В отличие от Loongson, работающего на архитектуре LoongArch, у Kirin 9000C на базе ARM меньше проблем с недостатком родных версий ПО, но все же они есть. Важно обратить внимание на программную часть и оптимизации под ARM и ядра HiSilicon Taishan, поскольку возможности этих ядер могут быть не полностью раскрыты в существующем ПО. В остальном настольная платформа Huawei жизнеспособна для офисного и домашнего использования при нетребовательных условиях к комфорту и производительности. Устранение недостатков и усиление ядер собственного дизайна позволит системам на базе Kirin стать подходящими и для ресурсоемких применений.