Тестирование производительности китайского процессора Phytium Feiteng Tengrui D3000 на архитектуре ARM

В качестве заключения мы завершаем цикл обзоров китайских процессоров — во всяком случае, на данный момент. Ранее мы уже представили информацию о ряде компаний, производящих процессоры для настольных компьютеров в Китае, среди которых Loongson 3A6000 с собственной архитектурой, Huawei Kirin 9000C на базе ARM-ядер, и даже x86-совместимый Zhaoxin KaiXian KX-7000, однако перечень китайских производителей CPU на этих моделях не исчерпывающий. Если исключить компании, практически неизвестные на рынке, то на сегодняшний день из наиболее перспективных предприятий, предлагающих подобные продукты, стоит выделить еще одну фирму, которая прошла значительный путь в разработке конкурентоспособных процессоров — Phytium Technology. Это китайская компания, занимающаяся разработкой полупроводниковых решений и не располагающая собственными производственными мощностями, основанная в 2012 году как дочернее предприятие China Electronics Corporation (CEC). Компания занимается разработкой высокопроизводительных микропроцессоров на базе архитектуры ARM, а также ASIC и других чипов, предназначенных для решения сложных задач, и является лицензированным разработчиком архитектуры ARM, что является важным фактором.

Постепенное разрушение глобального рынка и санкции, налагаемые на страны, не угодившие Западу, повысили интерес к отечественным процессорам. Помимо этого, существуют ARM-процессоры для маломощных ПК и ноутбуков от Qualcomm, включая решения, работающие под управлением операционной системы Windows 11 в специальной версии для ARM-процессоров. Их мы также затронем при случае, но сегодня мы поговорим о втором китайском решении на базе ядер, совместимых с ARM. Ранее представленные китайские процессоры не произвели на нас особого впечатления по сравнению с западными аналогами, однако они заслуживают внимания, поскольку представляют собой полностью отечественные продукты, в минимальной степени использующие западные разработки и технологии — с некоторыми оговорками, ведь они основаны на решениях, разработанных много лет назад. Сегодня мы изучим самое современное на данный момент решение Phytium для настольных ПК, сопоставив его с продуктами конкурентов из Китая, а также с устаревшими процессорами AMD и Intel.

На распространение процессоров, отличных от x86(-64), в последние годы повлияло несколько факторов. Во-первых, архитектура ARM достигла уровня производительности и функциональности, необходимого для разработки полноценных настольных компьютеров и мощных мобильных устройств. Во-вторых, многие компании, в частности китайские, добились значительного прогресса в создании и выпуске собственной микроэлектроники, включая универсальные и графические процессоры. Китайские компании на протяжении многих лет получают существенные инвестиции для разработки и производства процессоров, что позволяет снизить зависимость от западных полупроводников и достичь технологической независимости. Это также связано с санкциями, введенными США, которые ограничивают не только продажу определенных западных микрочипов, но и передачу технологий их производства, а также их изготовление на предприятиях тайваньской компании TSMC, производящей большую часть современных микросхем.

Phytium Technology сосредоточена не только на создании процессоров, но и на проведении научных изысканий в области полупроводниковых технологий с целью совершенствования своей продукции, ориентированной как на коммерческий сектор, так и на государственные организации. Неслучайно правительство Китая оказывает поддержку Phytium, подобно другим компаниям, рассмотренным нами ранее, стимулируя внедрение инновационных решений в их разработках. За время своей деятельности компания была отмечена множеством наград от государственных ведомств и привлекла внимание Запада – Phytium стала одной из первых компаний, которую в США посчитали угрозой для микропроцессорной индустрии, и в 2021 году включили в санкционный список, что существенно затруднило китайцам дальнейшую деятельность, однако не остановило развитие компании, продолжающей выпускать современные (для Китая) универсальные процессоры.

Причина кроется в том, что Phytium принимала участие в создании суперкомпьютеров Tiahne, которые ранее входили в число самых мощных в мире. Тайваньская компания TSMC отказала Phytium Technology в производстве процессоров, мотивировав это тем, что их разработки используются в китайских суперкомпьютерах, ресурсы которых применяются, в том числе, для военных нужд. Соединенные Штаты полагают, что данная компания имеет близкие связи с китайскими военными, как и Huawei и другие китайские организации, специализирующиеся на высокопроизводительных вычислениях и суперкомпьютерах, которые также теперь подпадают под санкции. Однако начало этой истории было положено еще раньше – в 2016 году, во времена президентства Барака Обамы, когда китайские суперкомпьютерные центры в Гуанчжоу и Тяньзине, а также институт NUDT, создавший суперкомпьютер Tianhe-2А, были включены в список организаций, подлежащих санкциям. Но вернемся к компании и их процессорам.

Краткая история процессоров Phytium

Первоначально процессоры FeiTeng, так наименованы все процессоры компании Phytium Technology, создавались строго для суперкомпьютерных задач, и за их развитием последовало несколько поколений. Архитектура первого поколения была совместима с машинным кодом Intel Itanium 2. Второе поколение представляло собой систему-на-чипе FT64, которая включала в себя процессор общего назначения и специализированный процессор для потоковых вычислений. Процессор FeiTeng-1000 относится к третьему поколению процессоров этого семейства, и о нем мы поговорим позже. Стоит отметить, что первые процессоры FeiTeng были разработаны корпорацией China Electronics Corporation (CEC), и они представляли собой решения, совместимые с архитектурой LA64, основанной на наборе команд VLIW — архитектуре с использованием очень длинных машинных команд. Системы-на-чипе FT64 были 64-битными и использовались в качестве аппаратных ускорителей в китайских суперкомпьютерах.

Изначально CEC отказалась от архитектуры LA64 и выбрала архитектуру SPARCv9 с набором инструкций RISC, выпустив в 2011 году процессоры FeiTeng-1000. Производство этих процессоров осуществлялось по 65-нанометровому техпроцессу, они содержали 350 миллионов транзисторов и были предназначены для суперкомпьютеров. В Tianhe-1A было установлено 2048 процессоров FeiTeng-1000, каждый из которых имел восемь ядер и поддерживал одновременное выполнение до 64 потоков, а тактовая частота чипа достигала 800—1000 МГц. Среди других характеристик следует отметить наличие трех каналов HyperTransport, четырех контроллеров DDR3 с частотой 400 МГц и восьми линий PCIe 2.0. Помимо процессоров FeiTeng-1000, в Tianhe-1A также использовались 7168 ускорителей Nvidia Tesla M2050 и 14336 процессоров Intel Xeon X5670, а сами процессоры FeiTeng-1000 применялись для управления сервисными узлами.

Затем были представлены процессоры FeiTeng-1500 и FeiTeng-2000, разработанные для применения в последующих поколениях суперкомпьютеров. В Tianhe-2 было установлено свыше 4000 16-ядерных процессоров Galaxy FT-1500, произведенных по 40-нм технологическому процессу и функционирующих на частоте 1,8 ГГц. Каждое ядро этих процессоров способно обрабатывать до 8 потоков и поддерживает 256-битные SIMD-операции. Каждый процессор оснащен 32 КБ кэша L1 и 512 КБ L2, а все ядра разделяют общий L3-кэш объемом 4 МБ. FT-1500 также включает линии для взаимодействия между процессорами, четыре контроллера DDR3-памяти,
два контроллера PCI-Express и 10-гигабитный Ethernet.

В дальнейшем сама CEC отказалась от производства процессоров, сосредоточившись на выпуске более простых электронных компонентов, а результаты исследований FeiTeng были переданы в специально учрежденную дочернюю компанию — Phytium Technology. Использование архитектуры SPARC позволило компании оперативно представить следующие чипы линейки FeiTeng для китайских исследовательских центров и суперкомпьютеров Tiahne, однако это решение оказалось временным — было принято решение о переходе на новый набор команд. Новой архитектурой стала собственная разработка на базе ARMv8, но с модифицированными блоками для целочисленных и операций с плавающей запятой, получившей название FTC. Процессоры серии FT-1500A, выпущенные в 2016 году, использовали ARM64-совместимые ядра FTC660, разработанные Phytium, и включали до 16 вычислительных ядер.

Переход на новую архитектуру позволил компании Phytium безболезненно перейти на более востребованную и современную архитектуру ARM для создания передовых решений, рассчитанных на серверные, настольные и мобильные системы. Затем были представлены модели FT-2000 и FT-2000+, а с 2020 года Phytium выпускала серверные процессоры линейки S2500, а также настольные решения D2000 — на основе вновь усовершенствованных ядер FTC663, изготовленных по 16 нм техпроцессу. Помимо этого, примерно в то же время компания поделилась своими планами на будущее, которые впоследствии потребовали серьезной корректировки — в связи с санкциями США. И планов было очень много, как видно — компания должна была выпустить решения с ядрами FTC67X еще в 2020 году, а совершенно новое поколение — в 2024 году. В действительности процесс замедлился, и планы пришлось изменять по мере необходимости.

Вернемся к Phytium D2000 — это восьмиядерный ARM-процессор, разработанный для высокопроизводительных персональных компьютеров. По сути, он является модификацией серверного FeiTeng-2000/4, представленного летом 2020 года, с удвоенным количеством ядер, и его также можно применять в суперкомпьютерах. Модель D2000 использует восемь ядер FTC663, соответствующих стандарту ARMv8. Каждое ядро FTC663 включает три конвейера с возможностью выполнения команд вне очереди, динамический предсказатель ветвлений, а также усовершенствованные блоки для целочисленной арифметики и операций с плавающей запятой, с поддержкой инструкций Advanced SIMD от ARM. Энергопотребление процессора достигает 25 Вт при работе на частоте до 2,5—2,6 ГГц, что делает его больше подходящим для встраиваемых и мобильных систем, чем для настольных ПК.

Каждому вычислительному ядру соответствует общий кэш второго уровня объемом 2 МБ, а все восемь ядер совместно используют кэш третьего уровня, емкостью 4 МБ. Функциональность ввода-вывода D2000 включает двухканальный (128-битный) контроллер памяти DDR4-3200, 34 линии PCIe 3.0, два гигабитных сетевых порта, 32 линии GPIO, интерфейсы CAN, UART, I2C, SPI, а также LPC. В системе-на-чипе предусмотрена встроенная поддержка звука, однако отсутствует встроенная графика. Производство D2000 осуществлялось на китайском предприятии с использованием 14 нм техпроцесса, тогда как предыдущие модели Phytium изготавливались тайваньской компанией TSMC на 16 нм производстве, доступ к более современным производственным мощностям для китайской стороне получить не удалось.

В последние годы компания изменила свою стратегию, отказавшись от развития высокопроизводительных вычислений и суперкомпьютеров. Сейчас основное внимание уделяется разработке серверных и настольных процессоров, наиболее востребованными из которых являются серии S5000C и D3000. Именно серию D3000 мы сегодня рассматриваем, о ней мы расскажем позже. Серверные процессоры Feiteng получили собственное название Tengyun, а процессоры серии S5000C представляют собой высокопроизводительные серверные решения с 64, 32 и 16 ядрами, выпущенные в 2023 году и ориентированные на корпоративных и государственных клиентов.

Процессоры S5000C построены на ядрах FTC862 и поддерживают наборы команд ARMv8.2. Они демонстрируют высокую производительность как при выполнении целочисленных операций, так и при работе с числами с плавающей запятой, а также обеспечивают поддержку аппаратной виртуализации, национальных алгоритмов шифрования SM2, SM3, SM4 и спецификации фирменной архитектуры безопасности процессора PSPA 1.0 (Phytium Security Platform Architecture 1.0). В процессорах серии S5000C объем кэш-памяти L3 составляет 32 МБ, а одной из отличительных черт чипов является поддержка технологии, аналогичной Hyper-Threading, что нетипично для китайских процессоров и оказывается полезным в различных задачах, таких как облачные вычисления, обработка больших объемов данных, ИИ-вычисления и другие.

Первоначально компания рассчитывала на выпуск продукции серии S5000C, изготовленной по 7-нм техпроцессу TSMC, чтобы флагманская модель обладала максимальным количеством ядер и наивысшей тактовой частотой. Предполагалось, что FTC870 будет оснащен до 80 ядер, частотой до 3 ГГц, 64 МБ L3-кэша, восьмиканальным контроллером DDR5-4800 и 64 линиями PCIe 5.0. Данное решение должно было составить конкуренцию процессорам, использующим ядра Arm Neoverse N1 или даже Neoverse N2, однако из-за санкций, введенных США, реализация проекта оказалась невозможной, и в результате техпроцесс выпущенных решений не претерпел существенных изменений – он остался на уровне 14 нм, а максимальное количество ядер осталось прежним, как и в предыдущей линейке серверных процессоров. Тем не менее, новые решения Phytium продемонстрировали значительный прирост производительности: S5000C оказались примерно вдвое быстрее процессоров предыдущего поколения S2500.

В 2024 году процессоры Phytium продемонстрировали заметный прогресс в производительности, функциональности и области применения. На рынке появился серверный чип Tengyun S5000C, который нашел свое применение в государственных и финансовых структурах, энергетике и других сферах, требующих особого внимания к безопасности. Процессор для настольных ПК Tengrui D3000 также получил значительное увеличение вычислительной мощности по сравнению с предыдущей моделью и расширил возможности использования. В прошлом году объем продаж процессоров серии Phytium превысил 10 миллионов штук, решения компании используются в широком спектре устройств, от терминалов до облачных систем, и помогают китайским процессорам перейти от базового уровня к более удобным для пользователей.

В июле 2025 года компания заявила, что их процессоры используются в аэропорту Цзинань Яоцян – крупном авиационном узле Восточного Китая, ежедневно обслуживающем более 100 000 пассажиров. Новые версии киосков самообслуживания, внедрённые в аэропорту, полностью перешли на отечественные компоненты и программное обеспечение, заменив традиционные CPU и операционные системы Microsoft. Это стало первым масштабным применением процессоров Phytium в сфере авиационных сервисов. В системе используется процессор модели D2000, работающий под управлением операционной системы Kylin и программного обеспечения TravelSky KIOSK, которое позволяет выполнять стандартную процедуру самостоятельной регистрации, а также поддерживает такие функции, как изменение времени вылета, печать посадочного талона и оплата повышения класса обслуживания.

В частности, возможно прекратить использование решений Phytium на линиях городского железнодорожного транспорта в китайских городах Тяньцзинь, Чунцин, Шэньчжэнь, Хэфэй и Гуйян. Процессоры, разработанные компанией, используются в системе автоматизированного сбора платы за проезд, обеспечивающей ежедневные поездки почти 80 миллионов жителей этих городов. Бесперебойная работа системы критически важна, поскольку в часы пик пассажиропоток увеличивается в сотни раз, что предъявляет повышенные требования к аппаратному и программному обеспечению. На линиях метро установлены процессоры Phytium Tenglong E2000 для встроенных систем, функционирующие под управлением встроенной операционной системы KylinOS V10 и использующие управляющий компьютер от Shucheng Tech. Данный процессор создан для применения в промышленности и в сфере интернета вещей, он поддерживает архитектуру платформы безопасности PSPA, что повышает уровень защиты на аппаратном уровне.

В октябре прошлого года на трех энергоблоках мощностью по 8,73 МВт на электростанции в Эритрее (Африка) была внедрена система управления, построенная на базе процессоров FT-2000/4. Это стало первым опытом использования полностью китайской системы управления за рубежом в рамках международных энергетических проектов. В целом, компания является крупным игроком на рынке, и её продукция находит широкое применение в различных отраслях.

Особенности процессора Feiteng Tengrui D3000

В настоящее время наше внимание сосредоточено на настольных процессорах, и в особенности на модели Feiteng Tengrui D3000. Для начала разберемся с его названием: если добавить к нему фирменное наименование, получится Phytium Feiteng Tengrui D3000, что является слишком громоздким для частого использования. Напомним, что все процессоры компании носят имя FeiTeng, а Tengrui – это линейка именно настольных центральных процессоров. Однако для удобства мы будем именовать рассматриваемый сегодня процессор кратко – Phytium D3000.

Это новейший настольный процессор, выпущенный компанией в 2024 году. Он оснащен восемью ядрами на базе архитектуры FTC862, созданной для высокопроизводительных ПК, ноутбуков и компактных серверов. Настольные решения Phytium D3000 поступили в продажу после серверных S5000C, о которых говорилось ранее, и унаследовали их достоинства, получив при этом ряд усовершенствований. Тактовая частота процессора составляет 2,5 ГГц, он обладает встроенным двухканальным контроллером памяти DDR4-3200/DDR5-5600 с поддержкой объема до 64 ГБ. Среди заметных особенностей процессора D3000 стоит отметить наличие 8 МБ кэш-памяти четвертого уровня, функционирующей как системный кэш.

Архитектура ядра FTC862 обеспечивает взаимодействие с 64-разрядным набором команд ARMv8, процессор поддерживает расширенный набор SIMD-инструкций ARM NEON и аппаратную виртуализацию. В целях повышения безопасности компания Phytium внедрила усовершенствованную спецификацию архитектуры безопасности PSPA 2.0, а также китайские национальные алгоритмы шифрования SM2, SM3 и SM4, что имеет решающее значение для использования в государственных учреждениях. Этот настольный процессор имеет поддержку 28 линий PCIe 5.0, пару сетевых интерфейсов и три порта SATA 3.0, что делает его подходящим для разнообразных задач, включая настольные компьютеры, моноблоки, ноутбуки, терминалы и даже некоторые типы серверов.

Phytium D3000 демонстрирует заметное повышение производительности по сравнению с предыдущей моделью. Однако, информации об архитектурных изменениях в D3000 относительно D2000 в открытом доступе практически нет. Наиболее детальные сведения доступны по процессору D2000, который включает восемь ядер FTC663, сгруппированных в кластеры по два ядра. Поэтому наше описание будет в основном посвящено ему, с краткими отступлениями о возможных улучшениях в D3000. В свою очередь, на сайте компании имеется довольно подробная документация для специалистов, касающаяся D2000.

Ядро FTC663 обладает не самой масштабной микроархитектурой, которое позволяет одновременно обрабатывать три команды и поддерживает приоритетное выполнение. Его функциональность скромнее, чем у западных архитектур, применяемых в настольных компьютерах даже десятилетней давности. В целом, ядро FTC663 напоминает одно из не самых новых ядер ARM Cortex A72 – вероятно, оно послужило базой для последующей доработки. Исполнительные блоки китайского ядра практически не отличаются от тех, что есть в Cortex A72: в обоих случаях имеется четыре специализированных блока ALU, два из которых предназначены для выполнения простых целочисленных операций, один – для ветвлений, и последний – для сложных целочисленных вычислений. Такая конструкция упрощает планирование, но не обеспечивает высокой эффективности, поскольку блок для сложных целочисленных операций будет загружен работой в меньшей степени, чем остальные.

FTC663 обладает ограниченными возможностями для работы с числами с плавающей запятой. Пиковая производительность векторных вычислений и операций с плавающей запятой сопоставима с Cortex A72, при этом большинство вычислительных блоков имеют 64-битную разрядность, а для 128-битных операций требуется два такта. Целочисленные арифметико-логические устройства (ALU) имеют разрядность 128 бит. ARM Neoverse N1 также оснащен двумя конвейерами для работы с плавающей запятой, но использует 128-битные вычислительные блоки и способен выполнять две 128-битные инструкции за такт, в отличие от FTC663, который может выполнить только одну. Что касается Skylake, то он демонстрирует значительно более высокую производительность векторных операций благодаря поддержке AVX2 и полноразмерных 128-битных вычислительных блоков.

Подобно ядру Cortex A72, FTC663 также оснащен двумя конвейерами данных – для загрузки и сохранения. Однако компания Phytium внедрила в свое ядро унифицированный планировщик AGU, который, по их заявлению, должен превосходить распределенный планировщик ARM по эффективности. Это связано с тем, что в большинстве случаев код содержит больше операций загрузки, чем операций сохранения, и планировщик загрузки AGU в A72 периодически простаивает. Phytium попытались решить эту проблему, но ресурсы памяти для выполнения операций в их ядре все равно ограничены. При этом аналогичные высокопроизводительные ядра, разработанные западными компаниями, используют более мощные конфигурации AGU: например, Neoverse N1 имеет два конвейера, способных обрабатывать операции загрузки и сохранения, а конфигурация AGU в Skylake поддерживает по две операции загрузки и одну операцию сохранения за такт. Кроме того, блок загрузки/сохранения LSU, отвечающий за обеспечение корректной последовательности операций с памятью, у Phytium значительно уступает даже устаревшим процессорам Intel, AMD и ARM. LSU в FTC663 не способен определить наличие зависимостей между операциями с памятью и не может выполнить операции загрузки до тех пор, пока все предыдущие адреса сохранения не будут определены и проверены на наличие перекрытий, что приводит к дополнительной задержке.

Для современных высокопроизводительных архитектур точное предсказание ветвлений играет ключевую роль, и компания Phytium уже несколько лет работает над этой задачей, начиная с ядер Xiaomi, используемых в их решениях. В FTC663, по сравнению с Cortex A72, реализована возможность обработки более протяженных цепочек инструкций, однако при высокой частоте ветвлений блок предсказаний FTC663 демонстрирует результаты, уступающие A72. Вероятно, процессор Phytium обладает большим объемом памяти для хранения истории ветвлений, и благодаря длительному отслеживанию этой истории для обеспечения точного предсказания Phytium должен превосходить решения ARM. Однако, при большом количестве ветвей и умеренной длине истории, A72 может оказаться даже более эффективным.

По сравнению с решениями вроде Skylake и Neoverse N1, механизм предсказания ветвлений в FTC663 значительно уступает — ядра этих архитектур оснащены более продвинутыми предсказателями, которые способны выявлять сложные, протяженные последовательности и эффективно справляться с большим количеством ветвлений. В практических сценариях ядро FTC663 демонстрирует более низкую производительность не только по сравнению с Skylake и N1, что вполне ожидаемо, учитывая его меньший размер и сниженные требования к быстродействию, но и по сравнению с Cortex A72, который также характеризуется одним из наименее эффективных предсказателей ветвлений для ядер, поддерживающих внеочередное выполнение. И хотя ядро FTC663 обладает улучшенными возможностями переупорядочивания, это преимущество компенсируется более частыми неверными предсказаниями.

Структура буфера целевых ветвлений (branch target buffer — BTB) в Phytium D2000 во многом повторяет BTB в Cortex A72 — рекомендации по оптимизации программного обеспечения для Cortex A72 и FTC663 в этом отношении также совпадают. Однако Neoverse N1 и Skylake демонстрируют значительно более эффективное отслеживание принятых ветвлений, что обеспечивает более высокую скорость выполнения кода, содержащего большое количество ветвлений. Эффективность предсказания косвенных ветвлений в Phytium сопоставима с показателями A72, и оба ядра уступают ядрам ARM и Intel по этим возможностям. В целом, предсказатель ветвлений в FTC663 не отличается высокой эффективностью, и даже Haswell, выпущенный более десяти лет назад, превосходит его по всем параметрам. Реализация Phytium может сравниться лишь с предсказателем ветвлений ARM, характерным для Cortex A72, однако впоследствии ARM существенно улучшила эту функциональность в своих новых ядрах, и в Neoverse N1 появился значительно более быстрый и точный предсказатель. Вероятно, Phytium был вынужден пойти на серьезные компромиссы при разработке FTC663, которые были устранены только в FTC862, на котором основан процессор D3000.

Анализ производительности D2000, проведенный с помощью архиватора 7-Zip, выявил его недостатки. Тест использует сложную нагрузку, состоящую преимущественно из целочисленных операций. Ограниченное количество инструкций позволяет поместить их в большинство кэшей инструкций первого уровня, что обеспечивает высокую долю попаданий. Однако, в этом тесте Phytium D2000 демонстрирует неудовлетворительные результаты, заметно уступая конкурентам, несмотря на большее число ядер. Это указывает на недостатки архитектуры ядер FTC663, предсказатель ветвлений которой не соответствует современным архитектурам с возможностью выполнения команд вне очереди. Наиболее заметно это проявляется в тестах, где 15% и более инструкций связаны с ветвлениями.

В процессорах FTC862, на которых базируется D3000, существенно оптимизировали систему предсказания ветвлений, что положительно сказалось на его IPC, особенно учитывая относительно невысокую тактовую частоту в 2,5 ГГц. Если однопоточная производительность D2000 значительно уступала западным аналогам, то в D3000 ситуация заметно изменилась: он не только достиг, но и превзошел Zen 1 по IPC в тесте 7-zip. Высокая однопоточная производительность критически важна, поскольку настольные компьютеры обычно используются для решения задач, которые не демонстрируют хорошего масштабирования при увеличении количества ядер, в отличие от серверного программного обеспечения.

Игнорируя недостатки предсказателя ветвлений, пропускная способность выборки кода для Phytium D2000 сопоставима с характеристиками Cortex A72. FTC663 оснащен 48-килобайтным L1-кэшем инструкций, аналогичным ядру ARM, и оба демонстрируют заметное снижение скорости выполнения при извлечении кода из L2-кэша, хотя у FTC663 этот показатель несколько лучше. Ядро Phytium D2000 способно выполнять одну инструкцию за такт при работе с кодом из L2-кэша, применяя схему предварительного декодирования, схожую с A72. Neoverse N1 может извлекать данные из L2-кэша практически с той же скоростью, с которой Phytium извлекает их из L1-кэша, а Skylake поддерживает высокую пропускную способность при загрузке инструкций даже из L3-кэша. Кроме того, современные архитектуры ARM и Intel характеризуются большим объемом кэш-памяти, и благодаря раздельным BTB, их ядра способны обеспечивать высокий показатель IPC, даже если код отсутствует в кэше инструкций. В подобных ситуациях FTC663 сталкивается с проблемами, которые были частично решены в FTC862.

Использование команд вне очереди позволяет процессору поддерживать высокую производительность при обработке инструкций, выполнение которых сопряжено с задержками. Для этого предусмотрены очереди и буферы, предназначенные для отслеживания инструкций на различных стадиях выполнения. Механизм выполнения команд FTC663 представляет собой усовершенствованную версию Cortex A72, характеризующуюся буферами, близкими по объему к Neoverse N1, но уступающими буферам Skylake. Ядро FTC663 также обладает способностью к переупорядочиванию инструкций загрузки, ветвления и установки флагов, аналогичной таковой у A72. Оба этих типа процессоров используют 64-битные регистры с плавающей запятой/векторные регистры и предусматривают выделение нескольких регистров для обработки 128-битных инструкций NEON.

В FTC663 компания Phytium расширила размеры регистровых файлов и буферов переупорядочивания, что обеспечило улучшение производительности переупорядочивания по сравнению с A72. Также был увеличен размер очереди сохранения FTC663 до 28 записей, что почти вдвое превышает 15 записей у A72. Однако китайские разработчики не устранили некоторые важные недостатки A72, а именно – недостаточную очередь загрузки и ограниченное количество переименований для регистра флагов. Кроме того, ядро FTC663 страдает от тех же проблем неэффективного распределения векторных регистров, что и у A72, и реализовать выгоду от возросшего объема переупорядочивания для него затруднительно. Ядра Neoverse N1 и Skylake отличаются более сбалансированным распределением ресурсов и, как правило, демонстрируют лучшую производительность переупорядочивания. Также A72 и FTC663 неэффективны из-за способа распределения 128-битных регистров: каждый подобный случай требует выделения более двух 64-битных регистров, что приводит к снижению пропускной способности переупорядочивания для 128-битного кода NEON. Эта проблема была решена в ядрах FTC862, на которых основан процессор D3000, как следует из имеющихся косвенных данных.

Более старое ядро FTC663 во многом напоминает Cortex A72. Несмотря на внесенные изменения, призванные минимизировать снижение эффективности, эти улучшения нельзя считать значительными. Кроме того, для достижения оптимальной производительности необходимо обеспечить быстрое получение данных. В Phytium D2000 реализована трехуровневая система кэш-памяти: каждое ядро оснащено собственной кэш-памятью L1D объемом 32 КБ, а каждый кластер, состоящий из двух ядер, использует L2-кэш объемом 2 МБ, также на чипе присутствует общий L3-кэш объемом 4 МБ. Задержка L1 составляет четыре такта, что соответствует показателям других процессоров, однако из-за относительно невысокой тактовой частоты FTC663 всё равно проигрывает своим ближайшим аналогам.

Ухудшение производительности происходит стремительно при последовательном обращении к уровням кэша. L2-кэш в FTC663 обладает достаточным объемом, однако для доступа к нему требуется более двадцати тактов, что приводит к задержке, сопоставимой с задержкой гораздо большего по объему L3-кэша Skylake. Задержка кэша третьего уровня оказывается еще более высокой – около 50 тактов, согласно результатам западных исследований. Фактическая задержка превышает 20 нс, что является существенным недостатком. Задержка обращения к памяти вообще неприемлема, составляя приблизительно 160 нс (по тем же западным тестам)! Это даже хуже, чем показатели устаревших серверных систем, использующих DDR3-память, подключенную к отдельному сокету. Таким образом, Phytium D2000 демонстрирует более высокие задержки во всей подсистеме памяти в сравнении с конкурентами. И очевидно, что в D3000 требовались меры для решения этой проблемы.

Пропускная способность подсистемы кэша FTC663 сопоставима с показателями Cortex A72. Даже процессоры Skylake и N1, выпущенные ранее, демонстрируют значительно более высокие значения, что наглядно иллюстрирует отставание китайских процессоров от западных разработок. Ограничения Phytium связаны с двухъядерными кластерами ядер, которые были объединены для предотвращения снижения производительности L2-кэша. Однако ARM и Intel уже давно применяют более совершенные решения общего кэша с кольцевыми или сеточными структурами межсоединений, которые обеспечивают более эффективное увеличение пропускной способности при работе с многопоточными задачами. Двухъядерные кластеры, используемые в Phytium D2000, также оказывают негативное влияние на скорость операций когерентности кэша при переходе между кластерами. Несмотря на то, что большие межъядерные задержки не критичны для большинства приложений, другие архитектуры добились существенного снижения этих задержек за счет использования кольцевой шины, а межкластерные потери в Zen 2 значительно ниже, чем в D2000.

В связи с использованием более современного процессора D3000, компания Phytium внесла определенные оптимизации и изменения в подсистему доступа к данным, однако далеко не все запланированные улучшения были реализованы. Как уже отмечалось ранее, поддержка более быстрой памяти DDR5 – это лишь часть изменений. Ниже мы рассмотрим уровни кэшей процессора D3000 и их примерные задержки, которые, к удивлению, практически не изменились:

  1. Каждое ядро процессора оснащено собственным кэшем первого уровня, объемом 32 КБ для хранения инструкций и 32 КБ для данных. Время доступа к кэшу первого уровня составляет приблизительно 4 такта, что соответствует 2 нс.
  2. Второй уровень кэш-памяти распределяется между каждой парой ядер. Два ядра объединены в кластер, который имеет общий кэш L2 объемом 2 МБ с задержкой доступа до 20 тактов.
  3. L3-кэш представляет собой общий кэш третьего уровня, который доступен всем восьми ядрам процессора и имеет объем 8 МБ. Он обладает несколько повышенной задержкой доступа, составляющей примерно 36 тактов, но при этом характеризуется большим объемом памяти.
  4. L4-кэш – это новая особенность D3000. Дополнительный кэш последнего уровня объемом 8 МБ функционирует как системный кэш между ядрами процессора и оперативной памятью, что позволяет уменьшить задержки и повысить общую производительность. Доступ к оперативной памяти DDR4/DDR5 характеризуется меньшей задержкой по сравнению с D2000, приблизительно равной 70-80 тактам.

Модель Phytium D2000, предназначенная для встраиваемых систем, на момент выпуска уже не обладала достаточной конкурентоспособностью на рынке настольных и мобильных компьютеров. В однопоточных и многопоточных приложениях процессор уступал даже старому Intel Core i5-6600K, имеющему вдвое меньше ядер, а более современные решения от AMD и Intel демонстрировали значительно лучшие показатели во всех аспектах. Более того, согласно фотографиям и презентационным материалам Phytium, площадь кристалла D3000 достигает 132 мм², что превышает показатель в 122 мм² у Skylake. При этом ни D2000, ни D3000 не являются полностью новыми китайскими разработками, а базируются на ядре Cortex A72, включая и некоторые специфические особенности, упомянутые ранее.

Увеличение производительности D3000 стало возможным благодаря ряду архитектурных доработок и расширению ключевых внутренних компонентов, таких как очереди загрузки, которые в D2000 имели недостаточный размер. Кроме того, были оптимизированы предсказатели ветвлений и кэш-память на различных уровнях, а также внедрен уникальный L4-кэш, выполняющий функции системного. Несмотря на отсутствие подробной информации об архитектурных изменениях, значительный прирост производительности D3000 по сравнению с D2000 свидетельствует о масштабной работе, выполненной китайской компанией, однако конкретные сведения о ней не предоставлены.

В портфолио Phytium Technology представлены и другие современные процессоры. В частности, мобильный процессор D3000M стал первым CPU компании, созданным специально для ноутбуков. Эта система-на-чипе включает восемь процессорных ядер FTC862 собственной разработки, демонстрирующих высокую производительность и способных работать на тактовой частоте до 2,9 ГГц. Также в состав входят контроллер памяти LPDDR5x, интерфейс PCIe 4.0, встроенный графический процессор и нейронный процессор NPU, что делает его универсальным решением для ноутбуков. По предварительным сведениям, процессор обладает достаточной производительностью для китайских ноутбуков, поддерживает время автономной работы до 8–10 часов, и стал одним из первых китайских процессоров, полностью совместимых с KylinOS V11.

На момент анонса Feiteng Tengrui D3000 был признан наиболее мощным настольным процессором, разработанным в Китае на базе архитектуры ARM, и сегодня мы убедимся в этом. Первоначальные результаты тестирования предполагаемого «D3000» китайскими энтузиастами в пакетах SPEC2006 и SPEC2017 демонстрировали, что его одноядерная производительность в 2-2,5 раза превосходит одноядерную производительность предыдущей модели D2000, а общая производительность также приблизительно на этот же показатель выше. В частности, однопоточная производительность в целочисленных тестах увеличилась в полтора раза, а производительность при работе с числами с плавающей запятой – примерно втрое. По результатам испытаний, проведенных китайскими специалистами, D3000 должен был превосходить большинство китайских процессоров аналогичного уровня и эффективно справляться с распространенными задачами, такими как работа с офисными приложениями или обработка графических изображений.

Изначально проводились испытания опытных образцов с ядрами FTC870 и тактовой частотой 3 ГГц. Однако в процессоре D3000, предназначенном для китайского рынка, были использованы ядра FTC863 (которые, судя по всему, имеют меньшую производительность), работающие на частоте всего 2,5 ГГц. Это позволяет с уверенностью говорить о существенном снижении характеристик, особенно если сравнивать с китайской версией. Более того, дальнейшие тесты продемонстрируют, что производительность Phytium не соответствует ожиданиям.

Процессоры Feiteng поддерживают большинство китайских операционных систем, базирующихся на Linux, включая Kylin и UOS. Помимо этого, они совместимы с международными дистрибутивами Linux, например, Debian и Red Hat. Также компания создала программную платформу PhyFusion, предназначенную для запуска приложений, разработанных для x86-архитектуры. Эта платформа позволяет работать в различных рабочих средах, обеспечивая плавный переход между рабочими столами, объединение файловых систем, использование окон приложений и графических процессоров. Она функционирует на процессорах Phytium FT-2000/4, D2000 и D3000 под управлением операционных систем Kylin и UOS.

В последние годы компания Phytium утвердилась как значимый участник в сфере разработки искусственного интеллекта, обеспечивая тесную интеграцию российских чипов и технологий ИИ. Недавно было объявлено об успешной поддержке всего спектра больших языковых моделей (LLM) DeepSeek процессорами Tengyun S5000C и Tengrui D3000. Это применимо как к центрам обработки данных, так и к пользовательским устройствам, при этом производительность локального развертывания не уступает аналогичным западным решениям. Однако, стоит отметить некоторые нюансы, поскольку процессоры с восемью ARM-ядрами вряд ли самостоятельно смогут справиться с подобными сложными задачами.

Уже в июле 2023 года Phytium совместно с участниками экосистемы представила полностью адаптированное к российским условиям решение для вычислительного центра, а в 2024 году модель DeepSeek-V2.5 объемом 236 миллиардов параметров была запущена на платформе Phytium Tengyun S5000C. За счет интеграции восьми дополнительных ИИ-ускорителей система на базе Tengyun S5000C, по утверждению разработчиков, демонстрирует производительность, сопоставимую с 80% от показателей аналогичных западных продуктов. Весной 2024 года DeepSeek анонсировала модели DeepSeek-V3 и R1, которые вызвали заметный интерес благодаря сочетанию высокой эффективности и экономичности, предоставив более действенные и адаптивные решения для локальной инфраструктуры. В Phytium провели локальное развертывание на платформах Tengyun S5000C и Tengrui D3000, чтобы протестировать комплексное решение для создания интеллектуальных вычислительных сред DeepSeek LLM на отечественном оборудовании.

В дата-центрах серверы на базе Tengyun S5000C способны взаимодействовать с несколькими ИИ-ускорителями для запуска различных версий моделей DeepSeek, в том числе и полноразмерных. Специалисты лаборатории ИИ компании Phytium провели тесты оптимизированной версии DeepSeek-R1-Distill-Llama-70B на односерверной платформе с восемью ИИ-ускорителями, получив скорость генерации текста 22 токена в секунду, что является показателем, сравнимым с производительностью западных аналогов. Полноценная версия модели DeepSeek R1 671B может быть запущена на кластере из четырех серверов, оснащенных 32 ИИ-ускорителями, а пользовательские устройства на базе процессора Tengrui D3000 и одного ИИ-ускорителя позволяют локально развернуть оптимизированную версию модели DeepSeek-R1 7B для создания локальных решений.

Аппаратное обеспечение

В целях оценки производительности мы применили готовую компактную систему Kaitian M90f G1s, основанную на процессоре Phytium D3000. Это китайский ПК от Lenovo, включающий полный набор аппаратного обеспечения на базе системной платы Kaitian модели KFD3000ZX200DMMB1 и процессора Phytium, который припаян к ней, а также предустановленную операционную систему UOS.

Lenovo Kaitian Technology Co. и Phytium Technology представили компактный ПК Lenovo Kaitian M90f G1s, построенный на базе процессора Feiteng Tengrui D3000. В Lenovo отметили применение DDR5-памяти и наличие встроенного ИИ-помощника, который, по их утверждению, оптимизирован для работы с процессорами Phytium. Однако, учитывая предыдущие заявления, стоит отметить, что для эффективной локальной обработки нейронных сетей необходим дополнительный ИИ-ускоритель, поскольку без него процессор вряд ли сможет справиться с этой задачей.

Система от Lenovo разработана для организаций, использующих настольные компьютеры невысокой производительности в формате microATX с возможностью установки карт расширения пониженной высоты. Материнская плата, используемая в данной системе, оснащена двумя слотами DIMM для DDR5-памяти, одним разъемом PCIe x16, одним PCIe x1 и двумя PCIe x1, а также тремя портами SATA и парой разъемов M.2, что обеспечивает хорошие возможности для расширения. Тестируемая система имеет стандартную конфигурацию, включающую 16 ГБ памяти и твердотельный накопитель объемом 512 ГБ, однако, вероятно, Lenovo предлагает и другие варианты, как и производители подобных систем, с возможностью выбора объема памяти и накопителя. Замена или дополнение этих компонентов здесь легко осуществить, поскольку они абсолютно стандартные, в отличие от системы Huawei на базе Kirin 9000C с интегрированной памятью, которую невозможно расширить.

В нашей системе установлен единственный модуль памяти Hynix HMCG78AGBUA081N объемом 16 ГБ, который функционирует в одноканальном режиме DDR5-4000. По всей видимости, скорость передачи данных из памяти по умолчанию зафиксирована в UEFI на этом уровне, поскольку сам модуль способен достигать и 5600 МТ/с, однако изменить это значение не представляется возможным – в BIOS отсутствуют соответствующие настройки. Также в систему интегрирован твердотельный NVMe-накопитель YMTC YMSS2CB06D25MC емкостью 512 ГБ, и при необходимости можно установить еще один NVMe-накопитель в дополнительный разъем M.2. Системная плата предусматривает наличие трех дополнительных портов SATA 3.0, которые в настоящее время не заняты.

Поскольку процессор Phytium D3000 не оснащен встроенным графическим ядром, в ПК Lenovo, использующем его, установлена дискретная видеокарта, разработанная компанией Zhaoxin – Glenfly Arise1020. Эта видеокарта идентична той, что применялась в системе для тестирования процессора Zhaoxin KX-7000. В предыдущем случае она не была критически важна из-за наличия достаточно производительного встроенного графического ядра, но в данном случае видеокарта необходима. Однако, не стоит ожидать от нее выдающихся результатов – это довольно простая и немощная видеокарта с 2 ГБ медленной видеопамяти, достаточная для отображения 2D-графики и декодирования видео в популярных форматах. Для 3D-рендеринга рассчитывать на нее не стоит, разве что для самых простых задач.

Компьютер предоставляет достаточное количество портов: на передней панели расположены один разъем USB-C, четыре порта USB-A, комбинированный аудиоразъем 3,5 мм для наушников и микрофона, а на задней – порты VGA и HDMI, принадлежащие видеокарте, четыре порта USB-A, разъем RJ45 и аудиоинтерфейс, включающий микрофонный вход, стереовыход и аудиовход. Беспроводные технологии Wi-Fi и Bluetooth не поддерживаются изначально, но их подключение возможно с помощью дополнительного модуля, устанавливаемого в слот M.2 – вероятно, в некоторых комплектациях данного ПК он уже установлен на материнскую плату.


Устройство PCI bridge Phytium Technology Co., Ltd. dc01 (prog-if 00 [Обычное декодирование])


PCI-мост Phytium Technology Co., Ltd. Устройство dc01 (версия 01) (программный интерфейс 00 [нормальное декодирование])


PCI-мост Phytium Technology Co., Ltd. Устройство dc01 (версия 02) (программный интерфейс 00 [Обычное декодирование])


PCI-мост Phytium Technology Co., Ltd. Устройство dc01 (версия 04) (программный интерфейс 00 [Обычное декодирование])


PCI-мост Phytium Technology Co., Ltd. Устройство dc01 (версия 05) (программный интерфейс 00 [Обычное декодирование])


PCI-интерфейс Phytium Technology Co., Ltd. Устройство dc01 (версия 06) (программный интерфейс 00 [Обычное декодирование])


PCI-мост Phytium Technology Co., Ltd. Устройство dc01 (версия 07) (программный интерфейс 00 [Обычное декодирование])


Контроллер энергонезависимой памяти Yangtze Memory Technologies Co.,Ltd, устройство 1071 (ревизия 01), программирование по интерфейсу 02 [NVM Express])


VGA-совместимый контроллер Glenfly Tech Co., Ltd. Arise1020 (программный интерфейс 00 [контроллер VGA])


Звуковое устройство: Arise1020 High Definition Audio Controller от Glenfly Tech Co., Ltd


PCI-интерфейс Zhaoxin ZX-200, подключенный к коммутатору PCI Express (программный интерфейс 00 [обычное декодирование])


PCI-мост Zhaoxin ZX-100/ZX-200, корневой порт PCI Express (ревизия 01) (программный интерфейс 00 [обычное декодирование])


PCI-мост Zhaoxin ZX-100/ZX-200, корневой порт PCI Express (ревизия 01) (программный интерфейс 00 [обычное декодирование])


Контроллер PCI Zhaoxin ZX-100/ZX-200, корневой порт PCI Express (ревизия 01) (программный интерфейс 00 [обычное декодирование])


PCI-мостик Zhaoxin ZX-100/ZX-200, корневой порт PCI Express (ревизия 01) (программный интерфейс 00 [обычное декодирование])


Контроллер PCI Zhaoxin ZX-100/ZX-200, корневой порт PCI Express (ревизия 01) (программный интерфейс 00 [обычное декодирование])


PCI-мостик Zhaoxin ZX-200, порт нисходящей шины коммутатора PCI Express (prog-if 00 [Нормальное декодирование])


Сетевой контроллер производства Realtek Semiconductor Co., Ltd. – RTL8111/8168/8411 PCI Express Gigabit Ethernet Controller (ревизия 15)


Мост PCI Zhaoxin ZX-200 PCIE P2C (ревизия 03) (программируемый интерфейс 00 [обычное декодирование])


Контроллер SATA Zhaoxin ZX-100/ZX-200/KX-6000/KX-6000G StorX AHCI (программный интерфейс 01 [AHCI 1.0])


USB-контроллер Zhaoxin ZX-100/ZX-200/KX-6000/KX-6000G, стандартный универсальный PCI-адаптер для подключения USB-устройств (версия a0) (программный интерфейс 00 [UHCI])


USB-контроллер Zhaoxin ZX-100/ZX-200/KX-6000/KX-6000G Standard Universal PCI to USB Host Controller (ревизия a0) (программный интерфейс 00 [UHCI])


Универсальный контроллер USB Zhaoxin ZX-100/ZX-200/KX-6000/KX-6000G Standard PCI для подключения USB (ревизия a0) (программный интерфейс 00 [UHCI])


USB-контроллер Zhaoxin ZX-100/ZX-200/KX-6000/KX-6000G: стандартный расширенный преобразователь PCI в USB-хост-контроллер (версия 90) (программный интерфейс 20 [EHCI])


USB-контроллер Zhaoxin ZX-200 USB eXtensible Host Controller (программный интерфейс 30 [XHCI])

Не пропустите:  Oscal Tank 1: подробный обзор «внедорожника» среди смартфонов

Согласно данным о компонентах системы, контроллеры SATA и USB управляются компанией Zhaoxin. Поскольку рассматриваемый процессор не обладает полной поддержкой современных портов, вероятно, на материнской плате установлен чипсет Zhaoxin ZX-200, который содержит необходимые контроллеры и обеспечивает работу дополнительных линий PCIe 2.0, расширяя возможности Phytium D3000. Это пример китайского сотрудничества.

Корпус позволяет установить четыре малогабаритные платы расширения, а системная плата оснащена полноразмерным слотом PCIe x16, а также одним слотом x4 и двумя слотами x1 для подключения плат расширения. В конфигурацию ПК входит блок питания с достаточной, но не очень высокой мощностью, а компактный корпус достаточно удобен и вместителен для такой, по современным стандартам, несложной системы. В комплекте поставки предусмотрены базовые проводные клавиатура и мышь от Lenovo. Обеспечивается полная совместимость с операционными системами Kylin OS и Tongxin UOS Desktop — возможна их установка на этапе производства.

Для поддержания оптимальной температуры китайского процессора в настольной версии применяется довольно простая система охлаждения, включающая в себя алюминиевый радиатор среднего размера и вентилятор, выводящий нагретый воздух за пределы корпуса. Это отличие от большинства проанализированных китайских систем, которые используют радиаторы меньшего размера с обычными вентиляторами. Описанной конструкции достаточно для эффективного охлаждения Phytium D3000, который, согласно данным встроенного датчика и системы мониторинга, не демонстрировал перегрева, не превышая 65 °C в процессе тестирования. Тем не менее, Lenovo выбрала не самую стандартную систему воздушного охлаждения для своей разработки, если сравнивать с ПК от Huawei на базе Kirin 9000C, не говоря уже о Zhaoxin KX-7000, для которого потребовался более производительный кулер с медными тепловыми трубками и мощным вентилятором.

Данная система охлаждения процессора характеризуется относительно низким уровнем шума, и даже при интенсивной работе центрального процессора ее практически не слышно, вентилятор лишь еле заметно шумит. Охлаждающей способности достаточно для работы с процессором Phytium D3000, который не отличается повышенной теплоотдачей. В ходе наших тестов вся система потребляла до 70 Вт, что заметно меньше, чем 120 Вт у ПК с процессором Zhaoxin или 86 Вт у Intel Core i3-12100. Хотя максимальное энергопотребление только процессора, согласно данным из BIOS, теоретически может составлять 70 Вт:

Системная плата KaiTian, имеющая громоздкое наименование (см. скриншот настроек BIOS выше), предлагает крайне ограниченные возможности настройки в BIOS Setup, включая отсутствие возможности разгона и изменения ключевых параметров, влияющих на производительность. Поэтому, заходить в настройки BIOS не представляется целесообразным. В меню можно лишь ознакомиться с конфигурацией системы, установленного процессора и версии BIOS, других полезных функций там не предусмотрено. Настройка частоты работы и таймингов DDR5-памяти была бы весьма кстати, однако подобный функционал в меню отсутствует, как и многие другие параметры, привычные для платформ AMD и Intel.

Мы дополнительно изучили работу памяти в двухканальном режиме. В системе Lenovo используется один модуль DDR5-5600 объемом 16 ГБ, что заставляет процессор Phytium D3000 функционировать в одноканальном режиме. Однако, поскольку CPU поддерживает двухканальную работу с памятью, мы решили оценить производительность в таком режиме, добавив в компьютер пару имеющихся у нас модулей DDR5-4800. В обоих случаях тактовая частота памяти была ограничена до DDR5-4000, что, судя по выводу системной информации встроенной утилиты, указывает на потенциальную возможность достижения еще более высокой производительности ПК.

Программное обеспечение и впечатления от работы

В теории Phytium D3000 потенциально может функционировать под управлением специальной ARM-версии Windows 11, хотя мы пока не проводили подобных испытаний. Официально поддерживаются две специализированные версии Linux: Kylin и Unity OS (UOS), и система Huawei, которая у нас есть, имеет предустановленной второй. Это операционная система китайской разработки, созданная компанией Tongxin Software на базе дистрибутива Deepin, о которой мы неоднократно писали в своих публикациях, посвященных китайским процессорам. Поскольку эта система нам хорошо знакома, мы кратко расскажем о ней, поделимся впечатлениями и рассмотрим ее возможности.

UOS — это операционная система, созданная компанией UnionTech по заказу правительства КНР. Она базируется на дистрибутиве Deepin, который, в свою очередь, основан на Debian. Цель разработки UOS – замена зарубежных операционных систем. Предусмотрены настольные и серверные версии, первые из которых были представлены еще в 2019 году. Эта операционная система ориентирована на китайский рынок и предназначена для замены Microsoft Windows. UOS поддерживает аппаратные платформы Zhaoxin, Loongson, Sunway, а также процессоры на базе архитектуры ARM. Также доступна версия для процессоров, совместимых с x86-64.

Для тех, кто уже знаком с современными операционными системами, UOS не вызывает особых впечатлений. Она обладает актуальным интерфейсом, напоминающим Windows 11, и предлагает достойный комплект предустановленных программ. В числе прочего, присутствует встроенный интеллектуальный помощник, основанный на искусственном интеллекте и использующий облачные сервисы. Его проверка и тестирование не включена в наши задачи, поскольку вычисления выполняются не на локальном устройстве, и подобная функциональность доступна практически всем современным устройствам, включая мобильные телефоны.

Для пользователей UOS одним из недостатков является необходимость регистрации по номеру телефона, электронной почте или через мессенджер WeChat для получения прав администратора (root). В нашем случае сработал только последний способ. Кроме того, неполный перевод с китайского языка некоторых программ, включая магазин приложений, может вызывать дискомфорт, однако это вполне терпимо — лишь изредка приходилось использовать онлайн-переводчик с камеры мобильного телефона. А системный монитор выглядит весьма привлекательно, не уступая более привычным аналогам:

Операционная система содержит всё необходимое для стандартной работы, в том числе интернет-браузер, медиаплеер и магазин приложений. Она обладает современным дизайном и предоставляет основные функции, востребованные большинством пользователей дома и в офисе. Магазин приложений отличается удобством и предлагает широкий выбор программного обеспечения для различных задач, с разделением по категориям, рейтингу и другим параметрам. Поддерживается автоматическое обновление, доступны отзывы пользователей – всё соответствует современным стандартам. Иногда встречаются китайские символы, но это не оказывает существенного влияния.

Кроме того, ARM-версия магазина приложений имеет ряд преимуществ по сравнению с ранее изученной версией для LoongArch64, и в ней доступно значительно больше программ. Однако, в случае системы на базе Zhaoxin KX-7000, x86-версия магазина всё же проигрывает. При этом, чем шире распространена архитектура процессора, тем больше программного обеспечения доступно для неё, включая различные модификации. Например, в отличие от UOS на базе Loongson, для x86 и ARM сразу же предлагаются полноценные офисные пакеты, такие как LibreOffice, достаточно новой версии.

Это комплексный офисный пакет, предоставляющий все инструменты, необходимые для выполнения задач: текстовые редакторы и таблицы, программа для создания презентаций и прочие. Работа с ним на системе, использующей процессор Phytium, оказалась вполне удобной, и мы не обнаружили никаких проблем, даже если сравнивать с более производительными современными западными системами, которые, безусловно, демонстрируют большую отзывчивость и плавность. Однако для стандартных задач в офисном пакете это не является критичным фактором. Стоит отметить, что, в отличие от Kirin 9000C, в систему изначально установлено 16 ГБ оперативной памяти, реализованных одной планкой в одноканальном режиме, что ощутимо улучшает удобство работы по сравнению с 8 ГБ, которые иногда оказываются недостаточными в современных многозадачных системах, использующих процессор Huawei.

Похоже, мы уже второй раз делаем одно и то же замечание относительно тестовой системы производства Lenovo: по какой-то причине в UOS не устанавливают корректный видеодрайвер для штатно установленной внешней видеокарты Arise1020! Они используют стандартный драйвер, не поддерживающий аппаратное ускорение для некоторых задач, поэтому работа ПК не отличается плавностью, особенно при разрешении 4K, а при просмотре видео аппаратное декодирование не функционирует. На китайских форумах мы обнаружили обновленный видеодрайвер для этой видеокарты, и после его установки ситуация улучшилась. Однако не все видеоформаты воспроизводятся корректно, и не всегда это происходит в 4K-разрешении, хотя система, вероятно, и не была серьезно рассчитана на такое разрешение.

До установки подходящего видеодрайвера в Linux, в ходе GLmark2 при разрешении Full HD внешняя видеокарта набрала лишь 80 очков, тогда как с драйвером уже 1200 баллов — разница налицо. Впрочем, старенькая Radeon RX 480 в этой системе набирает более 4500 очков в этом же тесте, так что даже старый графический процессор AMD намного быстрее этой китайской видеокарты. Но не во всех применениях, в 2D-операциях и эта видеокарта от Zhaoxin оказалась вполне полезной, заметно ускорив обработку графики:

Показать исходные данные

Анализ теста графики GPU Drawing, проводимого утилитой HardInfo, показывает, что на системе с Phytium D3000, не оснащенной встроенным графическим ядром, результаты составили 11106 баллов для внешней видеокарты при использовании одноканальной DDR5-памяти и 12225 баллов в двухканальном режиме. Это сопоставимо с показателями Radeon RX 480. Учитывая, что подобные результаты обычно демонстрируют интегрированные в процессор GPU, можно говорить о достаточно высоком уровне производительности, несмотря на минимальные 3D-возможности данного решения.

Просмотр видеороликов в высоком разрешении — одна из наиболее актуальных задач для современных компьютеров. В системе, построенной на базе Phytium D3000, это оказалось вполне работоспособным, благодаря наличию внешней видеокарты со специализированными блоками для аппаратного ускорения декодирования видео. Этот графический процессор официально поддерживает аппаратное декодирование видео в популярных форматах, но для этого требуется программная поддержка, которой изначально не хватает, поскольку Lenovo по какой-то причине не установила необходимые драйверы.

Без них декодирование видео функционирует неоптимально, поскольку даже относительно мощному процессору сложно справиться с программной обработкой видео — мы наблюдали как пропуски кадров, так и загрузка процессора до 90% и выше. Однако, с дополнительно установленным драйвером, встроенный в операционную систему медиаплеер успешно декодировал большую часть 4K-видеофайлов в различных форматах, включая H.265, при этом загрузка процессора оставалась невысокой, даже для роликов с высоким битрейтом и современными кодеками — около 20%. И самое важное, что исчезли пропуски кадров, и просмотр видео стал комфортным.

В основном, эта китайская система тоже справляется со своими задачами, однако, для достижения комфортного использования потребуется установка драйвера и подбор необходимого программного обеспечения, такого как медиаплеер и офисный пакет. Это позволит удовлетворить потребности пользователей, работающих с простыми приложениями, небольшими файлами и не выполняющих ресурсоемкие фоновые процессы. Рекомендуется использовать разрешение Full HD или 2K, так как в 4K наблюдались заметные задержки, связанные с недостаточно мощной встроенной графикой. В итоге, результаты соответствуют тем заключениям, которые мы делали в обзоре других китайских процессоров: их производительности достаточно для работы в разрешении Full HD, но для 4K она недостаточна.

Тестирование производительности

Тестовые системы и условия

В ходе испытаний применялся готовый китайский персональный компьютер, построенный на базе процессора Phytium D3000, включающего указанное аппаратное обеспечение, а также других китайских центральных процессоров. Для сравнения были использованы западные процессоры AMD и Intel, которые применяли совместимый набор комплектующих. Соперниками для нового китайского CPU, который вряд ли продемонстрирует значительно превосходящую производительность, остались те же, что и в предыдущих публикациях о китайских разработках, начиная с Loongson.

Учитывая, что процессоры Intel Core i3-10100 отсутствуют в нашем ассортименте, мы сформировали минимальную конфигурацию из доступных систем на базе Intel и AMD. В неё вошли Core i3-12100 с памятью DDR5 и «Ryzen 5 1500X». Последний указан в кавычках, поскольку мы создали его имитацию с помощью процессора Ryzen 7 1700, настроив в BIOS Setup режим из четырех ядер. В четырехъядерном Ryzen 5 1500X заблокирована часть ядер, причем не в одном блоке CCX, а по две ядра в каждом, что позволило сохранить общий объем кэша L3 в 16 МБ, но привело к снижению скорости обмена данными между ними посредством Infinity Fabric. Для более точной имитации четырехъядерного Ryzen первой серии мы также установили соответствующий предел энергопотребления, и в результате у нас получилась практически идентичная версия Ryzen 5 1500X.

При тестировании процессоров AMD Ryzen и Intel Core применялись стандартные системные платы с соответствующей памятью DDR4 и DDR5, с использованием настроек XMP-профилей. Ограничения по энергопотреблению процессоров устанавливались в соответствии с их техническими характеристиками, а не в соответствии с настройками, предлагаемыми производителями системных плат.

Для обеспечения сопоставимости результатов работы процессоров, мы проводили тестирование Ryzen 5 и Core i3 под управлением UOS, совместимой с архитектурой x86. Следует учитывать, что использование других версий Linux или Windows для x86-64 процессоров могло бы выявить более высокие показатели для x86-процессоров. Однако, выбор основного программного обеспечения для тестирования остался прежним – это позволило сравнивать китайские процессоры с различными архитектурами с западными CPU. Иного решения не представляется, поскольку необходимо, чтобы все тесты и методики были применимы к процессорам всех имеющихся архитектур. Поэтому для тестирования мы вновь использовали пакет Phoronix Test Suite, выбрав максимально возможное количество тестов, которые функционируют на всех трех архитектурах: LoongArch64, AArch64 и x86_64.

Проведение тестов оказалось сложной задачей: некоторые тестовые наборы не функционируют на различных архитектурах, другие полагаются на библиотеки и оптимизации, предназначенные исключительно для архитектуры x86-64, и попросту не компилируются на других платформах. Даже при отсутствии явной привязки к архитектуре в коде, могут возникать трудности со сборкой, нехватка необходимых библиотек, а даже в случае их устранения, выбранное программное обеспечение может работать некорректно, не предоставлять результатов или завершать тестирование с ошибкой. В качестве отправной точки мы вновь использовали тесты из пакета Phoronix Test Suite, которые уже применялись в предыдущих публикациях.

Синтетические тесты

Производительность памяти и системы кэширования

Обычно в первую очередь оценивается производительность контроллера памяти и системы кэширования, разработанных специалистами Phytium. К сожалению, выровнять параметры памяти для протестированных процессоров оказалось невозможным, поэтому процессоры работали в различных условиях. Следует учитывать, что процессоры Phytium, Huawei и Intel поддерживают память DDR5, а AMD, Loongson и Zhaoxin — DDR4. Сегодняшний китайский процессор мы тестировали как в одноканальном (отмечено на диаграммах как Single), так и в двухканальном (Dual) режимах DDR5-4000.

Показать исходные данные

Начать стоит с проверки производительности подсистемы кэширования и оперативной памяти с помощью CacheBench — компонента пакета LLCbench. Этот инструмент позволяет оценить скорость чтения, записи и смешанных операций чтения и записи данных. Результаты предыдущих тестов показали, что на итоговый результат в большей степени влияет производительность кэшей, а не оперативной памяти. Эта тенденция сохраняется и сегодня, поскольку мы не выявили существенной разницы между одноканальным и двухканальным режимами работы DDR5.

Процессоры Intel регулярно демонстрируют превосходство во всех сценариях, и это не зависит от использования DDR5-памяти, ключевую роль играют высокоскоростные кэш-памяти. Core i3-12100 значительно превосходит Phytium D3000 в операциях с кэшем: для операций смешанного типа разница составляет 3,4 раза, для записи – 4,4 раза, а для чтения – 1,7 раза. Ryzen 5 1500X не обладает такой же производительности, он обогнал рассматриваемый китайский процессор лишь в двух из трех тестов, а в подтесте по чтению данных их результаты были сопоставимы, причем D3000 показал незначительное преимущество.

Причиной является относительно небольшая тактовая частота D3000. По результатам предыдущих тестов установлено, что процессоры AMD и Intel, работающие на частоте 2,5 ГГц, демонстрируют заметно более низкую производительность. Однако, проблема не ограничивается только частотой, поскольку при сравнении процессоров Phytium и Huawei выяснилось, что они сопоставимы только в режиме чтения, а во всех остальных случаях Kirin 9000C оказывается почти вдвое быстрее. С Loongson ситуация аналогичная, хотя и в этом случае он уступает текущему герою почти на полтора раза при чтении. Очевидно, что эффективность системы кэширования – не самое сильное качество процессора Phytium.

Показать исходные данные

Второй тест, Memory BandWidth (MBW), предназначен для оценки пропускной способности оперативной памяти при операциях копирования данных. Он включает несколько вариантов, различающихся объемом данных и способом копирования. Для анализа были выбраны объемы 128 МБ и 4 ГБ. В данном случае пропускная способность памяти должна оказывать большее влияние, чем производительность кэша. Однако разница между одно- и двухканальными режимами работы памяти для Phytium D3000 не оказалась существенной, поскольку MBW не является чисто синтетическим тестом, а имитирует операции, используемые в распространенном программном обеспечении. В то время как многие другие тесты демонстрируют максимальные показатели пропускной способности памяти.

Установка второго модуля DDR5 во второй канал Phytium D3000 обеспечила прирост производительности примерно на треть, что нельзя назвать незначительным результатом. Нулевые показатели в последней колонке системы на базе Kirin 9000C стали следствием нехватки оперативной памяти – для проведения теста 8 ГБ оказалось недостаточно. Работа с памятью D3000 выполнена удовлетворительно, хотя и не идеально. Он демонстрирует заметное превосходство над Zhaoxin KX-7000, использующим DDR4-память, и незначительно опережает Loongson 3A6000 в двухканальном режиме с DDR4-1866, однако до Kirin 9000C ему пока не дотягивает – D3000 уступает решению Huawei до 45%, несмотря на то, что оба чипа используют DDR5-память.

В настоящее время Core i3-12100 уже не демонстрирует максимальную скорость, поскольку оценивается эффективная пропускная способность памяти, а Kirin 9000C использует оперативную память DDR5 с более высокой рабочей частотой. В режиме Fixed Phytium D3000 демонстрирует результаты, близкие к процессору Intel, однако в двух других сценариях он всё же уступает – вероятно, из-за более низкой частоты DDR5-памяти. С Ryzen 5 1500X наблюдается схожая картина, принимая во внимание тот факт, что он использует оперативную память DDR4, хоть и обладающую достаточно высокой скоростью.

Показать исходные данные

RAMspeed – это еще один тест, оценивающий производительность оперативной памяти. Для его проведения мы использовали два режима с умеренной скоростью передачи данных, применяя два формата: целочисленный и с плавающей запятой. Этот тест предназначен для измерения пиковой пропускной способности оперативной памяти. Анализ разницы между режимами с одним и двумя каналами у Phytium D3000 показал около 70% разницы, что является хорошим результатом, учитывая теоретический максимум в 100%.

Благодаря использованию памяти DDR5, Phytium D3000 приблизился по производительности к Kirin 9000C, обладающему более высокой частотой памяти. Кроме того, современный китайский процессор не сильно отстает от решения Intel, разработанного много лет назад – Core i3-12100 оказался быстрее лишь на 11%. Это можно рассматривать как хороший показатель для Phytium, поскольку его контроллер памяти достаточно эффективен, особенно по сравнению с контроллерами Loongson и Zhaoxin. Хотя последние и используют более медленную память DDR4, они значительно уступают – в 2,6 и 2,3 раза, соответственно.

Показать исходные данные

Последний тест в этом разделе называется Stream. Это еще один востребованный инструмент для проверки оперативной памяти, предлагающий четыре способа оценки пропускной способности. Отличительная особенность бенчмарка Stream заключается в том, что он предназначен для измерения максимальных значений, а не показателей производительности, приближенных к реальным приложениям, как это было в предыдущем тесте, например. Это сразу заметно по результатам Phytium D3000 в одно- и двухканальном режимах: разница в скорости между ними составила почти идеальное соотношение два к одному, как и предсказывает теория.

Среди китайских процессоров именно Phytium D3000 продемонстрировал наилучшие результаты. Даже если не учитывать Loongson и Zhaoxin, демонстрирующие неудовлетворительные показатели ПСП, уступая до 2 и 3 раз соответственно, наш сегодняшний герой превзошел процессор Kirin 9000C на 30–40%, что является значительным преимуществом. Таким образом, работа с памятью среди китайских решений у D3000 реализована достаточно хорошо — по крайней мере, если говорить о максимальных значениях ПСП, а не об эффективности контроллера в реальных задачах.

Смог ли этот процессор потягаться с Core i3-12100? Ответа нет, D3000 проиграл ему на 42%—53%. Однако Ryzen 5 1500X оказался еще позади, и только в режиме копирования процессор AMD продемонстрировал сопоставимый результат, в остальном уступая Phytium D3000 на 43%—68% в различных тестах. Даже несмотря на то, что у него была память DDR4-3200, проигрывающая примерно в четверть по теоретическим возможностям, сегодня рассматриваемый китайский процессор оказался весьма конкурентоспособен, даже на уровне западных аналогов, с точки зрения пиковой скорости работы с памятью.

Синтетические и общие тесты

Для оценки производительности на низком уровне при решении специализированных задач можно использовать синтетические тесты, входящие в различные пакеты. При этом, некоторые из них стремятся охватить и более широкий спектр задач. Данные тесты позволяют оценить относительную производительность процессоров в различных приложениях и условиях.

Показать исходные данные

Core-Latency – это тест, предназначенный для оценки задержек, возникающих между всеми возможными сочетаниями ядер процессора. Он позволяет определить минимальные, средние и максимальные значения этих задержек. Наибольшая информативность результатов проявляется при использовании чиплетной архитектуры ядер или их объединении в блоки, а также в многопроцессорных системах, где межъядерные задержки существенно различаются. Поскольку ядра Phytium D3000 объединены в блоки, состоящие из четырех ядер, мы наблюдаем соответствующую вариацию межъядерных задержек. При этом, работа с различным количеством каналов памяти не оказывает влияния на эти показатели.

В то время как Zhaoxin KX-7000 обладает ядрами с одинаковой производительностью, у Phytium D3000 наблюдается ощутимая разница в задержках между ядрами. Подобную ситуацию можно было наблюдать и у Kirin 9000C: несмотря на монолитную структуру кристалла, неравномерная организация ядер привела к увеличению максимальной и средней задержек. Однако, если у процессора Huawei эта задержка весьма значительна, то Phytium по своим характеристикам скорее сопоставим с многокристальным Ryzen первого поколения. При этом, в отличие от всех остальных процессоров, за исключением того же Zhaoxin, минимальная задержка D3000 характеризуется крайне низким значением, что заметно ниже показателей Core, Loongson и Kirin. А вот по максимальной и средней задержкам он превосходит процессоры Intel и Loongson, а у Ryzen 5 1500X, организованного в два блока CCX, наблюдается несколько меньшая средняя, но большая максимальная задержка. Это в целом соответствует теоретическим расчетам.

Показать исходные данные

EEMBC CoreMark – это комплекс искусственных тестов, предназначенных для оценки производительности процессоров и микроконтроллеров. Он был разработан как альтернатива более раннему и популярному тесту Dhrystone. В его состав входят реализации алгоритмов, связанных с поиском и сортировкой данных, матричными вычислениями, вычислением контрольных сумм и другими задачами. Результаты представляются в виде числа повторений теста за секунду, что облегчает сопоставление эффективности различных систем. На результат оказывает незначительное влияние скорость работы памяти.

Процессор Phytium D3000 продемонстрировал хорошие результаты в данном тесте, его скорость сопоставима с показателями Zhaoxin KX-7000, и он превосходит всех остальных участников сравнения, за исключением Core i3-12100, который значительно опережает конкурентов. Kirin 9000C, основанный на ARM-архитектуре, уступил 7%, а Loongson 3A6000 – на целых 39%, причем даже Ryzen 5 1500X оказался медленнее на 15%. Таким образом, Phytium решает поставленную задачу более эффективно, чем большинство китайских процессоров, а Zhaoxin быстрее благодаря более высокой тактовой частоте и большему энергопотреблению.

Показать исходные данные

Swet — это еще один синтетический тест, предназначенный для оценки производительности центральных процессоров и оперативной памяти, включая многоядерные и многопроцессорные конфигурации. Результаты демонстрируются в виде числа операций, выполняемых за единицу времени. В предыдущем тесте мы не выявили заметного влияния скорости оперативной памяти на показатели, и в данном случае двухканальная DDR5-память обеспечила процессору Phytium прирост менее чем в 1%, что, вероятно, является результатом погрешности измерений.

Если проводить сравнение исключительно среди китайских процессоров, то Phytium D3000 демонстрирует вполне сопоставимые характеристики. Большинство центральных процессоров из этой страны показали схожие результаты, за исключением Kirin 9000C, который оказался на 12% быстрее, чем Phytium D3000. Однако все они значительно уступают западным аналогам. Даже Ryzen 5 1500X едва ли не вдвое превосходит рассматриваемый процессор на ARM-ядрах, а Core i3-12100 и вовсе демонстрирует скорость в 3,4 раза выше. Ранее высказывалось предположение, что данный тест может быть недостаточно оптимизирован для архитектур, отличных от x86, и вот очередное тому подтверждение.

Показать исходные данные

HardInfo – это встроенный инструмент, предназначенный для отображения данных о системе и аппаратном обеспечении, а также для мониторинга. Он включает в себя несколько небольших тестов производительности, которые охватывают разнообразные задачи, начиная от трассировки лучей и заканчивая криптографией. Результаты некоторых тестов представлены в виде времени выполнения, а другие указаны в условных единицах. Из-за большого количества тестов HardInfo может показаться не самым удобным инструментом.

Использование двухканальной DDR5-памяти принесло пользу некоторым подтестам, однако не всем, и прирост производительности оказался не таким значительным. Пока что нет особых причин для воодушевления, поскольку в данном тесте Phytium D3000 показывает результаты, сопоставимые с другими китайскими процессорами, и заметно превосходит их лишь в процессе сжатия данных с использованием Zlib. В целом, у всех «китайских» процессоров есть свои достоинства и недостатки: Kirin 9000C демонстрирует наилучший результат в задаче N-Queens, представляющей собой задачу по расстановке фигур на шахматной доске, а Loongson 3A6000 значительно превосходит конкурентов в задаче трассировки лучей.

Процессор Phytium продемонстрировал достойные показатели в тестах криптографии Blowfish и CryptoHash, а также при вычислении дискретного преобразования Фурье (FFT), однако в целом китайские процессоры показывают близкие результаты, что стоит повторить. Процессоры западных компаний AMD и Intel в большинстве случаев значительно превосходят Phytium D3000 по производительности, даже Ryzen 5 1500X уступил ему лишь в нескольких подтестах, а Core i3-12100 почти всегда был быстрее в два раза или приблизительно, за исключением одного подтеста сжатия данных Zlib, где Core i3-12100 опередил D3000 всего на 18%.

Показать исходные данные

Это Java-реализация тестового пакета SciMark 2.0 для научных вычислений. Он содержит набор тестов, основанных на различных алгоритмах, таких как метод Монте-Карло, быстрое преобразование Фурье, метод последовательной сверхрелаксации Якоби, операции с разреженными матрицами и LU-разложение. В ходе тестирования было замечено небольшое влияние повышенной производительности при двухканальном режиме, однако оно оказалось незначительным. Заметное увеличение скорости, в размере 9%, наблюдалось только в подтесте, использующем быстрое преобразование Фурье%.

В данном бенчмарке процессор Phytium D3000 показал невысокие результаты, даже при сравнении с Kirin 9000C, который также использует архитектуру ARM. Он смог одержать победу лишь в половине тестов, а другие китайские процессоры демонстрировали схожие показатели – как отмечалось ранее, каждый из них обладает своими сильными и слабыми сторонами, которые проявляются в различных подтестах. Phytium показал достойные результаты в методе последовательной сверхрелаксации Якоби (на уровне Zhaoxin KX-7000 с более высокой тактовой частотой) и в первом комбинированном тесте. В задачах LU-разложения матриц он значительно уступал Loongson, а при выполнении операций умножения над разреженными матрицами D3000 показал худшие результаты среди китайских CPU. В задачах быстрого преобразования Фурье он демонстрировал результаты, сопоставимые с другими процессорами аналогичного класса.

Западные центральные процессоры вновь демонстрируют преимущество над китайскими аналогами, особенно Core i3-12100, хотя Ryzen 5 1500X также показывает достойные результаты. Loongson 3A6000 в данном случае выступил успешно. Phytium D3000, в свою очередь, в большинстве тестов заметно уступает им, за исключением подтеста FFT, где процессор AMD оказался медленнее. Эффективность оптимизации программного обеспечения играет значительную роль, однако, принимая во внимание разницу в тактовых частотах, китайские настольные процессоры приближаются по показателю IPC к устаревшему поколению Zen 1, в то время как процессор Core 12-го поколения по-прежнему опережает их.

Бенчмарк Stress-NG

Это специализированный инструмент, предназначенный для проведения всестороннего нагрузочного тестирования аппаратной части с использованием широкого спектра тестов. В связи с большим количеством включенных тестов, мы решили представить результаты в удобном табличном формате, включив только те, которые успешно завершились на всех системах. Кроме того, мы добавили данные, полученные при тестировании западных процессоров на частоте 2,5 ГГц, аналогичной частоте Phytium D3000, чтобы обеспечить возможность оценки производительности на один такт.

При тестировании иногда наблюдается существенная разница в производительности процессоров Phytium D3000 при использовании одно- и двухканальной конфигурации памяти. Также можно сравнить прирост производительности благодаря второму каналу памяти с результатами, полученными для Loongson 3A6000, несмотря на то, что его двухканальная память работает на пониженной частоте. В некоторых случаях результаты оказываются необъяснимыми, и мы не будем проводить их детальный анализ — вы можете изучить их самостоятельно, а мы отметим лишь некоторые ключевые моменты.

Нас привлекло внимание к тому, что Phytium D3000 демонстрирует хорошие результаты в сжатии данных с использованием Zlib (ещё раз), а также в криптографическом тесте. Удивительно, но он показывает выдающуюся скорость в локальном тесте кэша процессора, превосходя по результатам китайские аналоги и приближаясь к показателям Ryzen. Однако наиболее важным является то, что Phytium D3000 демонстрирует высокую производительность в задачах, интенсивно использующих матричные вычисления, где для достижения оптимальной скорости требуется использование специализированных SIMD-инструкций. В этих тестах он показывает отличные результаты, иногда обгоняя Ryzen 5 1500X, а порой и Core i3-12100, даже при работе в номинальном режиме!

В большинстве случаев процессор Intel демонстрирует лучшие показатели при работе на стандартной частоте, и это заметно в данном наборе тестов. Примечательно, что у Loongson наблюдалось наибольшее количество провалов в задачах, где ARM-процессоры показали себя лучше. Вероятно, это связано с тем, что тест недостаточно оптимизирован для набора инструкций LoongArch, но при этом используется для x86 и ARM, что и привело к подобным результатам. Тем не менее, выдающийся результат Phytium D3000 в тестах с плавающей запятой позволяет ожидать хороших результатов и в последующих исследованиях.

Рендеринг

Современные процессоры сталкиваются с серьезными трудностями при прохождении тестов рендеринга, поскольку трассировка лучей предполагает многопоточную нагрузку. При этом процессоры стремятся к максимальной частоте, что влечет за собой повышенное энергопотребление и нагрев. Производители микропроцессоров часто используют тесты рендеринга для оценки производительности своих продуктов по сравнению с решениями других компаний. Такие нагрузки эффективнее всего выполняются на процессорах с большим количеством ядер и потоков.

Показать исходные данные

На одной диаграмме будут отображены результаты сразу четырех тестов, предназначенных для оценки скорости рендеринга:

  1. AOBench — это простой в использовании рендерер, применяющий ambient occlusion и разрешение 2048×2048 пикселей.
  2. C-Ray – это лаконичный многопоточный трассировщик лучей, предназначенный для проверки производительности вычислений с плавающей запятой.
  3. Persistence of Vision — это трассировщик лучей POV-Ray.
  4. Smallpt — это компактный рендерер, который рассчитывает глобальное освещение с применением метода трассировки пути Монте-Карло и поддерживает многопоточность благодаря библиотеке OpenMP.

Влияние пропускной способности памяти на производительность при рендеринге минимально, что подтверждается результатами тестов Phytium D3000 в одно- и двухканальном режимах работы. Показатели этого китайского процессора в тестах рендеринга превзошли результаты всех остальных CPU, произведенных в Китае – D3000 уступил лишь Kirin 9000C в одном тесте AOBench, победив во всех остальных. Отставание от процессоров Loongson достигало 84%, от Zhaoxin — 64%, от Huawei — 76%. Это свидетельствует о весьма высоких показателях, и D3000 мог бы стать самым быстрым китайским процессором в реальных приложениях.

В ходе тестирования ARM-процессор показал более высокую скорость по сравнению с Core i3-12100 в одном из тестов (C-Ray), хотя и ненамного уступал в других. Учитывая разницу в их рабочих частотах, это свидетельствует о весьма эффективном количестве инструкций за такт для Phytium, что подтверждается тем, что D3000 превосходил Ryzen 5 1500X, работающий на номинальной частоте, в трех тестах. Хотя Core i3-12100 и показал лучшие результаты, это можно объяснить его частотой, достигающей 3,3 ГГц. Таким образом, результаты, полученные для Phytium D3000, можно охарактеризовать не просто как хорошие, а как выдающиеся – это первый китайский CPU, который по показателю IPC превзошел процессоры западных компаний, хотя и являющиеся более старыми, но достаточно производительными.

Работа с медиаданными

В этом тестовом разделе сразу же предлагается несколько тестов, связанных с обработкой медиафайлов, включая фотографии и видео. В большинстве случаев это прикладные задачи, такие как кодирование аудио- и видеоданных в определенные форматы, а также специализированные тесты по синтезу речи. Поскольку с подобными задачами сталкиваются многие пользователи, результаты этого раздела имеют существенное практическое значение.

Показать исходные данные

В первую очередь мы провели тестирование сжатия аудиофайлов в форматах APE, FLAC и WavPack. Эти форматы предназначены для сжатия звука и обеспечивают сжатие данных без потерь в качестве. Зависимость от пропускной способности оперативной памяти также не была выявлена, то есть скорость передачи данных не оказывает влияния на результаты.

В рендеринге производительность Phytium D3000 уже не столь впечатляющая. Действительно, он значительно превосходит Loongson 3A6000 – на 40%-70%, а в APE – даже в 3,4 раза, однако Zhaoxin KX-7000 оказался быстрее в сравнении с ним (в WavPack разница составила 4,8 раза), и Kirin 9000C выиграл в двух из трех проверок, уступив лишь в WavPack. Вероятно, в данном программном обеспечении отсутствуют оптимизации для архитектуры LoongArch, поскольку она не получила широкого распространения, в то время как конкурирующие процессоры на базе x86 и ARM в большинстве случаев демонстрируют более высокую скорость работы по сравнению с решением Phytium.

При сопоставлении D3000 с процессорами Ryzen и Core, он способен конкурировать лишь с первым, и то только при использовании APE. В остальных случаях процессоры западных производителей значительно превосходят китайский аналог. Однако, кодирование аудио не является наиболее актуальной задачей в наши дни, поскольку этот процесс сейчас выполняется достаточно оперативно. Перейдем к другим тестам, касающимся обработки звука.

Показать исходные данные

На представленной диаграмме отображены результаты двух проверок, посвященных синтезу речи и обработке звуковых данных. Google SynthMark – это кроссплатформенный тест, предназначенный для оценки производительности процессора в условиях различных нагрузок при обработке аудио в реальном времени. Он использует модель полифонического синтезатора и позволяет измерить задержку, джиттер и вычислительную пропускную способность. Вторым тестом является eSpeak, в котором определяется время, затрачиваемое на синтез речи из книги «The Outline of Science» с использованием улучшенного движка eSpeak-NG и выводом аудио в формате WAV.

Не пропустите:  Honor X7d: подробный обзор

Отличия в производительности памяти при использовании различных каналов не наблюдаются. Анализ сравнительных тестов процессоров демонстрирует, что в первом тесте рассматриваемый процессор обходит Zhaoxin KX-7000 с преимуществом в 5%, в то время как Loongson 3A6000 и Kirin 9000C демонстрируют более высокую скорость, опережая на 4% и 23% соответственно. При обработке аудиоданных в реальном времени Kirin 9000C показал более высокую производительность по сравнению с другими китайскими процессорами. Однако Core i3-12100 оказался еще быстрее, а Ryzen 5 1500X не значительно опередил Phytium D3000, что все равно позволяет говорить о его достойном результате.

В тесте синтеза речи процессор Phytium показал результаты, несколько уступающие Zhaoxin, но при этом он проигрывает и Kirin, и Loongson. Ryzen 5 1500X продемонстрировал преимущество на 29%, а Core i3-12100 опередил текущего представителя китайского производства на 88%. Таким образом, в тестах, ориентированных на IPC, у Phytium результаты не самые выдающиеся, и до достижения производительности полноскоростного Core i3 ему еще далеко. Однако впереди находятся тесты видеокодирования, которые, вероятно, покажутся более интересными, поскольку они обычно используют SIMD-инструкции и при надлежащей оптимизации должны обеспечить более высокую производительность на Phytium.

Показать исходные данные

Dav1d – это программный декодер, обеспечивающий высокую скорость обработки видео в формате AV1. Мы провели тестирование времени декодирования видеороликов в этом формате, различающихся разрешением: Full HD и 4K. На полученных результатах заметно влияет пропускная способность памяти; использование двухканальной памяти DDR5 обеспечивает процессору Phytium D3000 преимущество в 4–7% по сравнению с одноканальной конфигурацией.

При расшифровке видео в формате AV1 наблюдается заметное преимущество процессоров Phytium по сравнению с другими китайскими аналогами. Даже Zhaoxin KX-7000, являющийся достаточно мощным решением, показал результаты на 19% и 28% хуже, Kirin 9000C уступил 64% и 56%, а производительность Loongson 3A6000 оказалась в 2,5 раза ниже. Причиной отставания последнего центрального процессора является недостаточная оптимизация и неиспользование доступных специализированных инструкций, что проявляется в работе с кодеком dAV1d. В то же время, Phytium, Kirin и Zhaoxin применяют такие инструкции и демонстрируют более высокую эффективность.

Процессор Phytium D3000 продемонстрировал скорость декодирования видеоданных в разрешении 1080p и 4K, превосходящую показатели западного процессора Ryzen 5 1500X на 34–39%. При этом, процессор Core i3-12100 при работе на номинальной частоте все еще опережает рассматриваемый сегодня китайский процессор на 29–37%. Однако, это все равно можно считать весьма достойным результатом для Phytium. Особенно учитывая, что в обычных условиях редко возникает необходимость в одновременном декодировании нескольких видеороликов в формате AV1 в разрешении 4K, и возможностей этого китайского процессора будет достаточно для большинства домашних пользователей.

Показать исходные данные

В качестве следующего теста проводится программное кодирование видеоинформации на центральном процессоре с использованием формата H.265 и популярного кодировщика x265. Также применяются два разрешения: Full HD и 4K. Для обеспечения высокой скорости обработки видеоданных при кодировании необходимо использовать SIMD-инструкции, такие как SSE, AVX, AVX2 и AVX-512, если процессор совместим с архитектурой x86. В данном случае не удается достичь очень высоких значений FPS, и каждый кадр в секунду приобретает особое значение. Хотя в современных системах кодирование и декодирование видеоинформации обычно выполняется графическим процессором, при отсутствии такой возможности этой задачей занимается центральный процессор.

Скорость памяти оказывает влияние, но всего на 3%, и это заметно только при меньшем разрешении. В данном тесте не предусмотрены оптимизации для архитектуры LoongArch, в частности, специализированные мультимедийные инструкции, поэтому производительность Loongson оставляет желать лучшего, уступая всем остальным в несколько раз. Kirin 9000C также показал скорость лишь немного выше по необъясненной причине. Однако Phytium D3000 вновь стал лидером среди китайских процессоров, значительно опередив Zhaoxin KX-7000, который отличается более высоким энергопотреблением – на 18%-36%, что является весьма существенной разницей.

Даже при сравнении современных китайских процессоров с западными, работающими на стандартных частотах, разница между ними не столь велика. Ryzen 5 1500X в некоторых случаях демонстрировал результаты на 2–6% хуже, в зависимости от разрешения видео. Процессоры Intel по-прежнему заметно превосходят других, обгоняя Phytium D3000 почти в два раза – это подтверждает их высокую производительность в задачах, использующих SIMD-инструкции. Однако отставание вдвое при разнице в частоте, составляющей треть, уже можно считать значительным достижением для Phytium.

Показать исходные данные

Для оценки производительности видеокодирования был разработан более строгий тест. VVenC – это быстрый и результативный кодировщик видео, основанный на формате H.266/VVC (Fraunhofer Versatile Video Encoder), который использует библиотеку SIMD Everywhere (SIMDe) для обеспечения переносимой реализации SIMD на разных платформах. К сожалению, в перечне поддерживаемых платформ отсутствует Loongson, однако есть ARM, поэтому при использовании всех доступных наборов инструкций SSE и AVX на процессорах, совместимых с x86, SIMD-ускоренные операции Neon должны работать на ARM, в то время как на Loongson, скорее всего, возникнут трудности с производительностью.

Решение задачи оказалось еще более затруднительным, и без SIMD-инструкций здесь нечего искать. Прослеживается разрыв между кодом, который эффективно оптимизирован для x86-процессоров, и некоторыми вариантами на ARM-ядрах, демонстрирующими крайне низкую производительность на Loongson. Интересно сопоставление показателей Phytium D3000 и Kirin 9000C — похоже, что у последнего с SIMD-инструкциями не все в порядке, поскольку он уступает рассматриваемому сегодня китайскому процессору в 3,5 раза. Loongson демонстрирует скорость на 7-8 раз ниже. Отсутствие качественной оптимизации под китайские процессоры может привести к аналогичным проблемам не только у Loongson, но и у ARM-процессоров в различных программах. Однако D3000 — не самый успешный китайский процессор в этом сопоставлении, его превзошел Zhaoxin KX-7000 на 7%-11%.

Несмотря на более высокую частоту и возросшие требования к энергопотреблению процессора Zhaoxin, Phytium D3000 с уверенностью можно назвать наиболее эффективным китайским CPU для работы с видеоданными. Даже Ryzen 5 1500X продемонстрировал производительность, немного уступающую решению Phytium — разница между ними составила 2-5%. Однако, при сравнении китайского процессора с Core i3-12100 на его номинальной частоте, последний все же оказывается значительно быстрее – на 75-80%.

Обработка изображений

Несмотря на то, что данный раздел тестов имеет много общего с предыдущим, мы выделили его в отдельный, поскольку он полностью посвящен работе со статичными 2D-изображениями: их обработке, сжатию и распаковке в различных сценариях.

Показать исходные данные

G’MIC – это программная платформа с открытым исходным кодом, предназначенная для обработки цифровых изображений и предлагающая широкий спектр возможностей по их преобразованию. Платформа включает в себя сотни алгоритмов и функций для работы с изображениями, поддерживает многопоточность и может использовать OpenMP для повышения скорости вычислений за счет распределения нагрузки между несколькими ядрами процессора. Время выполнения указано в секундах и отражает продолжительность каждого из трех тестов.

Влияние пропускной способности памяти на результаты тестирования проявляется лишь в двухмерном подтесте, и даже в этом случае оно незначительно. Результаты Phytium D3000 в этих тестах оказались хорошими, что позволило процессору вновь занять первое место среди китайских решений для настольных ПК. Kirin 9000C демонстрирует более низкую скорость в тесте двумерной функции, предположительно по какой-то причине, однако в 3D Volume он на 6% быстрее, но в заключительном подтесте – на 9% медленнее. Loongson 3A6000 опережает в последнем подтесте на 3%, но проигрывает на 74% и 18% в первых двух, соответственно. Zhaoxin KX-7000, в свою очередь, во всех тестах показывает более низкую скорость, от 37% до 85%.

В отношении процессоров западного производства, Ryzen 5 1500X демонстрирует более низкую производительность в двух из трех тестов, опережая соперника лишь на 5% во втором, уступая 27% в первом и 55% в третьем. Core i3-12100, в свою очередь, значительно превосходит конкурентов, показывая результаты лучше на 39%, 92% и 51% соответственно. Однако, существенное влияние оказывает разница в тактовых частотах, и при сопоставимых значениях, китайский процессор не выглядит так уж и плохо с точки зрения количества инструкций, выполняемых за такт, даже в сравнении с процессорами Intel предыдущих поколений.

Показать исходные данные

RSVG/librsvg – это библиотека, предназначенная для работы с векторной графикой в формате SVG. Тест измеряет время преобразования векторных изображений в формат PNG, что подразумевает растеризацию. Эта задача довольно распространена и регулярно встречается при работе с современными веб-сайтами. В тесте используется одно большое изображение, хотя в реальных сценариях их, как правило, больше и они меньше по размеру, но суть остается той же. В данном случае производительность не зависит от количества каналов памяти DDR5.

При конвертации векторной графики в растровую процессор Phytium D3000 продемонстрировал более высокую производительность по сравнению с другими китайскими решениями, превзойдя Loongson 3A6000 на 6%, Kirin 9000C – на 60%, а также Zhaoxin KX-7000, обладающий более высокой тактовой частотой, на 38%. Однако процессоры Ryzen 5 1500X и Core i3-12100 всё же демонстрируют более высокую скорость работы, при этом Ryzen 5 опережает Phytium на 11%, а Core i3 – на 87%. Но даже в этом случае результат неплох, если учитывать, что другие китайские центральные процессоры работают еще медленнее.

Показать исходные данные

Еще один универсальный тест предназначен для оценки работы с изображениями. RawTherapee — это кроссплатформенное приложение для каталогизации и обработки изображений, полученных с цифровых фотоаппаратов в формате RAW. Оно является аналогом Adobe Photoshop Lightroom и Aperture, но имеет открытый исходный код. В ходе тестирования измеряется время обработки и конвертации RAW-файлов, что является распространенной задачей для профессиональных фотографов. Скорость работы памяти оказывает влияние на результаты этого теста, и двухканальный режим работы предоставил системе на Phytium D3000 преимущество в 4%. Это небольшое, но заметное улучшение.

Текущий тест демонстрирует превосходство китайского процессора Phytium D3000 над другими аналогичными решениями. Он выглядит несколько лучше, чем процессор Zhaoxin KX-7000, опередив его на небольшие 2%, несмотря на разницу в частоте, составляющую треть. Kirin 9000C же показал отставание на 33%, а Loongson 3A6000 – почти в полтора раза. Таким образом, процессор Phytium получился весьма конкурентоспособным, поскольку он победил во множестве задач, где состязались китайские производители. Это становится заметно при практическом применении: обработка каждого кадра вместо полутора минут займет всего одну минуту, что будет ощутимо при большом объеме фотографий.

Несмотря на успех в сравнении с другими китайскими процессорами, Phytium D3000 проиграл как Core i3-12100, так и Ryzen 5 1500X. Время конвертации RAW-файлов в RawTherapee оказалось на 10% ниже, чем у Ryzen 5, что можно считать приемлемым показателем для китайского CPU. Однако Core i3-12100 при стандартных настройках демонстрирует скорость на 74% выше, чем у тестируемого сегодня процессора. Это существенное преимущество, превышающее разницу между ним и самым медленным Loongson, которого, как обычно, подвела недостаточная оптимизация под специфическую архитектуру.

Показать исходные данные

Теперь рассмотрим сжатие и распаковку изображений. tjbench – это инструмент для оценки производительности распаковки JPEG-файлов с использованием библиотеки libjpeg-turbo, которая оптимизирована благодаря SIMD-инструкциям, применяемым в современных CPU. Не ясно, насколько эффективно эта библиотека адаптирована для ARM и LoongArch, хотя, согласно документации, поддержка SIMD-инструкций и была реализована. В данном тесте скорость работы памяти не оказывает существенного влияния.

В данной ситуации результаты Phytium D3000 уже не столь впечатляющие, поскольку он уступил сразу двум китайским аналогам. Kirin 9000C демонстрирует производительность на 23% выше, чем у рассматриваемого процессора, а Zhaoxin KX-7000 — на 19%. Это не критичное отставание, однако оно вызывает определенные опасения. Единственным конкурентом, которого удалось обойти, оказался Loongson 3A6000, который, как обычно, страдает от недостаточной оптимизации программного обеспечения — он распаковывает JPEG-файлы более чем в полтора раза медленнее.

В области производительности процессоров AMD и Intel, как правило, занимают лидирующие позиции. Процессор Core i3-121000 демонстрирует скорость конвертации JPEG-файлов, превышающую показатели китайского процессора, который мы сегодня рассматриваем, более чем в два раза, а результат, полученный с Ryzen 5 1500X, оказался на 31% лучше. Это свидетельствует о том, что менее популярные решения часто уступают в производительности больше, чем можно было бы ожидать.

Показать исходные данные

Теперь перейдем к тестам кодирования изображений, которые предъявляют значительно более высокие требования. OpenJPEG — это кодек, предназначенный для работы с изображениями формата JPEG 2000, и в соответствующем тесте используется крупное панорамное изображение в формате TIFF, занимающее 717 МБ, которое преобразуется в формат JPEG2000. Время конвертации отображено на диаграмме в миллисекундах. Заметна разница между одноканальным и двухканальным режимами работы DDR5-памяти, однако она незначительна и может быть проигнорирована.

Phytium D3000 вновь подтвердил своё лидерство, став самым производительным китайским процессором для настольных компьютеров. В очередной раз он продемонстрировал превосходство над конкурентами: Kirin 9000C уступил ему более чем в полтора раза, Loongson 3A6000 – на 27%, а Zhaoxin KX-7000 – на 10%. Судя по всему, программное обеспечение оптимизировано как для набора инструкций x86, так и для архитектур ARM и LoongArch.

Наиболее любопытный факт заключается в том, что Ryzen 5 1500X на стандартной частоте показал результаты, уступающие Phytium на 18%. При этом Core i3-12100, хоть и продемонстрировал наилучшую производительность на своей обычной частоте, обогнал китайский процессор Phytium всего на 5%. Если учитывать разницу в частоте, составляющую треть в пользу Intel, то по инструкции на выполнение (IPC) у китайского CPU в данном тесте наблюдается весьма достойный уровень. Это показывает, что при грамотной оптимизации можно добиться значительных улучшений. Теперь проанализируем результаты при использовании других форматов сжатия.

Показать исходные данные

Для оценки эффективности сжатия изображений был проведен очередной тест. В качестве инструментария использована библиотека Google libwebp, а именно утилита cwebp для перекодирования изображений в формат WebP. В ходе бенчмарка на вход подается JPEG-файл с разрешением 6000×4000 пикселей, и измеряется скорость его преобразования в WebP, выраженная в мегапикселях в секунду. Различия в работе одно- и двухканального режимов памяти незначительны, так как производительность определяется исключительно возможностями центрального процессора.

Ситуация, описанная в этом тесте, требует внимательного рассмотрения. С одной стороны, показатели Phytium D3000 оказались на 65% ниже, чем у Zhaoxin KX-7000, а Kirin 9000C – на 20%, при этом он превзошел только Loongson 3A6000, и то лишь в одном, самом сложном испытании. В то же время, именно в этом наиболее требовательном тесте быстрее всех оказались процессоры Loongson и Phytium. По всей видимости, в простых задачах ключевую роль играют вычислительные возможности ядер, тогда как в более сложных сценариях вступает в действие кэш-память, и его эффективность становится определяющим фактором.

В целом, результаты сравнения китайского процессора Phytium D3000 с западными моделями AMD и Intel в данном тесте выглядят не слишком оптимистично. В первых двух этапах Phytium D3000 уступал Ryzen 5 1500X почти в два раза, а Core i3-12100 превзошел его сразу на 2,4-2,7 раза. Однако в третьем, более сложном тесте, разрыв сократился до 36% и 97% соответственно. Тем не менее, это все равно свидетельствует о проигрыше, хотя и не столь значимом, особенно если учитывать различия в тактовых частотах.

Показать исходные данные

Этот тест, подобно предыдущему, использует библиотеку Google libwebp2 для кодирования изображения в формат WebP2. Как и в предыдущем тесте, применяется формат WebP и используется тот же входной файл. WebP2 – это экспериментальный формат, находящийся в разработке, который поддерживает 10-битный HDR-формат, обеспечивает более эффективное сжатие с потерями и улучшенное сжатие без потерь, а также предоставляет полную поддержку многопоточности. Второй канал памяти не оказал существенного влияния и в этом тесте.

Интересно, что в данном тесте Phytium D3000 уступил только Zhaoxin KX-7000, и то лишь в более простом режиме, где разница между ними составила 20%. Kirin 9000C показал результаты, проиграв 27% и 48% в простом и сложном режимах соответственно, а Loongson 3A6000 – 66% и 68%. Даже при сравнении D3000 с процессорами западных производителей, Ryzen 5 1500X оказался быстрее в простом режиме на 10%, но уступает на 2% в сложном. Core i3-12100, безусловно, демонстрирует более высокую производительность, опережая на 62% и 47% в соответствующих режимах, однако и обладает на треть более высокой тактовой частотой. Таким образом, по показателю IPC Phytium также весьма хорош, он явно превосходит Zen 1 и приближается к базовой версии Core 12-го поколения.

Показать исходные данные

Etcpak, названный создателями «самым быстрым компрессором ETC на планете», предназначен для максимально быстрой обработки текстур в форматы ETC и S3. Для тестирования используется текстура с разрешением 8000×8000 пикселей, которая сжимается с использованием одного вычислительного потока и в многопоточном режиме. В данном случае разница между одно- и двухканальным режимами памяти не наблюдается.

К сожалению, Zhaoxin KX-7000 в ходе этого теста не заработал, поэтому его пришлось исключить. Loongson 3A6000 также не проявил себя должным образом, поскольку сжатие текстур пакетами на этом CPU оказалось крайне медленным, что указывает на отсутствие оптимизации под вычислительную архитектуру LoongArch. Остается сравнивать Phytium D3000 с другим ARM-процессором, а именно с Kirin 9000C. И здесь ситуация становится любопытной — в однопоточном режиме явное преимущество на стороне решения Huawei, оно работает быстрее на 30%. Однако в многопоточном режиме Phytium выходит на первое место, опережая Kirin с неоднородными ядрами на те же 30%! В данном сценарии восемь полноценных ядер оказываются решающим фактором в пользу D3000.

Сравнивать героя сегодняшней статьи с Ryzen 5 1500X и Core i3-12100 не имеет большого смысла, поскольку при стандартных частотах западные процессоры демонстрируют в 1,7 и 2,9 раза большую производительность в многопоточном режиме, соответственно. В однопоточном же режиме китайский процессор уступает западным аналогам, показывая результаты на 2,7 и 4,6 раза медленнее, что является существенным недостатком.

Криптографические тесты

Криптографические задачи также представляют собой значимую область оценки производительности процессоров. Сегодняшние центральные процессоры способны выполнять шифрование больших массивов данных в режиме реального времени, причем некоторые из них поддерживают специализированные инструкции для широко используемых алгоритмов шифрования, например AES.

Показать исходные данные

Aircrack-ng – это комплекс утилит, которые используются для поиска Wi-Fi-сетей, анализа проходящего через них трафика, и, что наиболее важно для нас, для оценки надёжности ключей шифрования WEP и WPA/WPA2, то есть для их дешифровки. При проведении подобных тестов ключевую роль играют количество вычислительных ядер и высокопроизводительная архитектура с высокой тактовой частотой, а не размер кэша и скорость оперативной памяти – поэтому влияние пропускной способности, например, в Phytium D3000, не проявляется, а результаты, полученные при работе с двухканальной и одноканальной памятью, практически идентичны.

Оптимизация данного набора утилит для архитектуры ARM оказалась достаточно успешной, что было заметно еще по результатам тестирования Kirin 9000C. Phytium D3000 демонстрирует производительность на 21% выше, чем у этого китайского чипа, в то время как Zhaoxin KX-7000, вероятно, благодаря аппаратному ускорению шифрования, превзошел его на 84%, что сложно объяснить различиями в частоте. Что касается Loongson 3A6000, то из-за неэффективной (или отсутствующей) оптимизации он работает почти в четыре раза медленнее процессора Phytium.

Нам особенно интересно сравнить его с процессорами западных производителей прошлых лет — даже Ryzen 5 1500X при своей стандартной тактовой частоте проиграл этому китайскому решению, хотя и с небольшим отрывом в 8%. С процессором Core i3-12100 ситуация давно ясна, он и в этом тесте оказался значительно быстрее всех, обогнав Phytium D3000 в 2,25 раза. Таким образом, по IPC до китайского процессора Intel еще далеко, но с Ryzen он уже вполне сопоставим.

Показать исходные данные

Bork – это небольшая кроссплатформенная программа для шифрования файлов, разработанная на Java. Тестирование направлено на определение времени, необходимого для шифрования файла-образца. Метод шифрования не раскрыт, однако использование аппаратного ускорения для шифрования, доступного на процессорах, которые его поддерживают, отсутствует. Влияние скорости работы DDR5-памяти также не оказывает влияния на результаты, что подтверждается идентичными показателями Single и Dual.

В случае с этой утилитой, Phytium D3000 выглядит несколько менее привлекательно по сравнению с Loongson 3A6000, уступая ему на 8%. Kirin 9000C работает медленнее, чем процессор, который мы сегодня рассматриваем, на 35%, а Zhaoxin KX-7000 — на 16%. Ранее мы исходили из предположения, что этот бенчмарк одинаково оптимизирован для всех вычислительных архитектур (как в положительную, так и в отрицательную сторону), поэтому и получили такие необычные результаты. Оценочный уровень производительности сегодняшнего китайского процессора сопоставим с Ryzen 5 1500X, однако он уступает процессору Intel Core i3-12100 примерно на 70%, что, конечно, значительный разрыв, но около половины этого отставания можно объяснить различиями в частотах, поэтому показатели D3000 в этом тесте не так уж и плохи с точки зрения IPC.

Показать исходные данные

Crypto++ — это библиотека с открытым исходным кодом для C++, разработанная для работы с разнообразными криптографическими алгоритмами. Она поддерживает широкий спектр алгоритмов, причем для процессоров x86 с расширением AES-NI, вероятно, существуют оптимизации и для ARM, в отличие от Loongson. Для всех алгоритмов, поддерживаемых тестовым программным обеспечением, был использован один общий результат. Зависимость от производительности памяти также не была выявлена.

При сопоставлении Phytium D3000 с другими китайскими процессорами, его производительность в данном тесте находится между Zhaoxin KX-7000 и Loongson 3A6000, в то время как Kirin 9000C демонстрирует наилучшие показатели среди китайских решений. Сегодня рассматриваемый процессор проигрывает Kirin 9000C на 48%, а Zhaoxin обгоняет его на треть. Loongson же отстает на 47%, что связано с менее эффективной оптимизацией программного обеспечения. В сравнении с западными аналогами, ситуация не вызывает оптимизма — Phytium D3000 в этом тесте на 65% медленнее, чем Ryzen 5 1500X, но при этом в 2,6 раза быстрее сегодняшнего героя. Таким образом, результаты этого теста можно считать негативными для процессора Phytium.

Показать исходные данные

Последний тест раздела — OpenSSL. Это криптографическая библиотека с открытым исходным кодом, получившая широкую известность благодаря использованию в протоколе HTTPS, использующем расширение SSL/TLS. Она поддерживает большинство алгоритмов хеширования, шифрования и распространенных криптографических стандартов. Для тестирования были выбраны два варианта: RSA4096 и SHA512, скорость которых измеряется различными способами — в первом случае в количестве подписей в секунду, во втором — в мегабайтах в секунду. Разница между одно- и двухканальными режимами работы DDR5-памяти незначительна и может быть проигнорирована.

Поразительно, насколько различаются результаты – если производительность китайского процессора в тесте SHA512 настолько высока, что он превзошел западные аналоги и занял первое место в сравнении, то по скорости алгоритма RSA4096 процессор Phytium D3000 оказался… самым медленным! В первом подтесте рассматриваемая модель показала результат на 54% лучше, чем следующий по скорости Kirin 9000C (что свидетельствует о хорошей оптимизации теста для ARM-процессоров), Zhaoxin KX-7000 уступил более чем вдвое, а Loongson 3A6000 – в 3,7 раза. Однако ситуация кардинально меняется во втором подтесте – D3000 медленнее даже Loongson – на 10%, Zhaoxin демонстрирует скорость в 2,4 раза выше, а Kirin – в 2,3 раза.

Сопоставление с западными процессорами выглядит не менее поразительным: Core i3-12100 демонстрирует скорость в 4,3 раза большую в подтесте RSA4096, но в SHA512 он оказывается медленнее, причем сразу на 80%. Ryzen 5 1500X в первом подтесте работает в 2,3 раза быстрее, но во втором – на 2,7 раза медленнее. Таким образом, результаты, полученные в этом тесте для процессора Phytium D3000, получились весьма неоднозначными, и аналогичные результаты наблюдаются и в OpenSSL-бенчмарке.

Сжатие и распаковка

Большинство пользователей знакомы с процессами сжатия и распаковки данных, которые используются в архивах, а также с популярными современными архиваторами. Для оценки работы некоторых из них, включая наиболее часто используемые на системах Unix/Linux, мы провели собственные тесты.

Показать исходные данные

Gzip — широко используемый в Unix-системах формат сжатия данных без потерь, основанный на методе Deflate (сочетание алгоритмов LZ77 и Хаффмана). Данный тест предназначен для оценки времени сжатия двух экземпляров исходного кода ядра Linux версии 4.13. Согласно результатам, представленным в предыдущих публикациях, и сопоставлению показателей двухканальной и одноканальной DDR5-памяти для Phytium D3000, пропускная способность памяти в данном тесте не оказывает заметного влияния.

Новый китайский процессор показал результаты, сопоставимые с показателями других представителей этой линейки, лишь немного превосходя большинство из них. Zhaoxin KX-7000, являющийся самым производительным среди них, оказался на 5% быстрее сегодняшнего героя, и, принимая во внимание его более высокие частоты и энергопотребление, D3000 можно оценить как более эффективное решение. Loongson 3A6000 продемонстрировал отставание от процессора Phytium приблизительно на 6%, а Kirin 9000C – на все 15%.

При сопоставлении D3000 с процессорами AMD и Intel, он продемонстрировал меньшую производительность, уступая Ryzen 5 1500X и Core i3-12100 на 16% и 74% соответственно. Анализируя частоты упомянутых CPU, можно предположить, что показатель IPC находится в диапазоне между Zen 1 и процессорами 12-го поколения Intel, однако стоит учитывать, что это довольно старые решения, а современные центральные процессоры значительно превосходят их по скорости.

Показать исходные данные

Архиватор 7-zip широко используется в различных операционных системах и привлекает внимание благодаря достаточно эффективному, но ресурсоемкому способу сжатия. Кроме того, он представляет интерес тем, что тесты, проведенные с его использованием, кроссплатформенны, что позволяет сравнивать результаты на разных операционных системах. Процесс сжатия напрямую зависит от скорости работы памяти, в то время как при распаковке влияние скорости памяти менее заметно – например, при тестировании Phytium D3000 разница между одно- и двухканальной памятью при сжатии составила 3%, а при распаковке практически не проявилась.

Результаты тестирования 7-zip для процессора Phytium, рассматриваемого сегодня, также оказались весьма достойными. При оценке скорости сжатия данных, китайский CPU выполняет эту задачу на 31% быстрее, чем Kirin 9000C, на 36% быстрее, чем Zhaoxin KX-7000, и на 46% быстрее, чем Loongson 3A6000. Даже западный Ryzen 5 1500X уступает сегодняшнему герою на значительные 28%! Безусловно, полноскоростной Core i3-12100 демонстрирует еще более высокую производительность – он опережает процессор Phytium на те же 28%. При этом, с учетом разницы в частотах, их показатели IPC в данном тесте довольно близки.

Тестирование производительности в исполнении D3000 также впечатляет: этот процессор превосходит не только китайские аналоги, но и все CPU, участвовавшие в сравнении! Kirin 9000C продемонстрировал отставание на 4%, Loongson 3A6000 — на 43%, а Zhaoxin KX-7000 — на 17%. Более интересным представляется сопоставление с процессорами AMD и Intel, даже если они и являются устаревшими моделями. Ryzen 5 уступил D3000 на 27%, а Core i3 — на 9%. Таким образом, по количеству инструкций, выполняемых за такт, Phytium D3000 не просто хорош, но и обходит западные CPU, использованные для сравнения. И это при его невысокой рабочей частоте – весьма достойный результат!

Показать исходные данные

Новый тест на сжатие оценивает время, затрачиваемое на сжатие и последующую распаковку стандартного файла silesia.tar с использованием алгоритма LZ4. Этот алгоритм, относящийся к семейству методов сжатия LZ77, обеспечивает сжатие данных без потерь, делая акцент на высокой скорости работы. Он характеризуется меньшей степенью сжатия по сравнению с традиционным gzip, но значительно превосходит его по скорости. В процессе тестирования мы использовали уровень сжатия Level 9 и анализировали скорость сжатия и распаковки, при этом влияние ПСП отсутствует.

При оценке скорости сжатия и распаковки формат Phytium D3000 демонстрирует результаты, сопоставимые с показателями китайских аналогов. В некоторых случаях он незначительно превосходит конкурентов, но в других – уступает им. Kirin 9000C быстрее D3000 на 9% при распаковке, но при сжатии работает на 5% медленнее. Loongson 3A6000 показывает более низкую производительность, отставая на 11% и 8% соответственно. Zhaoxin KX-7000 занимает последнее место, демонстрируя отставание в 23% и 12% в этих задачах.

Хотя процессор Phytium D3000 занимает заметное место на рынке среди китайских потребителей, он всё же уступает по производительности западным аналогам. При сжатии данных Ryzen 5 1500X показывает сопоставимые результаты, но при распаковке он обходит Phytium D3000 на 37%, а Core i3-12100 демонстрирует превосходство во всех тестах – в полтора раза быстрее при сжатии и почти в два раза – при распаковке. Эта разница в производительности объясняется не только более низкой рабочей частотой Phytium D3000, но и более низким показателем IPC в данном тесте по сравнению с западными процессорами.

Показать исходные данные

Тест сжатия измеряет время сжатия и распаковки файла-примера silesia.tar с помощью алгоритма Zstd (Zstandard). Это без потерь алгоритм сжатия данных, разрабатываемый Facebook при поддержке. Он комбинирует словарь сжатия типа LZ77 и эффективное энтропийное кодирование типа ANS. ANS подобно коду Хаффмана. Для проведения тестов мы использовали уровень сжатия Level 19 Long. Влияние пропускной способности памяти практически незаметно.

Проанализированный сегодня процессор Phytium D3000 продемонстрировал производительность сжатия в формате, близкой к показателям Loongson 3A6000, который был признан самым эффективным среди китайских центральных процессоров – он опережает его на 3%. Kirin 9000C оказался на 12% медленнее, а Zhaoxin KX-7000 – на 18%. Core i3-12100 и Ryzen 5 1500X значительно превосходят рассматриваемое китайское решение, уступая ему при сжатии на 54% и 27% соответственно. Ситуация с распаковкой данных не лучше: процессор Phytium вдвое медленнее, чем Intel, а Ryzen 5 справляется с этой задачей на 25% быстрее. Сниженную рабочую частоту у D3000 можно принять во внимание, однако западные аналоги всё равно демонстрируют большую скорость, и процессор Intel, как минимум, быстрее.

Показать исходные данные

Еще один распространенный формат сжатия — многопоточная версия bzip2, основанная на алгоритме Барроуза — Уилера. Он сжимает большинство файлов более эффективно, чем традиционные gzip и zip, однако работает медленнее. При этом, для нас важно, что современная версия алгоритма создает значительную нагрузку на процессор и может быть распараллелена. Для оценки производительности был проведен бенчмарк, измеряющий время сжатия и распаковки файла FreeBSD-13.0-RELEASE-amd64-memstick.img с использованием Parallel BZIP2. Ранее мы фиксировали влияние набора команд процессора на скорость сжатия для некоторых CPU, однако для Phytium D3000 такого влияния не наблюдается, как и в случае скорости распаковки.

В данном тестировании процессор Phytium демонстрирует выдающиеся результаты, особенно в сравнении с другими китайскими решениями. При сжатии данных он превосходит Kirin 9000C и Zhaoxin KX-7000 примерно на 20%, а Loongson 3A6000 оказывается медленнее на 35%. Операции по распаковке также выполняются быстро, и в этом аспекте Loongson 3A6000 показывает достойные результаты, отставая всего на 6%. Процессор Huawei Kirin демонстрирует более существенное отставание – 32%, а Zhaoxin – 23%. Учитывая тактовые частоты, это весьма достойный результат для Phytium.

Не всегда западные процессоры демонстрируют превосходство в производительности, поскольку китайский Ryzen 5 1500X, несмотря на 12-процентное преимущество в сжатии, распаковывает файлы с сопоставимой скоростью. Однако Core i3-12100 показывает наилучший результат и в этом тесте: процессор Intel при стандартной частоте сжимает файлы на 64% быстрее, а время их распаковки сокращается на 54.

Показать исходные данные

В качестве финального теста в данном разделе будет проведено измерение времени распаковки архива .tar.xz, содержащего установочные файлы веб-браузера Mozilla Firefox 84.0. Как продемонстрировали предыдущие тесты, на результат оказывает некоторое влияние пропускная способность памяти, что было подтверждено при сравнении двух- и одноканального режимов работы DDR5-памяти в системе с процессором Phytium D3000. Распаковка Firefox на протестированном сегодня китайском CPU происходит быстрее, чем на остальных китайских процессорах, и даже немного быстрее, чем на Ryzen 5 1500X, хотя разница в последнем случае минимальна.

Loongson 3A6000 продемонстрировал скорость распаковки, сопоставимую с показателями Phytium. Kirin 9000C уступал на 34%, а Zhaoxin KX-7000 – на 28%. Core i3-12100 на номинальной частоте значительно превосходит все остальные процессоры, опережая Phytium D3000 на 54%, что является существенным преимуществом. Даже с учётом различий в частотах, этот процессор западного образца, несмотря на свой возраст, показывает большую эффективность, в особенности в работе подсистемы кэширования, критически важной для распаковки данных. Но китайский CPU Zen 1 не просто достиг уровня Loongson по IPC, а и превзошел его.

Компиляция и разработка

Несмотря на то, что этот раздел не является крупным и не пользуется широким спросом — среди наших читателей, вероятно, не так много разработчиков программного обеспечения, — он всё же представляет определенный интерес. ARM-архитектуры и другие, отличные от x86, относительно недавно начали широко применяться в настольных компьютерах, и интерес к разработке программного обеспечения для них, особенно в Китае, который активно переходит на них, наверняка существует. Мы проверим, как обстоят дела с компиляцией кода, сборкой приложений и другими задачами, связанными с разработкой ПО, у очередного китайского процессора.

Показать исходные данные

Build2 – это кроссплатформенный инструментарий для компиляции кода C/C++. Первый тест оценивает время установки Build2 из исходников. Влияние пропускной способности памяти на результаты отсутствует, как и в предыдущих исследованиях – различия между одно- и двухканальным режимами не выявлены.

Phytium D3000 неожиданно возглавил рейтинг китайских процессоров и в этом тесте, продемонстрировав значительное превосходство. Loongson 3A6000 оказался медленнее на 55%, Kirin 9000C уступил сегодняшнему герою на 38%, а Zhaoxin KX-7000 — на 46%. Это весьма существенная разница в пользу процессора Phytium. Кроме того, он является единственным китайским CPU, который превзошел хотя бы одного западного конкурента, в качестве которого выступил Ryzen 5 1500X — разница между ними составила всего 6%, и преимущество на стороне китайского процессора. Core i3-12100, как и ожидалось, оказался быстрее, он выполнил сборку на 56% быстрее, чем D3000. Учитывая разницу в частоте, показатели китайского CPU выглядят неплохо, однако даже при одинаковых частотах процессор Intel был бы быстрее.

Показать исходные данные
Не пропустите:  Обзор игрового ноутбука MSI Titan 18 HX AI A2XWJG-076RU.

PyBench – это инструмент для оценки общей производительности, который запускает различные функции, написанные на Python. Измеряется совокупное время выполнения тестов для таких функций, как BuildinginFunctionCalls и NestedForLoops, что позволяет получить примерную оценку средней производительности Python в конкретной системе. Также не выявлено различий в работе памяти DDR5 при использовании различных конфигураций каналов, поэтому производительность не зависит от ее параметров.

Несмотря на успешные показатели Phytium D3000 в предыдущем тестировании, данный процессор оказался наихудшим в сравнении. Он продемонстрировал уступки не только западным решениям, но и всем другим китайским микросхемам. Loongson 3A6000 показал результат на 7% быстрее, Zhaoxin KX-7000 – на 13%, а Kirin 9000C сразу обогнал на 53%. Также стоит отметить, что процессоры Ryzen 5 1500X и Core i3-12100, несмотря на их возраст, продемонстрировали более высокую производительность. Первый из них оказался быстрее D3000 в полтора раза, а Core i3-12100 – в 3,3 раза. Такая волатильность в результатах Phytium вызывает сожаление, и однозначно назвать его лучшим китайским CPU не представляется возможным.

Показать исходные данные

В заключение этого раздела представлены два теста, оценивающих производительность компиляции: примеры из Eigen, библиотеки линейной алгебры для C++, и Erlang, языка программирования и среды выполнения для создания масштабируемых систем реального времени. Эти тесты позволяют определить время компиляции указанных проектов, выраженное в секундах. Влияние параллельной статической обработки (ПСП) в данном случае незначительно.

Наблюдаемая нестабильность результатов вновь привлекает внимание. Kirin 9000C демонстрирует на 53% более низкую скорость компиляции Erlang, но при этом на 86% превосходит по скорости компиляции Eigen. Loongson 3A6000 уступает в скорости компиляции Erlang на 37%, но также показывает прирост в 86% во втором подтесте. Zhaoxin KX-7000 показал наихудший результат — он проиграл D3000 приблизительно на 40% и 33% в этих же подтестах. Западные процессоры также демонстрируют интересные результаты: Ryzen 5 1500X компилирует Eigen в 2,5 раза быстрее, но уступает в скорости компиляции Erlang на 12%, а Core i3-12100 демонстрирует превосходство во всех случаях — в 4,5 раза и на 36% соответственно.

Phytium D3000 демонстрирует значительные колебания эффективности: в одних случаях компиляция выполняется очень хорошо, а в других – крайне неэффективно. В отдельных тестах этот процессор показывал наилучшие результаты среди китайских аналогов и даже превосходил Ryzen, однако в других случаях он опередил лишь Zhaoxin KX-7000, который показал худший результат в данном тесте. Современным западным процессорам китайским пока не удается достичь их уровня производительности и стабильности.

Высокопроизводительные вычисления

Этот тестовый раздел вызывает некоторые сомнения. С одной стороны, именно высокопроизводительные вычисления предъявляют наиболее строгие требования к вычислительной мощности процессоров, а с другой – маловероятно, что кто-либо будет применять процессор для настольных ПК начального уровня для решения подобных задач. Однако, поскольку компания Phytium также выпускает серверные процессоры на той же архитектуре, обладающие большим количеством ядер, скорость настольного D3000 позволяет оценить общую производительность вычислительной архитектуры компании, а не только характеристики процессора, разработанного для настольных ПК.

Показать исходные данные

Первый тест, посвященный разделу Algebraic Multi-Grid (AMG), представляет собой параллельный решатель алгебраического многосеточного типа, предназначенный для линейных систем на неструктурированных сетках. Результатом теста является показатель, характеризующий итоговую производительность, причем более высокое значение соответствует более высокой скорости вычислений. Как и следовало ожидать от бенчмарков, ориентированных на научные вычисления, на результат существенно влияет пропускная способность памяти: подключение второго канала DDR5-памяти теоретически обеспечивает 100% прироста пропускной способности, а в рамках этого теста — увеличение производительности на целых 78!

В первом тесте раздела Phytium D3000 продемонстрировал скорость, которая значительно превышает показатели других китайских CPU, и даже опережает наименее производительный из западных процессоров. Рассматриваемый процессор показал результат на 2,3 раза выше, чем у Loongson 3A6000 и Kirin 9000C, и сразу в 3,1 раза превысил показатель Zhaoxin KX-7000, который испытывает проблемы из-за неэффективного контроллера памяти. Этот бенчмарк стал хорошим индикатором эффективности работы процессоров с памятью, и в этом аспекте Phytium, безусловно, проявляет себя хорошо.

По сравнению с процессором Ryzen 5 1500X, уступившему китайскому конкуренту всего 4%, Phytium D3000 демонстрирует превосходство над процессором AMD по количеству выполняемых инструкций за такт в данном тесте. Core i3-12100, работающий с DDR5-памятью, обладает более эффективным контроллером памяти, что позволило западному CPU показать результат на 34% быстрее. Однако и процессор Phytium в этом тесте также показывает хорошие результаты, что стоит повторить.

Показать исходные данные

Тест High Performance Conjugate Gradient (HPCG) предназначен для решения системы линейных алгебраических уравнений, включающей большую разреженную квадратную матрицу, с использованием метода сопряженных градиентов и предобуславливателем Гаусса-Зейделя. Алгоритм реализован с применением MPI и OpenMP, что обеспечивает поддержку многоядерных центральных процессоров. Производительность теста существенно зависит от скорости работы памяти, и установка второй планки DDR5 позволила увеличить скорость на 72%, что составляет 100% от теоретического максимума%.

Производительность протестированного сегодня процессора Phytium вновь оказалась впечатляющей — в данном тесте он превзошел всех конкурентов из числа китайских чипов и показал результаты, сопоставимые с Ryzen 5. Loongson 3A6000 оказался значительно медленнее, на 3,3 раза, как и Zhaoxin KX-7000. Kirin 9000C продемонстрировал неудовлетворительные результаты, уступая D3000 в 6,7 раза, хотя на его работу могла повлиять и ограниченный объем памяти, поскольку в тестируемой системе ее было вдвое меньше. В целом, в тестах данного раздела может потребоваться большой объем памяти, что следует принимать во внимание. Процессоры западного производства здесь показывают хорошие результаты, однако Ryzen 5 1500X продемонстрировал скорость лишь на уровне Phytium, а Corei3-12100 оказался на 31% быстрее китайского CPU, что говорит о его весьма достойных характеристиках.

Показать исходные данные

Бенчмарк Himeno представляет собой линейный решатель уравнения Пуассона, основанный на точечном методе Якоби, и демонстрирует производительность в мегафлопах. В предыдущих исследованиях мы отмечали существенное влияние пропускной способности памяти, однако, как выяснилось, она не была полностью задействована. В текущем тестировании для Phytium D3000 различия между режимами работы памяти отсутствуют, что указывает на отсутствие влияния пропускной способности памяти на итоговый результат.

В этот раз модель D3000 показала себя хуже, уступив некоторым китайским аналогам и опередив лишь Zhaoxin KX-7000 на 13%. Loongson 3A6000 демонстрирует на 8% более высокую скорость, а Kirin 9000C – на 27%. Производительность последнего сопоставима с полноскоростным Ryzen 5 1500X, однако Core i3-12100 с памятью DDR5 значительно превзошел все остальные, и D3000 уступил ему по скорости в 2,5 раза. Мы вновь наблюдаем крайне непостоянные результаты процессора Phytium, который то занимает лидирующие позиции, то оказывается одним из самых медленных среди протестированных CPU.

Показать исходные данные

Mocassin (Monte Carlo Simulations of Ionised Nebulae) – это инструмент моделирования ионизированных туманностей, основанный на методе Монте-Карло. Для оценки его работы применяются два теста, один из которых отличается повышенной сложностью и требует больше времени для выполнения, что позволяет получить время решения в секундах. Вклад параметров, связанных с физическими процессами, незначителен и может быть проигнорирован.

Сегодняшний герой вновь предстает на коне, и в этом обзоре процессор Phytium оказался практически лучшим! В рамках этого конкретного теста он продемонстрировал скорость, в 8-10 раз превосходящую Kirin 9000C, который столкнулся с проблемами из-за недостатка встроенной памяти объемом 8 ГБ на однокристальной системе. Loongson 3A6000 показал результаты хуже, уступив от 48% до 60%, Zhaoxin KX-7000 – от 62% до 95%. Сравнение с западными моделями также оказалось весьма позитивным: Ryzen 5 1500X был медленнее на 22% и 78% в Dust2D и Gas соответственно, а Core i3-12100 показал преимущество во втором тесте на 27%, но проиграл в первом на 15% – замечательный результат Phytium D3000, который, кажется, создан для решения подобных задач!

Показать исходные данные

NAS Parallel Benchmarks (NPB) – это тест, созданный NASA для оценки производительности высокопроизводительных вычислительных систем. Он включает в себя несколько задач, различающихся по сложности и размеру. Результаты бенчмарка представляются в виде числа выполняемых операций в секунду (в миллионах операций в секунду). Влияние параллельной обработки данных наблюдается лишь в первой задаче, а использование второго канала памяти, в дополнение к первому, обеспечило прирост производительности в 9%.

Phytium D3000 не превзошел все китайские аналоги, итоговый результат остается неоднозначным. Анализ Kirin 9000C не имеет смысла, поскольку ему критически не хватает половины объема оперативной памяти, что и стало причиной существенного проигрыша. Loongson 3A6000 в 3D-варианте быстрого преобразования Фурье (3D FFT) демонстрирует скорость на 48% ниже, а во втором подтесте – на 2,2 раза хуже. Zhaoxin KX-7000, напротив, показал хорошие результаты, обеспечив скорость в 2,6 раза выше в 3D FFT и на 30% быстрее во втором подтесте. Ryzen 5 1500X оказался почти в три раза быстрее Phytium D3000 в первом тесте и в полтора раза медленнее во втором. Core i3-12100 демонстрирует более высокую скорость во всех случаях – в 4,5 раза и на 23% соответственно. Таким образом, производительность рассматриваемого процессора остается неоднозначной.

Показать исходные данные

Parboil — это комплекс тестов, разработанный исследовательской группой Университета Иллинойса для оценки эффективности вычислительных архитектур. Сценарии Parboil поддерживают многопоточные среды OpenMP, OpenCL и CUDA. В нашем исследовании мы использовали только версию, основанную на OpenMP, в четырех подтестах. Время выполнения задачи измерялось во всех тестах. Влияние параллельных вычислений проявляется не во всех подтестах, но во второй паре оно весьма заметно и приводит к существенной разнице в производительности – почти двукратной.

По сравнению с другими китайскими процессорами, Phytium D3000 демонстрирует достаточно высокую скорость, однако не является безоговорочным лидером. Этот процессор показывает отличные результаты во второй части тестов, где критична скорость работы памяти, в этих задачах он превосходит всех конкурентов из числа китайских решений. Однако в первых двух этапах D3000 уступает: в CUTCP он проигрывает до 20%, а в MRI Gridding – еще и Loongson 3A6000 оказывается быстрее. Но в Stencil он обходит Kirin 9000C на 17%, а в LBM – на 5% превосходит того же Zhaoxin.

В первых двух тестах процессоры Ryzen 5 1500X и Core i3-12100 демонстрируют более высокую производительность, особенно заметно отставание модели D3000 от Core i3 в тесте MRI Gridding, которое достигает четырехкратного. Однако в двух последующих подтестах процессор Phytium показывает хорошие результаты: в Stencil он занимает позицию между AMD и Intel, а в LBM – превосходит Ryzen 5 на 15%, но уступает Core i3 на 63%. Процессоры западных производителей всё ещё опережают конкурентов, но Phytium также заслуживает внимания. Если бы результаты были более предсказуемыми и стабильными…

Показать исходные данные

Rodinia – это набор инструментов, предназначенный для повышения производительности ресурсоемких приложений с использованием CUDA, OpenMP и OpenCL. В данном тестировании, как и в предыдущем, мы использовали только OpenMP-реализацию, поскольку ускорение вычислений на GPU оказалось принципиально невозможным. Результаты четырех подтестов представлены в секундах, и более низкое время выполнения свидетельствует о более высокой эффективности. Заметное влияние ПСП было зафиксировано в половине тестов – в первом и третьем, где добавление второго канала позволило увеличить скорость на 21% и 50% соответственно.

Подтест HotSpot3D демонстрировал ошибку, аналогично ситуации с Kirin 9000C — вероятно, тестирование на ARM-ядрах не функционирует (а Loongson показал неудовлетворительный результат). Поэтому сравниваем Phytium D3000 с его предполагаемыми конкурентами в остальных подтестах. И мы вновь можем отметить работу специалистов этой китайской компании, поскольку их разработка в очередной раз превзошла других производителей из Китая. В решателе CFD рассматриваемый процессор оказался на 60% производительнее ближайшего китайского конкурента (Loongson 3A6000) и в 2,2 раза быстрее самого слабого китайского чипа Kirin 9000C. В тесте LavaMD процессор Phytium D3000 оказался более чем на 25% быстрее Zhaoxin KX-7000, а в Streamcluster он на 14% превосходит Kirin и в 2,5 раза опережает Loongson.

Даже Core i3-12100 и Ryzen 5 1500X не всегда демонстрируют более высокую производительность. Рассматриваемый сегодня китайский процессор смог обогнать только Ryzen 5, и это произошло лишь в первых двух тестах: в CFD он был быстрее на 35%, а в LavaMD — на 32%. В третьем тесте процессор AMD сумел перехватить лидерство, показав результат на 24% лучше. Процессор Intel демонстрировал превосходство во всех случаях: на 30%, 33% и 100% соответственно. Таким образом, китайский процессор Phytium D3000, безусловно, обладает неплохим значением IPC, однако для полноценной конкуренции ему не хватает и более высокой тактовой частоты, и архитектурных улучшений, которые позволили бы достигать более стабильных и высоких результатов. На данный момент он испытывает проблемы, связанные с недостаточной оптимизацией на уровне аппаратного и программного обеспечения.

Молекулярная динамика

Эти тесты также связаны с высокопроизводительными вычислениями, которые мы обсуждали ранее, и вычислительная гидродинамика также затрагивалась там, но мы выделили их в отдельный раздел, поскольку их оказалось значительное количество.

Показать исходные данные

CloverLeaf представляет собой гидродинамическое тестирование, основанное на методе Лагранжа-Эйлера, с применением OpenMP для параллельной обработки на многопоточных процессорах. В качестве основы взят упрощенный расчет clover_bm, и тест выдает время его выполнения в секундах. Влияние подсистемы памяти на результаты теста весьма заметно: разница между режимами работы DDR5-памяти с разным количеством каналов составила 68%.

Phytium D3000 вновь продемонстрировал свои возможности – его производительность заметно превосходит показатели других китайских процессоров, и не только их. Loongson 3A6000 оказался медленнее на 2,3 раза, а Kirin 9000C и Zhaoxin KX-7000 – на 72%, что является существенной разницей. Сравнительный анализ одноканального и двухканального режимов памяти показывает, что именно ПСП обеспечило столь высокую эффективность процессора Phytium. Сегодняшний испытуемый процессор даже превзошел Ryzen 5 1500X на 13%, и лишь Core i3-12100 смог обогнать его почти в полтора раза – в любом случае, это впечатляющий результат для процессора китайского производства.

Показать исходные данные

Dolfyn служит эталоном для оценки эффективности современных подходов к численному моделирования потоков жидкости и газа с использованием вычислительной гидродинамики (CFD). Тест определяет время, необходимое для работы демонстрационных программ вычислительной гидродинамики, предоставляемых вместе с ним, и отображает время, затраченное на проведение расчетов. На результаты данного теста не оказывают влияния технологии параллельной обработки данных (ПСП), определяющими факторами являются тактовая частота центрального процессора и возможности его вычислительных ядер.

В данном тесте Phytium D3000 демонстрирует не лучшие результаты, уступая китайскому Kirin 9000C примерно на 16%. Другие протестированные CPU оказались еще медленнее: Loongson 3A6000 – на 8%, а Zhaoxin KX-7000 – почти на 25%. При сопоставлении процессора Phytium с западными аналогами, он также уступает обоим, демонстрируя производительность, которая в более чем в два раза ниже, чем у Core i3-12100, а процессору AMD он проигрывает на 30% и более. Таким образом, по числу инструкций, выполняемых за такт, в этом тесте D3000 едва достигает уровня Zen 1, в то время как процессоры Intel значительно превосходят его.

Показать исходные данные

Large-scale Atomic/Molecular Massively Parallel Simulator (LAMMPS) — это программный пакет для классической молекулярной динамики, предназначенный для проведения сложных вычислений. Для работы на многопроцессорных системах используется интерфейс MPI, который не был успешно запущен на платформе Kylin. В качестве тестового примера нами была выбрана модель белка Родопсина. Зависимость от пропускной способности памяти в данном бенчмарке присутствует, однако, согласно результатам текущих и предыдущих исследований, она незначительна.

Этот тест произвел на нас эффект, пожалуй, сильнее, чем любой другой. Ожидаемо, ARM-процессор Kirin 9000C продемонстрировал здесь крайне невысокий результат, поскольку однокристальная система HiSilicon обладает вдвое меньшим объемом памяти, который невозможно расширить. Однако и другие два китайских процессора оказались медленнее Phytium — Loongson 3A6000 уступил ему более чем на 90%, а Zhaoxin KX-7000 — на 30%. Кроме того, Ryzen 5 1500X оказался на 73% медленнее, и это еще не полный перечень. Даже Core i3-12100, наш постоянный лидер в сравнении, работая на более высокой частоте, не смог обогнать Phytium D3000, показав практически тот же результат, что свидетельствует о хорошем уровне инструкций за такт у китайского продукта в подобных условиях.

Показать исходные данные

Livermore Unstructured Lagrangian Explicit Shock Hydrodynamics (LULESH) представляет собой трехмерное неструктурированное гидродинамическое моделирование Лагранжа, предназначенное для решения стандартной аналитической задачи Седова. Ранее влияние предварительной обработки (ПСП) на производительность было незначительным на некоторых системах, однако в текущей ситуации она оказывает существенное воздействие, проявляющееся в 53% разницы в производительности при использовании одно- и двухканальной DDR5-памяти.

Результаты научных тестов Phytium D3000 продолжают впечатлять, и в данном испытании китайский процессор вновь демонстрирует выдающиеся результаты, занимая лидирующие позиции в абсолютном выражении. Нельзя было бы считать это незначительным эпизодом, если бы не то, что Kirin 9000C также столкнулся с трудностями из-за ограниченного объема памяти, но и остальные центральные процессоры оказались позади Phytium — Loongson 3A6000 работает в 4,5 раза медленнее D3000, а Zhaoxin KX-7000 уступает на целых 73%. Причина кроется не только в объеме памяти, даже при использовании одноканального режима Phytium занимает первое место, опережая, в том числе и Core i3-12100. Текущий объект анализа вдвое быстрее работающего на полную мощность процессора Intel и в 3,6 раза быстрее Ryzen 5 1500X — в этом тесте Phytium превосходит по показателю количества инструкций и по общей производительности.

Показать исходные данные

Pennant – это приложение, предназначенное для расчета гидродинамики на неструктурированных сетках в двумерном пространстве. Оно включает в себя два отдельных подтеста, время работы которых фиксируется в секундах. При этом, в обоих подтестах, пропускная способность памяти оказывает значительное влияние на результаты: использование двухканального режима работы памяти обеспечило увеличение производительности на 58–59% по сравнению с одноканальным.

Некоторые могли посчитать, что выдающийся результат в предыдущем тесте был случайным, однако это не так. В задачах, связанных с обработкой больших объемов информации, Phytium D3000 демонстрирует превосходные показатели, чему способствует наличие большого дополнительного L4-кэша. Kirin 9000C можно исключить из рассмотрения, поскольку причиной его неудовлетворительных результатов стал дефицит оперативной памяти в 8 ГБ, однако и другие китайские процессоры уступают D3000 по производительности — Loongson 3A6000 показал результаты в 2,2 и 2,3 раза хуже в первом и втором подтесте, а Zhaoxin KX-7000 — в 2,5 и 1,5 раза, соответственно.

Ryzen 5 1500X, выступающий в роли ближайшего западного аналога, также уступает Phytium D3000: на 47% в тесте sedovbig и на 42% в leblancbig. Core i3-12100 демонстрирует меньшую производительность в первом тесте на 7%, но опережает во втором на 37%, что связано с различием в тактовых частотах этих процессоров. В ходе следующего этапа тестирования, с учетом разницы в частотах, Phytium показал наилучший результат по числу выполненных инструкций за такт, а также одержал победу в одном из двух подтестов в абсолютных значениях.

Показать исходные данные

Завершаем обзор раздела последним тестом. Incompact3d — это эффективный код, написанный на Fortran-MPI, предназначенный для решения системы уравнений Навье-Стокса, описывающих течение несжимаемой жидкости. Мы используем наиболее простую конфигурацию с 129 ячейками на направление, и время расчета отображается в секундах. Влияние подсистемы памяти (ПСП) остается значительным, и подключение второй планки DDR5-памяти позволило увеличить производительность на 64%.

Неудовлетворительные показатели Kirin 9000C исключены из рассмотрения. Предыдущий опыт использования китайского процессора с 8 ГБ встроенной памяти показал, что подобная конфигурация не обеспечивает достаточную производительность для ресурсоемких задач, и требуется не менее 16 ГБ. Phytium D3000 же, как обычно, продемонстрировал отличные результаты, обогнав всех конкурентов. Loongson 3A6000 на 77% уступает ему по скорости, а Zhaoxin KX-7000 – на 42% (в одноканальном режиме D3000 потерпел бы поражение).

Западные центральные процессоры потеряли свою прежнюю привлекательность: Ryzen 5 1500X проиграл китайскому аналогу более чем на 35%, а Core i3-12100 оказался быстрее лишь на четверть. Если учесть разницу в тактовых частотах, показатели IPC процессоров Phytium и Intel в данном тесте сопоставимы. Стоит отметить, что западные процессоры разрабатывались и производились в течение многих лет, в то время как в настоящее время в продаже доступны значительно более производительные модели.

Машинное обучение

Невозможно было не затронуть актуальную тему ресурсоемких вычислений, которые связаны с машинным обучением. В этом разделе представлено всего два теста, однако они представляют интерес, даже если для подобных вычислений все чаще применяются графические процессоры, демонстрирующие более высокую эффективность в таких задачах, хотя и универсальные центральные процессоры также находят свое применение.

Показать исходные данные

NumPy (Numerical Python) — это математическая библиотека с открытым исходным кодом для языка программирования Python. Она обеспечивает поддержку многомерных массивов, включая матрицы, и предоставляет высокоуровневые математические функции для работы с ними. К сожалению, в ходе тестирования процессоры Phytium и Huawei столкнулись с проблемой: операционная система UOS не позволила установить этот бенчмарк, либо он может быть несовместим с ARM-ядрами.

Показать исходные данные

Остается последний тест, лучше всего подходящий для данного раздела. TNN — это кроссплатформенная платформа глубокого обучения с открытым исходным кодом, разработанная компанией Tencent. Она отличается высокой производительностью и легко масштабируется от мобильных устройств до мощных серверов и GPU-систем. В целях упрощения мы использовали только две модели из четырех, представленных в бенчмарке. На диаграмме отображено время выполнения тестовой задачи, и зависимость скорости от ПСП в данном случае отсутствует.

Процессор Phytium D3000, рассмотренный сегодня, продемонстрировал результаты, заметно уступающие тем, что наблюдались в предыдущих задачах высокопроизводительных вычислений. Несмотря на то, что он превзошел Zhaoxin KX-7000 на 17%-23%, в отдельных подтестах Loongson показал большую скорость (на 4%), а в других – уступал на 26%. Kirin 9000C, в свою очередь, неожиданно хорошо проявил себя, превзойдя результаты других китайских процессоров в задачах HPC. Он оказался быстрее Phytium на 12% и 44% в двух подтестах. Очевидно, что и западные процессоры демонстрируют более высокую производительность: Ryzen 5 1500X обогнал D3000 на 32% в обоих подтестах, а Core i3-12100 в этом бенчмарке оказался быстрее в 2,2-2,5 раза.

Энергопотребление

Прежде всего стоит отметить, что информация об энергопотреблении Phytium D3000 представлена в ознакомительных и номинальных целях. Она не отличается высокой точностью, поскольку это не высокопроизводительный процессор с потреблением энергии в сотни ватт, а решение начального уровня, если говорить о современных стандартах. Тем не менее, даже в данном случае сложно дать точную оценку практического потребления, исходя из установленного расчетного значения тепловыделения (TDP). Пиковое энергопотребление той модификации, которую мы использовали в ходе тестирования, согласно данным из BIOS, составляет 70 Вт, однако в реальных условиях он не приблизился к этому значению.

У более мощных процессоров Intel и AMD (в меньшей степени) показатели TDP зачастую ниже фактического энергопотребления центрального процессора. Это связано с технологиями динамического повышения тактовой частоты и напряжения, позволяющими кратковременно превышать номинальные значения. В то же время, более простые процессоры западных производителей нередко не достигают даже максимального уровня TDP. На эти показатели влияют предельные значения частоты, температурные характеристики и другие факторы. При этом производители материнских плат стремятся увеличить допустимые значения потребления и напряжения, чтобы их продукция была на 2-3% быстрее, чем у конкурентов.

Если рассматривать китайские процессоры с невысокой производительностью, ситуация оказывается более понятной: наши практические тесты продемонстрировали, что их частота, как правило, ниже заявленной в спецификациях и редко превышает максимальные 2,5 ГГц для Phytium D3000 при любой рабочей нагрузке. Это еще одно отличие от современных процессоров AMD и Intel, которые в однопоточном режиме способны работать на более высоких частотах, а при максимальной нагрузке на все ядра она может снизиться для соответствия лимитам тепловыделения. Китайские процессоры с умеренным энергопотреблением функционируют без каких-либо сложностей.

Показать исходные данные

Для оценки эффективности тестовых систем, оснащенных процессорами, перечисленными в таблице, было проведено сравнение данных энергопотребления. Измерения производились в трех различных условиях: в состоянии покоя, при воспроизведении видеоматериалов высокой четкости и при максимальной нагрузке. Для создания нагрузки в последнем сценарии использовались самые требовательные приложения из набора, а именно математические задачи. Воспроизведение видео осуществлялось с помощью встроенного медиапроигрывателя, использующего видеоролик с разрешением 1920×1080 пикселей в формате H.264, который способен создавать нагрузку как на видеокарту, так и на центральный процессор.

Мы проводим сравнение системы на базе Phytium D3000 с точки зрения энергопотребления с двумя персональными компьютерами, использующими китайские процессоры, и системой, построенной на базе Core i3-12100. В состоянии покоя персональные компьютеры с китайским процессором потребляют практически столько же энергии, сколько и система с процессором Intel, а Loongson 3A6000 – немного меньше. Заявленная разница не столь значительна, и уже сам факт достижения экономичного режима компанией Phytium является положительным моментом, в отличие от Zhaoxin, где система на процессоре KX-7000 в режиме простоя потребляет избыточное количество энергии – почти в два раза больше, чем D3000.

При работе в режиме повышенного энергопотребления при выполнении научных вычислений были получены любопытные данные: система, построенная на базе процессора Phytium, продемонстрировала наилучшую экономичность. Разницу в 86 Вт против 70 Вт для ПК на базе процессора Intel можно легко объяснить, поскольку процессор Intel обычно значительно превосходит китайский аналог по производительности. Однако энергопотребление Loongson 3A6000 в 74 Вт указывает на высокую энергоэффективность Phytium D3000. А вот Zhaoxin KX-7000 потребляет 112 Вт – этот китайский процессор оказался самым энергозатратным, что не удивительно, учитывая его фактическое потребление в пределах 95-100 Вт только для одного ядра.

При воспроизведении видеороликов система, использующая процессор Loongson, показала себя достаточно хорошо, поскольку часть операций с видеоинформацией обрабатывается с помощью выделенных аппаратных ускорителей. Аналогичный результат продемонстрировала система с процессором Phytium, которая, не обладая встроенным графическим ускорителем, использует внешнюю видеокарту, что повлекло за собой незначительное увеличение энергопотребления – до 48 Вт. Это всё равно лучше, чем 60 Вт у Core i3-12100 и особенно 73 Вт для системы с процессором Zhaoxin. Таким образом, система на базе китайского процессора Phytium и в этом режиме подтверждает свою хорошую энергоэффективность, чему способствует, среди прочего, внешняя видеокарта, произведенная дочерней компанией Zhaoxin.

В основном, можно утверждать, что Phytium D3000 демонстрирует меньший уровень энергопотребления по сравнению с другими протестированными процессорами, за исключением Loongson 3A6000, показатели которых весьма сопоставимы. Однако, представленный процессор практически всегда демонстрировал более высокую производительность во всех задачах, что указывает на его превосходную энергоэффективность в сравнении с китайским CPU. Система, основанная на Zhaoxin KX-7000, характеризуется значительно более высоким энергопотреблением во всех режимах, и в тестах она редко показывала заметно более высокую скорость, поэтому и в этом отношении D3000 оказывается более эффективным. Сравнение с Core i3-12100 по этому параметру представляет собой более сложную задачу, поскольку процессор Intel почти всегда был быстрее, и нередко его преимущество достигало двукратного и более, что позволяет предположить, что в среднем он несколько энергоэффективнее китайского CPU. Тем не менее, среди процессоров, произведенных в Китае, именно Phytium показал себя наилучшим образом.

Несмотря на скромные показатели энергопотребления, разработчики Lenovo всё же предпочли использовать более продвинутую систему охлаждения, чем та, что была реализована в компьютерах на базе процессора Loongson 3A6000, а также в ПК с Kirin 9000C, где применялись более скромные кулеры. Учитывая показатели энергопотребления и температурный режим, это решение, вероятно, было принято в качестве меры предосторожности, поскольку система охлаждения обладает ощутимым резервом мощности. Не стоит ожидать значительного перегрева от подобных систем, использующих простые кулеры и не предназначенных для работы на пиковых нагрузках.

Согласно данным встроенного датчика и системы мониторинга, в реальных условиях процессор Phytium D3000 демонстрировал нагрев до 65 градусов, что несколько превышает 60 градусов, зафиксированных для процессора Loongson 3A6000 при аналогичной нагрузке, однако эта разница незначительна. Подобный нагрев сопоставим с результатами, полученными при тестировании ПК на базе Kirin 9000C, в то время как Zhaoxin KX-7000, даже с применением более эффективной системы охлаждения, разогревался до 79 градусов, что уже ближе к показателям современных западных процессоров, требующих интенсивного охлаждения. В случае с Phytium на этот параметр можно не обращать внимания, поскольку перегрева тестируемому китайскому процессору не предвидится, и стандартного воздушного кулера вполне достаточно для его эффективного охлаждения.

Выводы

Наши тесты и небольшой опыт работы с системой, основанной на процессоре Phytium D3000, позволили составить достаточно положительное впечатление об этом китайском продукте. Несмотря на то, что производительность рассматриваемого CPU не слишком высока по сравнению с западными процессорами даже десятилетней и более давности, D3000 всё же лучше других китайских процессоров подходит для простых задач, таких как просмотр веб-страниц, обычная работа на ПК в домашних и офисных условиях. Кроме того, при решении более сложных задач, например, при обработке изображений и видеоданных, он, как правило, превосходил аналогичные решения китайского производства.

Процессор Phytium не достиг значительных успехов по сравнению с другими китайскими процессорами для настольных ПК и демонстрировал нестабильные результаты, порой незначительно обгоняя, а порой и отставая от аналогов, разработанных в Китае. Однако именно модель D3000 показала более высокую производительность в ряде задач высокопроизводительных вычислений (HPC), а также в практических приложениях, таких как сжатие данных и видеокодирование, превосходя другие китайские центральные процессоры, основанные на различных архитектурах. Улучшенные результаты во многих тестах из областей научных и высокопроизводительных вычислений обусловлены как оптимизированной архитектурой собственных ARM-ядер, так и наличием дополнительного L4-кэша, который повышает эффективность работы с оперативной памятью и важен для подобных задач.

По результатам тестирования вычислительные ядра также демонстрируют хорошие характеристики. Если ядра FTC663, на которых базировалась предыдущая модель D2000, сложно назвать успешным и полностью оригинальным решением компании, поскольку это модернизированные ядра Cortex A72, то в FTC862 специалистам Phytium удалось добиться заметного повышения производительности за счет внедрения микроархитектурных усовершенствований – конкретные детали этих изменений, к сожалению, неизвестны, однако увеличение скорости вычислений очевидно. Эти оптимизации пока недостаточны для того, чтобы назвать D3000 конкурентоспособным продуктом на мировом рынке, однако для текущего этапа развития микроэлектронной индустрии Китая этого вполне достаточно. Phytium D3000 стал как минимум самым мощным ARM-процессором китайского производства, предназначенным для настольных ПК, и одним из самых мощных CPU, занимающих схожую нишу – зачастую он превосходит не только Loongson, но и разработки Huawei, а также x86-совместимый Zhaoxin, работающий на более высокой частоте и потребляющий больше энергии.

Оценивая производительность, можно заключить, что в ядрах Phytium D3000 устранены некоторые ограничения старого ядра FTC663 на базе Cortex A72. ARM также внесла соответствующие исправления в своих последующих разработках. Ядра Neoverse N1 и N2 существенно отличаются от предшественника и имеют больше общих черт с высокопроизводительными настольными процессорами Intel и AMD: улучшен предсказатель ветвлений, реализована оперативная обработка ветвлений с предварительной выборкой кода, снижена задержка кэшей и так далее. Инженеры ARM оптимизировали распределение площади кристалла и количество транзисторов в наиболее критичных областях, и специалисты Phytium в FT862 поступили аналогичным образом, устранив ряд узких мест, что и стало причиной заметного повышения вычислительной эффективности D3000.

В конечном итоге, по результатам тестов и количеству выполняемых инструкций за такт Phytium D3000 в среднем не уступает процессорам Zen первого поколения – в наших измерениях он часто демонстрировал результаты, сопоставимые с Ryzen 5 1500X, работающим на более высокой тактовой частоте, и нередко превосходил его. Таким образом, этого китайского процессора достаточно для решения большинства простых задач, поскольку процессоры Zen первого поколения по-прежнему остаются работоспособными и широко используются. Кроме того, в отличие от других китайских центральных процессоров, он показал хорошие результаты и в задачах, требующих высокой производительности. По крайней мере, его показатели практически сравнялись с показателями Ryzen 5 1500X, созданного по техпроцессу 14 нм. Важно не забывать о специфических оптимизациях, необходимых для работы с дополнительными наборами инструкций и достижения максимальной производительности.

Phytium, компания, взаимодействующая с вооруженными силами Китая и пользующаяся государственной поддержкой, стремится уменьшить зависимость от западных высокопроизводительных микропроцессоров, и процессор D3000 способствует решению этой задачи. Это лишь первоначальный этап на пути к достижению цифрового суверенитета. Данное решение не может быть экономически целесообразным в ближайшем будущем, поскольку создание и производство мощных процессоров – процесс чрезвычайно сложный и требующий значительных финансовых вложений и временных затрат. В настоящее время Китай направляет внушительные средства для приобретения собственного опыта и формирования перспективных возможностей. Необходимо продолжать работу над устранением существующих ограничений и наращиванием потенциала, чтобы их центральные процессоры соответствовали требованиям и могли использоваться в более ресурсоемких задачах.

В настоящее время производительность китайских процессоров также достаточно высока, особенно если принимать во внимание трудности, с которыми столкнулись все отечественные предприятия из-за американских санкций. Они не имеют возможности применять передовые западные производственные мощности, такие как тайваньская TSMC, и вынуждены использовать менее совершенные технологические процессы SMIC и другие немногочисленные китайские фабрики. Эти предприятия лишены возможности приобретать современное EUV-оборудование, необходимое для массового производства кремниевых пластин в больших объемах. Поэтому все производители используют более старые варианты оборудования, что увеличивает стоимость выпуска чипов. Вероятно, китайские специалисты работают над улучшением технологических процессов, но пока это не позволяет начать серийное производство микроэлектронных компонентов.

Несмотря на это, процессор Phytium Feiteng D3000 продемонстрировал, что технологические ограничения, введенные США и другими западными странами, хоть и затрудняют развитие микроэлектроники в Китае, но и стимулируют разработку независимых решений. Процессор показал весьма достойную производительность для китайского центрального процессора, при этом он базируется на ARM-ядрах собственной разработки, которые также применяются и в других процессорах компании. Благодаря высокой производительности и уникальным технологическим характеристикам, серверные процессоры Tengyun S5000C в прошлом году достигли отметки о выпуске более 10 миллионов процессоров, в то время как в 2020 году было продано 1,5 млн. чипов, а в 2019 – всего 0,2 млн. Очевидно, что 80% этих решений было ориентировано на государственные предприятия. Мы надеемся, что значительные государственные инвестиции и острая внутренняя конкуренция между китайскими микропроцессорами будут побуждать производителей к созданию более совершенных решений, и хотя китайской микропроцессорной индустрии намеренно создают препятствия, этот процесс, безусловно, набирает обороты.

Похожие статьи