Тестирование китайского процессора Zhaoxin KaiXian KX-7000 в Linux: первая часть

Возвращаясь к нашей серии обзоров китайских процессоров, стоит отметить их специфическую особенность и относительно ограниченную доступность за пределами Китая. Большинство пользователей привыкли к настольным компьютерам и ноутбукам, использующим процессоры Intel и AMD на базе архитектуры x86, однако мы уже изучили несколько китайских процессоров, основанных на альтернативных вычислительных архитектурах, таких как Loongson 3A6000 на собственной архитектуре и Huawei Kirin 9000C на базе ARM. Не сказать, чтобы они нас сильно впечатлили на фоне западных аналогов, но всё же они достойны внимания уже только из-за того, что это полностью китайские продукты, минимально использующие западные разработки и технологии — насколько это возможно. Позднее мы еще рассмотрим процессор Phytium на базе ARM, а по возможности и другие решения, но сегодня у нас на обзоре еще более интересный процессор компании Zhaoxin.

В предыдущих материалах мы отмечали растущую популярность процессоров, использующих архитектуры, отличные от x86(-64). Это связано с тем, что ARM достиг необходимого уровня производительности и функциональности, а китайские компании добились прогресса в разработке и производстве собственной микроэлектроники, включая новые вычислительные архитектуры. Китай инвестирует значительные ресурсы в отечественные компании, чтобы уменьшить зависимость от западных полупроводников и потенциально достичь технологической независимости. Причиной этого стали введенные США санкции, которые ограничивают продажу определенных западных чипов, передачу технологий их производства и само производство на современных предприятиях микроэлектроники.

Китай постепенно наращивает свой потенциал, направляя средства в компании, занимающиеся разработкой и выпуском микроэлектроники, хотя их возможности пока уступают лидерам мировой индустрии. Тем не менее, китайское правительство поэтапно заменяет процессоры Intel и AMD отечественными решениями в государственных организациях и телекоммуникационной инфраструктуре, применяя собственные программные и аппаратные комплексы на базе китайских процессоров. Несколько лет назад Китай начал программу по созданию собственных процессоров, которая трансформировалась в кампанию, направленную на обеспечение 70% потребности страны в чипах к текущему году. Эта инициатива была запущена еще до начала торговой войны, однако США уже тогда препятствовали попыткам Китая получить передовые разработки и оборудование для производства чипов, и позднее ситуация обострилась до введения полных запретов. Тем не менее, китайские производители полупроводников, включая SMIC и другие, продолжают совершенствоваться, но санкции, введенные США, существенно затруднили этот процесс, отбросив китайских разработчиков на несколько лет назад в освоении самых современных технологий производства микроэлектроники.

За прошедшие годы Китай создал ряд предприятий в сотрудничестве с частными инвесторами, что позволило им получить доступ к западным технологиям. Так, в 2016 году компания AMD заключила соглашение с Hygon, китайским производителем процессоров Dhyana, основанных на архитектуре Zen первого поколения. В тот период AMD смогла решить юридические вопросы, передав лицензию на архитектуру китайской компании. Произведенные в Китае серверные процессоры оказались практически идентичными чипам EPYC, за исключением некоторых особенностей в аппаратной реализации, в частности, поддержки китайских криптографических стандартов. Несмотря на то, что процессоры Hygon не могут соревноваться с современными решениями от AMD и Intel из-за устаревания архитектуры Zen 1, их китайские аналоги оказались еще менее совершенными. Однако впоследствии эти разработки были ограничены: в июне 2019 года американские власти включили компанию в перечень санкций, запретив приобретение американского оборудования и технологий. Вследствие этого были прекращены контакты с GlobalFoundries, которая занималась производством этих процессоров.

Благодаря значительным инвестициям государства, в Китае возникло несколько компаний, однако почти все они использовали архитектуры, отличные от x86: Huawei применяла привычную ARM, аналогичное решение было принято компанией Phytium Technologies, а Loongson внедрила собственные разработки на базе MIPS. Несмотря на преимущества других наборов команд, полноценной замены для повсеместного распространения процессоров x86-64 пока нет, поэтому подобные решения остаются востребованными. В связи с этим, для китайского рынка особенно интересен x86-совместимый процессор Zhaoxin KaiXian KX-7000, который мы сегодня изучим. Он получил широкую поддержку со стороны индустрии, компании Lenovo и HP представили системы на базе Zhaoxin для китайского рынка, включая настольные компьютеры, ноутбуки и серверы. Поддержка крупных, а также менее известных производителей, способствует реализации китайских планов по переходу всех государственных и общественных учреждений на отечественное оборудование и программное обеспечение.

Как вообще Zhaoxin смогла создать столь передовые решения, учитывая, что разработать конкурентоспособный продукт с нуля, даже с учетом ограничений внутреннего китайского рынка, представляется сложной задачей? Причина заключается в том, что Zhaoxin (Shanghai Zhaoxin Semiconductor) – китайская компания, не имеющая собственных производственных мощностей, была создана в апреле 2013 года как совместное предприятие VIA Technologies и венчурной компании правительства Шанхая Shanghai Alliance Investment Ltd, владеющей 19,9% акций против 80,1% у VIA (по некоторым сведениям, первоначально доля VIA составляла 14,75%). Мы далее рассмотрим эти детали более детально, однако ключевым моментом является то, что VIA передала китайской стороне ряд готовых разработок, связанных с процессорами, совместимыми с x86-64.

Компания последовательно представляла новые процессоры, большая часть которых оставалась на китайском рынке. В декабре 2023 года Zhaoxin объявила о выпуске нового поколения настольных процессоров KaiXian KX-7000, разработанных собственными силами. Процессоры этой серии основаны на фирменной микроархитектуре Century Avenue и используют чиплетную конструкцию, а их вычислительная мощность увеличена вдвое по сравнению с процессорами предыдущего поколения. Микроархитектура включает в себя усовершенствованные исполнительные блоки и механизмы приоритетной обработки, а также оптимизации в системе управления памятью и кэшированием. Процессоры KaiXian KX-7000 оснащены восемью ядрами с максимальной рабочей частотой до 3,7 ГГц, что является наивысшим показателем для китайских процессоров, созданных для настольных компьютеров.

Настольные процессоры линейки KX-7000 оснащены встроенной графикой, которая в четыре раза превосходит по производительности предыдущую модель. Она обеспечивает аппаратное декодирование видео в формате H.265 и позволяет выводить изображение на два дисплея с разрешением 4K. Процессоры новой серии также получили полностью переработанный интерфейс ввода-вывода и совместимы с двухканальной памятью DDR5 объемом до 128 ГБ, до 24 каналов PCIe 4.0, два порта USB4 и другие современные высокоскоростные интерфейсы. Этот набор функций выглядит современно и конкурентоспособно, однако перед тем, как перейти к тестированию и подвести итоги, давайте немного подробнее рассмотрим историю компании и ее процессоры.

История компании и поколения процессоров

Китайские компании адаптировали процессоры, разработанные на базе наиболее востребованных архитектур, однако, несмотря на значительный прогресс Китая во многих областях, проектирование и производство микропроцессоров в этой стране долгое время не занимали лидирующих позиций. Этому способствовало множество факторов, среди которых ключевым была стратегия глобализации, предполагавшая специализацию на отдельных видах продукции при одновременной закупке всего остального у других компаний. В конечном счете, такая модель оказалась неэффективной, и китайским производителям пришлось переходить к самостоятельному производству всех компонентов, необходимых для достижения реальной, а не кажущейся независимости. К ним, как можно было ожидать, относятся и процессоры для мобильных устройств и настольных компьютеров. Несколько лет назад Соединенные Штаты Америки ввели санкции, ограничивающие поставки в Китай передовых вычислительных технологий, включая сами процессоры и, особенно, оборудование для производства полупроводников, что существенно сдерживает возможности Китая (и других государств) в получении собственных высокопроизводительных процессоров.

В Китае долгое время отсутствовали собственные центральные процессоры, способные конкурировать на достойном уровне, особенно это касается x86-совместимых решений, которые выигрышны благодаря широкой базе операционных систем и программного обеспечения. В Китае действительно были собственные разработки в области CPU, однако они, как правило, базировались на архитектуре RISC. Intel и AMD, по сути, остаются основными игроками на рынке процессоров, совместимых с x86, и контролируют значительную долю процессорного рынка во всем мире. Ранее на рынке существовали и другие производители процессоров, совместимых с x86, однако они не смогли выдержать конкуренцию с двумя упомянутыми компаниями, которые и поделили рынок между собой.

В настоящее время лишь одна китайская компания, Zhaoxin, производит x86-совместимые процессоры, помимо Intel и AMD. Хотя формально существуют еще процессоры Hygon, они базируются на ядрах Zen от AMD в модифицированной китайской версии, поэтому мы не рассматриваем их. Разработки Zhaoxin, напротив, опираются на интеллектуальную собственность компании Centaur Technology, которая ранее была дочерней компанией тайваньской VIA Technologies. Примечательно, что впоследствии сотрудники Centaur Technology перешли в Intel, а VIA Technologies продала часть своих прав на x86-процессоры, чипсеты и GPU компании Zhaoxin, в результате чего эта китайская компания стала третьим разработчиком x86-совместимых процессоров, дополняя известную пару лидеров рынка.

Люди старшего поколения хорошо помнят компанию VIA Technologies, которая когда-то была одним из производителей x86-процессоров. В 1999 году компания дебютировала на рынке, получив ее в результате поглощения Cyrix и Centaur Technology. Процессоры Centaur Technology выпускались под марками С3 и С7. В дальнейшем компания разработала новую архитектуру Isaiah с поддержкой набора инструкций x86-64 и выпустила на ее основе процессор Nano, однако он не получил широкого признания. Эпоха процветания VIA подошла к концу, компания оказалась на грани банкротства и начала сотрудничество с правительством Шанхая. Вместе они основали компанию Zhaoxin, передав ей ряд патентов, включая разработки в области графики, чипсетов и, что сейчас представляет наибольший интерес, архитектуры ядер процессоров VIA Isaiah, на которых базировались первые решения Zhaoxin. В 2013 году совместное предприятие начало свою работу, предоставив китайской стороне доступ к интеллектуальной собственности VIA – микроархитектуре Centaur Technology и лицензии на x86 ISA.

В 2014 году компания Zhaoxin представила свой первый процессор ZX-A, это был, по сути, перемаркированный двухъядерный VIA Nano X2, основанный на микроархитектуре Isaiah и работающий на частоте 1,6 ГГц. Компания VIA разрабатывала это решение в период с 2010 по 2011 год, и оно было рассчитано на производство по 40 нм техпроцессу. Место производства ZX-A точно не установлено, однако VIA вела переговоры о размещении производства на мощностях TSMC. Модель же ZX-B была специальной версией этого же CPU, предназначенной для производства на фабрике китайского полупроводникового производителя Shanghai Huali Microelectronics Corporation (HLMC). Подобный ход с перемаркировкой позволил китайской компании не только быстро перейти на технологии VIA, но и быстро начать их модернизацию — естественно, что они рассчитывали не просто производить решения по наследству от VIA, но и делать в дальнейшем свои собственные решения на их основе.

В 2015 году был представлен процессор ZX-C, процессор, созданный на базе разработок команды Centaur — Isaiah II, включая VIA QuadCore-E и Eden X4, получил название ZhangJiang от компании Zhaoxin. В микроархитектуру были внесены изменения, в том числе поддержка китайских алгоритмов шифрования SM3 и SM4, а также увеличено число ядер с четырех до восьми. Производство осуществлялось по 28 нм техпроцессу на фабрике TSMC, после чего также было перенесено на китайскую фабрику HLMC.

В 2016 году были представлены процессоры ZX-C+ — это были те же самые ZX-C, но теперь их можно было упаковывать по 1-2 кристалла в формат BGA. Также в этих решениях был исключен Socket 370, и процессоры необходимо было припаивать непосредственно к системным платам. Производство осуществлялось по тому же 28-нм техпроцессу HLMC, и процессоры включали 1-2 кристалла с 4 ядрами, что делало их 4- и 8-ядерными. Тактовая частота была увеличена до 2 ГГц, а процессор также содержал встроенное графическое ядро S3 Chrome 640/645 и был ориентирован на потребительские и офисные решения.

В 2017 году Zhaoxin представила процессоры ZX-D на основе новой архитектуры WuDaoKou, предназначенную для ноутбуков, настольных компьютеров и серверов. Это уже полностью переработанный вариант Isaiah, архитектура которого серьезно отличается от ранних решений Zhaoxin. Это уже полноценная система-на-чипе (SoC), в которую был включен северный мост и графический процессор на основе технологий S3 Graphics. Первым процессором этой архитектуры стал KX-5000, компания, ранее известная как ZX-D, пересмотрела систему наименований, отказавшись от префикса ZX и приняв обозначение изделий первыми буквами семейства: KX теперь обозначает KaiXian, а серверные процессоры KH — KaisHeng. В линейке настольных компьютеров планировался выпуск процессоров с четырьмя и восемью ядрами, функционирующих на частотах до 2 ГГц и оснащенных L2-кэшем объемом 4 или 8 МБ, то есть 1 МБ на каждое ядро.

В то же время была объявлена информация о серверных процессорах новой линейки KH-20000 (Первые чипы, разработанные компанией (KaisHeng) на базе идентичной микроархитектуры, получили обозначения KH-25800 и KH-26800. Для производства использовался тот же 28-нм технологический процесс HLMS. Каждый кристалл содержал до четырех ядер, северный мост был интегрирован в состав, повысилась эффективность межпроцессорного взаимодействия. Также были добавлены новое графическое ядро с поддержкой Direct X 11.1 и разрешением 4K, поддержка PCIe 3.0 и двухканальная память DDR4-2400 с ECC объемом до 128 ГБ. На момент выпуска эти процессоры выглядели достаточно конкурентоспособными, хотя и с некоторыми оговорками. Чипы серии KX-5000 имели от 4 до 8 ядер без поддержки одновременной многопоточности и предназначались для работы на частоте 2,0–2,4 ГГц. Они также поддерживали двухканальный доступ к DDR4-памяти и PCI-Express 3.0, имели встроенное графическое ядро и возможности ввода-вывода, включая SATA 6 Гбит/с и USB 3.1 Gen 2. Однако этот процессор был выпущен только в одном продукте Lenovo – M6200, который продавался исключительно в Китае, и не получил широкого распространения даже на китайском рынке.

В 2018-2019 годах Zhaoxin представила KX-6000 (ZX-E) и серверную линейку KH-40000 — семейства процессоров базируются на микроархитектуре LuJiaZui. Их производительность возросла в полтора раза, тактовая частота увеличена до 3 ГГц, а контроллер памяти теперь поддерживает DDR4-3200 вместо DDR4-2400. Производство этих процессоров уже осуществлялось с использованием 16 нм техпроцесса TSMC. Аналогичная технология применена и при выпуске серверных моделей KH-40000, которые представляют собой разогнанную версию KH-30000, также производимую по техпроцессу TSMC 16 нм. По вычислительной мощности новые процессоры Zhaoxin лишь приближались к устаревшим решениям Intel и AMD, хотя это уже можно считать приемлемым уровнем производительности, который позволил создать настольные компьютеры, ноутбуки и серверы, выпускаемые, в том числе, Lenovo и HP. Примечательно, что решения на базе процессора KX-6000 были представлены и в России: компания-производитель электроники «Дэнни» разработала системную плату MBX-Z60A, предназначенную для работы с процессорами KX-6640MA, а российская компания «Тонк» выпустила ноутбук ТОНК TN4004 на этом же CPU.

На 2021 год был запланирован выход процессоров семейств KX-7000 и KH-40000, Zhaoxin обещала поддержку DDR5 и PCIe 4 в настольных решениях, а также производство по техпроцессу 7 нм на TSMC. Однако именно тогда возникли трудности, что привело к тому, что новые решения вышли не только с задержкой, но и не совсем соответствовали первоначальным планам. Серверные процессоры KH-40000 были представлены в 2022 году. Они базируются на архитектуре Yongfeng и являются улучшенной версией предыдущего семейства серверных CPU, но имеют до 16 ядер и увеличенный объем L3-кэша — до 64 МБ. Чипы функционируют в двухпроцессорных системах и поддерживают расширенные наборы инструкций: SSE4.2, AVX и AVX2. Помимо этого, в KH-40000 интегрированы китайские национальные алгоритмы криптографического шифрования: SM2, SM3 и SM4 — это позволяет использовать эти CPU для государственных нужд, требующих повышенной безопасности. Изначально предполагалось, что Zhaoxin KH-40000 будут поддерживать DDR5-память и PCIe 4.0, а также производиться по 7 нм техпроцессу, однако сначала этому помешала пандемия, а затем и санкции США в отношении китайских разработчиков.

Нам же больше внимания уделяется настольным решениям, и в 2022 году одновременно с серверными был выпущен процессор KX-6000G, предлагаемый чип разработан специально для встраиваемых систем. Это энергоэффективный четырехъядерный процессор, построенный на базе архитектуры LuJiaZui, оснащен встроенным графическим ядром ZX C1080, поддерживающим графические API, такие как DirectX 12, OpenCL 1.2 и OpenGL 4.6, а также обеспечивающим вывод изображения через интерфейсы DP и HDMI, и имеющим аппаратное ускорение декодирования видео. Одной из особенностей решения является отсутствие L3-кэша, что позволило снизить энергопотребление, однако это негативно повлияло на производительность, которая и без того не отличалась выдающимися показателями. Тем не менее, данный чип предназначен для использования во встраиваемых системах, где приоритетным является энергоэффективность. Потребляемая мощность процессора KX-6000G варьируется в зависимости от частоты и составляет от 15 до 35 Вт. Его модификации применяются в планшетах, ноутбуках, тонких клиентах, терминалах и других встраиваемых устройствах.

Их было недостаточно для настольных компьютеров, поэтому все с нетерпением ожидали выхода KX-7000 — восьмиядерного процессора с поддержкой архитектуры x86, предназначенного для настольных компьютеров. Первоначально его появление было запланировано на 2021 год, однако первый и единственный восьмиядерный процессор этой серии был представлен только в декабре 2023 года. Готовые системы, основанные на нем, поступили в продажу весной 2024 года, когда компания Lenovo выпустила настольные компьютеры Kaitian P90z G1t. Процессор KaiXian KX-7000/8 стал доступен для самостоятельной сборки на китайском рынке с конца лета 2024 года, в комплекте с материнской платой.

В данном настольном процессоре производителю удалось внедрить поддержку оперативной памяти DDR5 и интерфейса PCIe 4.0. Однако, из-за санкций, введенных против китайских компаний и ограничивающих их доступ к передовым полупроводниковым технологиям, пришлось остаться на том же техпроцессе 16 нм. Это также не позволило увеличить частоту выше 3,2—3,7 ГГц, что потребовалось для достижения большей производительности, и привело к задержке выпуска продукта. В целом, процессор KX-7000 обладает достойными характеристиками: он оснащен встроенным графическим ядром ZX-C1190, которое поддерживает DirectX 12, OpenGL 4.6 и OpenCL 1.2, а также обеспечивает аппаратное кодирование и декодирование видео в разрешении 4K и распространенных кодеках H.265/H.264, с возможностью вывода изображения 4K через DisplayPort, HDMI и VGA. Поддерживаются китайские стандарты аппаратного шифрования SM2, SM3 и SM4, а также расширенные наборы инструкций SSE4.2, AVX, AVX2.

Особенности процессора KaiXian KX-7000

В настоящее время Zhaoxin KaiXian KX-7000 представляет собой один из наиболее привлекательных и инновационных китайских процессоров для настольных компьютеров. Это самый мощный процессор, совместимый с x86-64, который не был разработан компаниями AMD или Intel. В отличие от предыдущих моделей, которые имели четыре ядра на кристалл, новая версия оснащена удвоенным их количеством. При изготовлении процессора применялся усовершенствованный технологический процесс: Zhaoxin не сообщает конкретных данных о производстве, однако указывает, что оно осуществляется по нормам 16 нм, хотя изначально планировалось создание хотя бы основного кристалла ЦП на фабриках TSMC с 7-нм техпроцессом, вероятно.

Поговорим о кристаллах: в KX-7000, если сравнивать с предыдущими версиями, изменилась и архитектура — она стала многокристальной. Этот процессор включает в себя кристалл (или чиплет) с вычислительными ядрами ЦП и кэш-памятью, занимающий 78,6 мм², а также кристалл для ввода-вывода, в который интегрировано графическое ядро, площадью 151,8 мм². Кристалл ввода-вывода содержит контроллер памяти, поддерживающий стандарты DDR4-3200 и DDR5-4800 с объемом до 128 ГБ, а также встроенный графический процессор ZX C-1190 и контроллер SATA III, поддерживающий до четырех портов.

Новый процессор применяет архитектуру межсоединений ZPI 4.0, созданную компанией Zhaoxin, для объединения кристаллов. Она устанавливает связь между кристаллом с вычислительными ядрами и кристаллом ввода-вывода, формируя полноценный CPU из двух чиплетов. Благодаря этому, можно использовать идентичные кристаллы в различных решениях, что способствует ускорению разработки и снижению затрат. Чиплетная конструкция KX-7000 в целом аналогична решениям AMD, поскольку разделяет процессор на кристаллы с ядрами и кэшем (CCD) и кристалл ввода-вывода (IOD), включающий интегрированную графику и интерфейсы ввода-вывода.

Процессор KX-7000 использует чиплетную конструкцию, аналогичную ранним моделям AMD Ryzen, с одним кристаллом CCD. Компания планировала расширить линейку процессорами с увеличенным числом ядер, что благодаря чиплетной организации было бы вполне реализуемо – для 16-ядерного CPU потребовалось бы два кристалла с ядрами и один чиплет IOD. Однако эти планы не были воплощены в жизнь, хотя и представляли определенную перспективу. Ограничения могли быть связаны с максимальным энергопотреблением центрального процессора, которое оценивается примерно в 85-95 Вт. Установка двух CCD кристаллов, изготовленных по 16 нм техпроцессу, привела бы к значительному увеличению общего потребления энергии.

Рассмотрим особенности организации и функциональные возможности KaiXian KX-7000. Общий объем его L1-кэша равен 768 КБ (64 КБ на каждое ядро для инструкций и 32 КБ для данных), на каждом ядре установлено по 512 КБ L2-кэша (в сумме 4 МБ), а также имеется общий L3-кэш объемом 32 МБ. В процессорах Zhaoxin кэш третьего уровня впервые представлен, и в связи с его внедрением было принято решение уменьшить объем L2-кэша вдвое. Базовая частота вычислительных ядер составляет 3,2 ГГц, а максимальная – 3,6-3,7 ГГц. Однако, данная частота не достигается всеми ядрами одновременно: при многопоточной нагрузке два наиболее производительных ядра работают на частоте до 3,6 ГГц, остальные шесть – до 3,4 ГГц, что обеспечивает среднюю частоту в 3,45 ГГц. Стоит отметить, что ядра KX-7000 по-прежнему не поддерживают одновременную многопоточность (SMT), как и предыдущие разработки компании, и, таким образом, им не нужно догонять Intel, которая отказалась от этой технологии.

Процессор китайского производства совместим с памятью DDR4-3200 и DDR5-4800, работающей в двухканальном режиме, а общий объем поддерживаемой памяти достигает 128 ГБ. Контроллер памяти интегрирован в чип ввода-вывода, где же расположен и встроенный графический процессор ZX C1190, обеспечивающий поддержку DirectX 12, OpenCL 1.2, OpenGL 4.6 и Vulkan 1.1. Кроме того, в состав чипа входят аппаратные кодеки для декодирования видео в различных форматах, включая H.265, а вывод изображения осуществляется через интерфейсы HDMI, DisplayPort и VGA. Также в чипе ввода-вывода предусмотрены контроллеры с поддержкой 24 линий PCIe 4.0, 4 порта USB 3.2 Gen2 и один порт USB 4.

Какие изменения в архитектуре были сделаны в KX-7000 по сравнению с KX-6000? Чтобы полностью ответить на этот вопрос, мы снова обратимся к истории компании, опираясь на данные из общедоступных источников. После того, как VIA приобрела Cyrix и Centaur, в этих компаниях велась работа над несколькими ядрами. Cyrix разработала новое ядро Jalapeno, которое обеспечивало возможность одновременного выполнения двух инструкций за такт, поддерживало внеочередное исполнение и включало встроенный контроллер памяти Rambus DirectDRAM. Помимо этого, у них было и более простое ядро Cayenne (Joshua). А от Centaur VIA получила ядро Samuel, которое лучше всего подходило для создания маломощных и энергоэффективных процессоров, в которых VIA была заинтересована. Именно это ядро и его модификации были использованы в Cyrix III, впоследствии переименованном в C3, и далее в VIA C7.

В 2008 году ядро Samuel было заменено ядром Isaiah, и для VIA это решение с поддержкой внеочередного выполнения представлялось весьма амбициозным шагом. Изначально процессор выпускался по 65-нм техпроцессу Fujitsu, затем его производство было перенесено на TSMC с техпроцессами 40 нм и 28 нм, после чего процессор был переименован в Isaiah II. Эта дерзкая попытка VIA составить конкуренцию более производительным решениям AMD и Intel привела к определенной ошибке в стратегическом планировании — в то время конкуренты разработали собственные энергоэффективные архитектуры, которые были проще, чем Isaiah, но компенсировали это повышенной тактовой частотой и более эффективным использованием доступных ресурсов. В конечном итоге очередная попытка VIA побороться с лидерами рынка не принесла значительных успехов.

После создания совместного предприятия китайские специалисты приступили к работе с полученными активами и выпустили ZhangJiang — это слегка измененная версия ядра Isaiah II, главным отличием которой стало внедрение китайских алгоритмов шифрования SM3 и SM4. Более серьезные архитектурные доработки коснулись ядра WuDaoKou, где производительность за такт возросла на 25%, а в LuJiaZui скорость оказалась на 50% выше, чем у WuDaoKou (согласно данным компании Zhaoxin). Однако тактовая частота также увеличилась на 50%, поэтому не совсем ясно, какая часть прироста обусловлена повышением частоты, а какая – архитектурными усовершенствованиями.

По сравнению с Isaiah II, в LuJiaZui наиболее существенные изменения коснулись системы кэширования. Инженеры Zhaoxin уменьшили размер L1-кэша вдвое – с 64 КБ до 32 КБ. Сокращение объема кэша первого уровня позволило снизить энергопотребление и уменьшить площадь кристалла, однако это привело к снижению частоты попаданий в кэш L1 и увеличению обращений к L2-кэшу. В котором также были внесены изменения: если в Isaiah на каждое ядро приходилось 1 МБ L2-кэша, то в LuJiaZui используется 4 МБ общего кэша для четырехъядерного кластера – подобно архитектуре Zen 1 и Zen 2 от AMD. Данные изменения в L2-кэше повлекли за собой определенные негативные последствия – задержка L2 возросла с 20 тактов в Isaiah до 48 тактов в LuJiaZui. Это не самый оптимальный результат, учитывая, что L3-кэш Zen 1, обладающий вдвое большим объемом, имеет задержку в 35 циклов при работе на более высокой тактовой частоте.

В районе LuJiaZui уменьшили ширину декодирования с 3 (в Isaiah) до 2 команд, чтобы повысить тактовую частоту, сократить энергопотребление и уменьшить размер кристалла. В противном случае Zhaoxin не смогла бы создать восьмиядерный чип с приемлемыми параметрами энергопотребления и площадью кристалла. Более широкое ядро, работающее на более низкой тактовой частоте, не всегда демонстрирует лучшие результаты. Аналогичное решение для повышения энергоэффективности ранее применялось в процессоре ARM Cortex-A73 по сравнению с Cortex-A72, поэтому действия китайских разработчиков выглядят вполне обоснованными. В LuJiaZui также уменьшили объем буфера переупорядочивания ROB с 65 до 48 записей. Инженеры отказались от отдельных регистровых файлов в Isaiah и вернулись к схеме ROB+RRF, хотя современные высокопроизводительные процессоры обычно используют регистровые файлы, не связанные с ROB.

Можно утверждать, что WuDaoKou и LuJiaZui представляют собой не просто модифицированный Isaiah, а совершенно новый дизайн, включающий в себя определенные ограничения и перенастройку баланса. Это было сделано для достижения более высокой тактовой частоты, хотя и с небольшим снижением производительности за один такт. LuJiaZui – это ядро, разработанное с акцентом на энергоэффективность, а не на максимальную производительность. VIA Nano также отличался энергоэффективностью, но его архитектура была более совершенной, чем у последующих ядер, и в целом он был ближе к современным высокопроизводительным решениям, предлагаемым лидерами рынка.

Не менее важным для современных процессоров является их производительность, даже если она не максимальна, но достаточна для выполнения поставленных задач. Процессор LuJiaZui в виде KX-6640MA, несмотря на то, что был разработан для соперничества с более продвинутыми ядрами Intel и AMD, оказался недостаточно мощным и простым для этого – вычислительные ядра в нем были слишком слабо развиты для современных задач, даже для пользователя офисного ПК, обладали ограниченными возможностями, демонстрировали низкую производительность на такт, а тактовые частоты были значительно ниже 3 ГГц. Новые ядра Century Avenue, на которых основан рассматриваемый сегодня KaiXian KX-7000, должны были исправить хотя бы часть проблем, связанных с низкой производительностью китайских CPU.

Century Avenue представляет собой четырехконвейерное ядро, обеспечивающее поддержку внеочередного выполнения команд и инструкций AVX2, что по производительности сопоставимо с процессорами Intel, выпущенными 10–15 лет назад. Новое ядро архитектуры было увеличено в размере вдвое по сравнению с предыдущим поколением, многие внутренние задержки были уменьшены, а тактовая частота – повышена. Модель KX-7000 функционирует на частоте 3,2 ГГц, а версии KX-7000 способны работать на частотах до 3,6–3,7 ГГц, что значительно превышает 2,6 ГГц, характерные для процессора модели KX-6640MA.

KX-7000 извлекает инструкции из кэша инструкций, объем которого составляет 64 КБ. Этот кэш способен передавать по 16 байт за такт, подавая данные в 4-байтовый декодер. Архитектура Century Avenue не предполагает использование кэша операций или буферных циклов, и пропускная способность кэша инструкций может являться фактором, ограничивающим общую производительность. Значительное падение производительности наблюдается при выполнении кода за пределами кэша инструкций, а также при его переносе в L3-кэш – до менее чем 4 байта за такт. При этом даже процессор Skylake предыдущего поколения способен выполнять код из L2-кэша со скоростью более 12 байт за такт, обрабатывая более трех 4-байтовых инструкций за такт.

Три канала вычислительных устройств ALU осуществляют скалярные целочисленные операции, подобно Sandy Bridge с тремя портами ALU в четырехъядерном процессоре. Два из каналов ALU в Century Avenue оснащены целочисленными умножителями, а 64-битные целочисленные умножения выполняются с задержкой всего в два цикла, что гарантирует высокую производительность этих операций. Векторный блок Century Avenue обладает значительной мощностью – вероятно, он включает четыре канала, каждый из которых способен выполнять сложение 128-битных векторных целочисленных данных. Операции с плавающей точкой выполняются со скоростью двух операций за такт, и это справедливо для 256-битных векторных инструкций FMA. Таким образом, Century Avenue по скорости выполнения операций с плавающей точкой за такт сопоставим с Haswell. Задержка операций с плавающей точкой обычно составляет 3 цикла для сложения и умножения, и 5 циклов для объединенной FMA, а векторные целочисленные сложения выполняются за один цикл. Однако остальная часть вычислительного ядра Century Avenue не оптимальна для работы с AVX2-кодом – инструкции, использующие 256-битные векторы, делятся на две 128-битные микрооперации, каждое 256-битное сложение с плавающей запятой требует двух записей в ROB, два слота планировщика и результат занимает две записи в регистровом файле. Кроме того, 256-битные операции загрузки и сохранения также занимают две записи в очереди загрузки или сохранения.

В результате анализа производительность Century Avenue при активном разветвлении кода сопоставима с характеристиками устаревших ядер, таких как VIA Nano, и даже несколько ниже, чем у предыдущих ядер LuJiaZui. Она значительно уступает процессорам Intel и AMD, выпущенным более десяти лет назад, которые обладают более эффективным кэшированием ветвлений и более высокими тактовыми частотами. Однако в Century Avenue улучшен предсказатель ветвлений, получивший расширенные возможности распознавания образов и шаблонов, благодаря чему KX-7000 демонстрирует производительность, близкую к Sunny Cove. Century Avenue нацелен на выполнение до четырех инструкций за такт, а схема выборки и декодирования достаточно эффективны, однако у ядра есть ряд существенных недостатков, препятствующих раскрытию его потенциала. Century Avenue не использует циклические буферы и кэш операций, а также не реализует слияние ветвлений, что давно применяется лидерами индустрии. Кэш инструкций первого уровня в Century Avenue имеет объем 64 КБ, что вдвое превышает типичные для ядер x86-64 32 КБ, но этот кэш не обеспечивает эффективную обработку больших объемов кода, подобно тому, как Bulldozer сочетает 64 КБ кэша инструкций с ограниченной пропускной способностью L2-кэша.

Для реализации внеочередного выполнения Zhaoxin использует подход, основанный на физическом регистровом файле (PRF), что отличается от схемы с буфером переупорядочивания (ROB), применяемой в предыдущей архитектуре LuJiaZui. Использование отдельных регистровых файлов снижает потребность в передаче данных в ядре и позволяет увеличивать размер буфера, что обеспечивает Century Avenue значительно более широкие возможности по переупорядочиванию инструкций. Century Avenue достигает уровня внеочередного выполнения, сопоставимого с Intel Haswell и AMD Zen, что является существенным улучшением по сравнению с LuJiaZui. Несмотря на то, что регистровые файлы в Century Avenue меньше, чем в Haswell и Zen, ядро способно отслеживать достаточное количество ветвлений. Century Avenue использует частично унифицированную конфигурацию планировщика, в отличие от распределенной схемы LuJiaZui – для ALU, памяти и операций с плавающей запятой используется один крупный планировщик с более чем 40 записями, а для ветвлений предусмотрен отдельный планировщик. Новое ядро обладает меньшим количеством очередей планирования по сравнению с предшественником, что облегчает настройку планировщика.

Для работы подсистемы памяти применяются два блока генерации адресов AGU, которые рассчитывают виртуальные адреса. Эти блоки получают информацию от 48 записей планировщика, а виртуальные адреса конвертируются в физические. Преобразования кэшируются в ассоциативном буфере TLB с 6 каналами и 96 записями, а страницы объемом 2 МБ используют отдельный буфер DTLB с 4 каналами и 32 записями. Пропуски DTLB приводят к увеличению задержки на 20 циклов, что превышает показатель большинства ядер, за исключением AMD Bulldozer. Блок загрузки и сохранения также обрабатывает зависимости, связанные с памятью, и в Century Avenue проверка осуществляется с заметной задержкой по сравнению с современными ядрами.

В архитектуре Century Avenue предусмотрен восьмиканальный ассоциативный кэш данных первого уровня объемом 32 КБ, а также пара 128-битных портов с задержкой загрузки в 4 цикла. Только один из портов предназначен для выполнения операций записи, при этом 256-битные операции записи занимают два цикла. Таким образом, пропускная способность L1D в ядре сопоставима с Sandy Bridge, что может оказаться недостаточным для операций FMA. В Haswell было реализовано двухканальное выполнение FMA, и инженеры Intel повысили пропускную способность кэша данных первого уровня до двух 256-битных операций загрузки и одной операции записи за цикл.

В архитектуре Century Avenue подсистема кэширования была модернизирована и теперь включает три уровня кэш-памяти, что характерно для современных процессоров AMD и Intel. Благодаря чиплетной структуре и конфигурации ядер и кэша, KX-7000 во многом похож на процессор Zen 3, основанный на одном CCD-кристалле. Для каждого ядра предусмотрен выделенный кэш второго уровня, который помогает уменьшить потери, связанные с обращениями к кэшу третьего уровня с большими задержками. Это позволяет использовать кэш третьего уровня большего объема, что особенно выгодно для процессоров с большим количеством ядер. По сравнению с LuJiaZui, в Century Avenue его емкость увеличилась в восемь раз – с 4 МБ до 32 МБ. Все восемь ядер совместно используют L3-кэш, в то время как у четырех ядер LuJiaZui был только общий L2-кэш объемом 4 МБ. Задержка L2-кэша довольно высока – 15 циклов, хотя даже у Skylake-X при большем объеме кэша она составляет 14 циклов при более высоких частотах. Задержка L3-кэша превышает 27 нс (более 80 тактов), а пропускная способность превышает 8 байт за цикл (для операций «чтение-модификация-запись» она увеличивается до 11,5 байт) – даже Skylake может обрабатывать около 15 байт за цикл при чтении, а новейшие решения AMD – еще вдвое быстрее.

Несмотря на перспективные характеристики кэшей KX-7000, их тактовые частоты невысоки, а пропускная способность на ядро относительно мала – даже у Zen 2 она более чем вдвое выше. При этом, хотя KX-7000 и превосходит Skylake-X по пропускной способности L3-кэша, последний обладает бóльшим объемом L2-кэша (1 МБ), что позволяет ядрам реже прибегать к доступу к данным, хранящимся в L3-кэше. Кроме того, процессор Bulldozer, имея сопоставимую задержку при обращении к L3-кэшу, предлагает еще бóльший его объем.

Эффективность встроенного контроллера памяти оставляет желать лучшего: задержка доступа превышает 200 нс, а при использовании страниц объемом 4 КБ достигает и 240 нс. Также наблюдаются проблемы с совместимостью с различными модулями памяти, поскольку контроллер может функционировать только при скорости 1600 МТ/с, даже если используются более быстрые модули с профилями JEDEC и XMP. Таким образом, даже теоретическая максимальная пропускная способность ограничена 25,6 ГБ/с, но фактическая скорость при чтении данных оказывается более чем вдвое ниже – около 12 ГБ/с. Комбинирование операций чтения и записи повышает реальную пропускную способность; при последовательности «чтение-модификация-запись» достигается пропускная способность более 20 ГБ/с с пиками, превышающими ее на 2-3 ГБ/с, что указывает на достаточную пропускную способность линий связи между кристаллами в процессоре Zhaoxin для полной загрузки контроллера памяти, и узким местом является сам контроллер.

Подсистема памяти KX-7000 не обеспечивает справедливого распределения обращений к данным между ядрами. Высокоинтенсивные потоки, по сути, захватывают записи в общей очереди, что еще больше снижает скорость чтения. Даже процессор Bulldozer, несмотря на свой возраст, лучше справляется с контролем задержки при высокой нагрузке, и даже в наихудшем сценарии задержка у старой модели AMD остается ниже, чем в лучшем случае для KX-7000. В ситуациях, когда подсистеме памяти требуется извлекать данные из кэша другого ядра – что случается нечасто – KX-7000 демонстрирует высокую, но стабильную задержку в диапазоне 46-49 нс, в то время как межъядерные задержки в LuJiaZui составляли около 30 нс.

Не пропустите:  Тест-драйв вертикального пылесоса Dreame H15 Pro Heat: подробный обзор

Изначально выпуск серии процессоров ZX-F (KX-7000) был запланирован на 2021 год. Предполагалось, что они будут производиться по 7-нм технологическому процессу и рассчитаны на высокую частоту. Однако, в итоге, единственный процессор KX-7000 (технически, KX-7000/8 выпускается в трех вариантах, но они слабо отличаются друг от друга) был выпущен лишь в декабре 2023 года – с задержкой в два года. Пришлось использовать доступный китайский техпроцесс. Тем не менее, новый центральный процессор оказался примерно вдвое быстрее решений предыдущей серии, чему способствовала как увеличенная тактовая частота, так и возросшее число инструкций, выполняемых за один такт.

Первые тесты производительности процессора Zhaoxin KX-7000 и некоторые сведения о его архитектуре были обнародованы генеральным директором китайского подразделения ASUS, Тони Ю, в видеоролике на его официальном канале Bilibili. После этого другие специалисты также провели тестирование CPU. Некоторые из них отметили, что производительность KX-7000 сопоставима с процессорами AMD и Intel, выпущенными в середине или конце 2010-х годов, а именно с младшими процессорами Intel 10-го поколения «Comet Lake» и процессорами AMD на базе архитектуры Zen первого поколения. Представители компании Zhaoxin утверждают, что KX-7000 демонстрирует производительность, аналогичную Intel Core i5-7400, вышедшего в 2017 году, а в однопоточных тестах он достигает уровня Core i7-7700K и даже иногда превосходит бюджетные модели Zen 1 от AMD. Мы проверим эти утверждения, однако известно, что игровая производительность китайского CPU довольно низка, как и скорость вычислений в ряде других задач.

Существенным отличием KX-7000 от предыдущих моделей стало его физическое исполнение: ранее продукция компании поставлялась в корпусах BGA и припаивалась к материнской плате, а на рынке предлагалась в виде готовых компьютеров или системных плат с запаянным процессором. Процессоры серии KX-7000, в свою очередь, используют разъем LGA 1700, позволяющий вставлять и извлекать их из материнской платы, что соответствует решениям AMD и Intel. Zhaoxin применяет разъем LGA 4677 для серверных чипов серии KH-40000, а для настольных процессоров использует LGA 1700.

Основная причина такого подхода – обеспечение совместимости с существующими системами охлаждения и применение стандартных разъемов на материнских платах, что исключает необходимость разработки новых решений. Поскольку эти компоненты уже широко доступны, нет необходимости создавать собственные методы интеграции процессоров в платы или разрабатывать уникальные системы охлаждения – китайские производители выпускают системы охлаждения для процессоров, предназначенные для этих сокетов. Таким образом, процессоры Zhaoxin изначально поддерживают установку радиаторов, соответствующих используемым разъемам, что позволяет снизить затраты как на разработку, так и на производство, и сосредоточиться на внедрении инновационных технологий.

Внешне KaiXian KX-7000 во многом напоминает процессоры Intel, предназначенные для сокета LGA 1700, включая расположение контактов и конструкцию системы охлаждения. Физически процессор Zhaoxin можно установить в материнскую плату с чипсетом Intel, и аналогично процессор Core совместим с этой же платой, однако на практике это не имеет смысла. Дело в том, что расположение контактов на разных платах может отличаться, не говоря уже о поддержке этих устройств в BIOS, которая на китайских материнских платах имеет свои особенности. Также стоит отметить, что на платах для Zhaoxin KX-7000 отсутствует чипсет, поскольку все необходимые блоки ввода-вывода интегрированы непосредственно в кристалл процессора – это еще одно существенное отличие от процессоров и материнских плат Intel.

В отличие от других китайских процессоров, серия KaiXian KX-7000 обладает рядом преимуществ, заключающихся в совместимости со всей инфраструктурой, основанной на архитектуре x86. Они поддерживают основной набор инструкций x86, а также некоторые дополнительные (хотя отсутствует поддержка AVX-512, но реализована поддержка AVX и AVX2). Кроме того, эти процессоры обеспечивают аппаратное ускорение китайских криптографических алгоритмов SM2/SM3/SM4 и поддерживают технологию виртуализации. Представители компании заявляют, что шифрование по стандарту SM3 обеспечивает безопасность и эффективность, сопоставимую с SHA-256, а SM4 аналогичен AES-128. Также китайские процессоры поддерживают алгоритмы SHA-1 и SHA-256.

Процессоры KaiXian KX-7000 демонстрируют высокую производительность при работе с операционными системами Windows и Linux. Благодаря x86-совместимости они обеспечивают широкую совместимость с программным и аппаратным обеспечением, что позволяет использовать их для решения большинства прикладных задач и в инструментах разработки. На базе процессоров серии KaiXian KX-7000 разработаны настольные компьютеры, ноутбуки и другие устройства многими китайскими компаниями, включая Lenovo Kaitian, Tongfang, Ziguang, Shengteng, Lianhe Donghai, Haier, Datang Gaohong, Ruijie, Baoxinchuang, Zhiwei Intelligent, Weibu, Yidao, Medijie, Boli Intelligent, Zhuoyi, Hengwei и другими, что свидетельствует об успехе этой линейки продуктов на внутреннем рынке.

Аппаратное обеспечение

В целях оценки производительности мы применили готовую систему Kaitian P90z G1t, построенную на базе процессора Zhaoxin KaiXian KX-7000. Это китайский ПК от Lenovo, оснащенный полным комплектом аппаратного обеспечения, включая системную плату KaiTian LXKT-ZX-KX7000, процессор и предустановленную операционную систему UOS. Несмотря на относительную простоту, в сравнении с ранее протестированной системой на базе Kirin 9000C, он отличается заметно большим корпусом в ширину, что, вероятно, связано с повышенными требованиями к охлаждению центрального процессора Zhaoxin.

Для процессоров Zhaoxin разработано несколько китайских системных плат. Среди них – плата XC-KX700M-D4 от компании ASUS, выполненная в формате Micro ATX. Она оснащена двумя слотами DIMM для DDR4-памяти, индикатором POST, разъемом M.2 для твердотельного накопителя, двумя портами SATA, двумя слотами PCIe x16 4.0 и одним слотом PCIe x1 4.0. Благодаря умеренному энергопотреблению процессора, схема питания и система охлаждения платы достаточно просты. У данной системной платы отсутствует страница на официальном сайте ASUS, и, вероятно, обновления прошивки BIOS для нее будут выпускаться нечасто. Драйверы необходимо искать на сайте Zhaoxin, где они будут доступны, либо в конце 2024 или в начале 2025 года.

В наших тестах используется готовая система Lenovo, разработанная для организаций, применяющих не слишком производительные системы в формате Micro-ATX с поддержкой полноразмерных карт расширения PCIe. Другая системная плата, применяемая в тестовой конфигурации, оснащена четырьмя слотами DIMM для DDR4-памяти, одним слотом PCIe x16 4.0, одним PCIe x1 4.0 и двумя PCIe x1 4.0, а также тремя портами SATA и двумя разъемами M.2, что обеспечивает более широкие возможности для расширения. Тестовая система имеет стандартную конфигурацию: 16 ГБ памяти и 512 ГБ твердотельного накопителя, хотя Lenovo, как и другие производители подобных систем, наверняка предлагает различные варианты с возможностью выбора объема памяти и накопителя – и те, и другие легко заменить или дополнить, поскольку они абсолютно стандартные.

В нашей системе установлено два модуля памяти CXMT CXMQ3A8MA1GU6-CJ1-A, функционирующие в двухканальном режиме DDR4-3200. По всей видимости, скорость передачи данных из памяти по умолчанию установлена в UEFI на уровне 3200 МТ/с, что ограничивает возможность её повышения. Помимо этого, используется твердотельный NVMe-накопитель BIWIN AP860 объёмом 512 ГБ, и при необходимости можно добавить ещё один NVMe-накопитель в дополнительный разъем M.2. Также системная плата располагает тремя портами SATA 3.0, которые в настоящее время не задействованы.

Несмотря на то, что процессор Zhaoxin оснащен встроенным графическим ядром ZX C-1190, обладающим неплохими характеристиками, в ПК от Lenovo на его основе также установлена дискретная видеокарта, выпущенная дочерней компанией Glenfly – Arise1020. Возможности этих графических процессоров мы рассмотрим более детально во второй части статьи, включая тестирование в Windows. Однако, судя по фотографиям, и от нее не стоит ожидать выдающихся результатов – это довольно скромная и немощная видеокарта с 2 ГБ памяти, которой достаточно для отображения двухмерной графики, декодирования видео в популярных форматах, а также для выполнения базового 3D-рендеринга. Вполне вероятно, что и встроенного GPU было бы достаточно для решения этих задач, поэтому установка отдельной видеокарты вызывает вопросы.

Система располагает следующими разъемами: на передней панели – один порт USB-C, четыре порта USB-A, отдельные аудиоразъемы диаметром 3,5 мм для наушников и микрофона, а на задней – видеовыходы VGA, HDMI и DisplayPort, четыре порта USB-A, гигабитный порт RJ45, аудиоинтерфейс (микрофон, стереовыход, аудиовход). Беспроводные технологии Wi-Fi и Bluetooth не предусмотрены изначально, но их можно добавить с помощью дополнительного модуля, устанавливаемого в разъем M.2 – вероятно, в некоторых комплектациях данного ПК этот модуль уже установлен на материнскую плату.

На корпусе предусмотрено четыре слота для карт расширения полной высоты, а системная плата оснащена одним разъемом PCIe x16 для видеокарты, а также одним PCIe x4 и двумя PCIe x1 для подключения дополнительных карт. Блок питания достаточной мощности дополняет эту конфигурацию, а увеличенный объем корпуса обеспечивает удобство и пространство для такой несложной системы. В комплекте поставки имеются проводная клавиатура Huawei K100 и проводная мышь Huawei M100. Полностью совместима операционная система Tongxin UOS Desktop, которую мы уже ранее обсуждали.

В отличие от ранее изученных нами систем, основанных на китайских процессорах, для охлаждения KaiXian KX-7000, по крайней мере, в ПК Lenovo, применено не самое простое решение. Оно включает в себя радиатор и вентилятор увеличенного размера, расположенные у задней стенки корпуса. Для передачи тепла от процессора к радиатору используется теплосъемная пластина, соединенная с ним тремя медными тепловыми трубками. Очевидно, что данный кулер обладает большей эффективностью, и, вероятно, именно поэтому Lenovo пришлось использовать корпус такой широкой конструкции объемом 17 литров.

При активной работе процессора система охлаждения производит заметный шум. Несмотря на достаточную эффективность для охлаждения процессора KaiXian KX-7000, встроенный датчик и система мониторинга показывают, что во время тестирования он нагревается до 79 °C. Таким образом, этот китайский процессор уже нельзя назвать прохладным, как и предыдущие разработки из этой страны. Более того, даже простейший воздушный кулер не смог бы эффективно охладить рассматриваемый процессор, который вполне может потреблять около 100 Вт.

Применяемая системная плата KaiTian LXKT-ZX-KX7000 обладает крайне ограниченными возможностями настройки в BIOS Setup, в частности, отсутствует возможность разгона и изменения ключевых параметров, влияющих на производительность. Поэтому вход в настройки не представляет особой ценности. Зато из них можно получить базовую информацию о конфигурации ПК, хотя и в сжатом виде. В частности, настройка частоты работы и таймингов DDR4-памяти была бы крайне полезна, однако ее нет в меню, как и многих других параметров, привычных в решениях от AMD и Intel.

Программное обеспечение и впечатления от работы

Благодаря полной поддержке набора команд x86 процессоры Zhaoxin обеспечивают совместимость с распространенными операционными системами, такими как Microsoft Windows и различные дистрибутивы Linux. В Китае также была создана собственная операционная система на базе Linux — Unity OS (UOS), разработанная компанией Tongxin Software. Она основана на дистрибутиве Deepin и уже неоднократно упоминалась в наших публикациях, посвященных китайским процессорам. Unity OS доступна в версиях для архитектур x86, ARM и LoongArch.

Процессор KaiXian KX-7000 совместим с распространенной операционной системой Microsoft Windows, в том числе с новейшими версиями, и мы коснемся этой возможности во второй части обзора. Официально же на устройство устанавливается знакомая нам операционная система UOS, поэтому мы кратко поделимся впечатлениями и расскажем о ее возможностях. Интерфейс системы не сильно отличается от других современных операционных систем, поэтому освоить ее не составит труда.

UOS — это операционная система, созданная на основе дистрибутива Deepin, который, в свою очередь, базируется на Debian. Разработанная компанией UnionTech по заказу правительства КНР, она предназначена для замены зарубежных операционных систем. Предусмотрены настольные и серверные версии, а первые выпуски увидели свет еще в 2019 году. UOS ориентирована на китайский рынок и призвана заменить Microsoft Windows, поддерживая аппаратные платформы Zhaoxin, Loongson, Sunway, а также процессоры на базе архитектуры ARM. Также существует версия x86-64, которая была установлена на тестовую систему.

Система обладает актуальным интерфейсом, напоминающим дизайн Windows 11, и включает в себя достаточно полезный комплект предустановленных программ. В их число входит и встроенный интеллектуальный помощник, работающий на базе искусственного интеллекта и использующий облачные сервисы. Его проверка и тестирование не входит в наши задачи, поскольку все вычисления выполняются не на локальном устройстве, а это вполне доступно для любого современного устройства, включая мобильные телефоны.

Определённое неудобство заключается в том, что для получения прав администратора (root) требуется регистрация с использованием телефонного номера, адреса электронной почты или через мессенджер WeChat — и в нашем случае сработал только последний способ. Кроме того, может вызывать дискомфорт неполная локализация с китайского языка для части программного обеспечения, включая магазин приложений, но это вполне терпимо — лишь изредка возникала необходимость переводить текст с помощью онлайн-переводчика и камеры мобильного телефона.

В операционную систему включены все необходимые компоненты для базовой работы, такие как интернет-браузер, медиаплеер и магазин приложений. Система обладает современным дизайном и предоставляет основные функции, востребованные большинством пользователей дома и в офисе. Магазин приложений отличается развитостью и удобством, предлагая широкий выбор программного обеспечения для различных задач, с разделением по категориям, рейтингу и прочим параметрам. Поддерживается автоматическое обновление, доступны отзывы пользователей – всё как и ожидается. Кроме того, x86-версия заметно превосходит ранее изученные варианты для архитектур LoongArch64 и ARM – в этом магазине представлено значительно больше программ. В отличие от UOS, работающей на базе Loongson, сразу доступен полноценный офисный пакет – LibreOffice, актуальной версии.

Это комплексный офисный пакет, включающий в себя все инструменты, необходимые для выполнения задач: текстовые редакторы, программы для работы с таблицами, инструменты для создания презентаций и другие. Работа с ним на системах с процессорами Zhaoxin оказалась вполне удобной, и мы не обнаружили никаких проблем, даже по сравнению с более производительными современными x86-системами, которые демонстрируют большую отзывчивость и плавность работы, однако для стандартных задач это различие незначительно.

Недостатком тестовой системы Lenovo является отсутствие специализированного видеодрайвера для внешней видеокарты. Разработчики, по всей видимости, применили стандартный драйвер, не обеспечивающий аппаратного ускорения для определенных задач, что негативно сказывалось на плавности работы ПК, особенно при использовании 4K-разрешения и воспроизведении видео. Впоследствии мы обнаружили на китайских форумах актуальную версию драйвера для видеокарты Arise1020, которая по какой-то причине не была предустановлена на систему Lenovo. Если в ПК устанавливается дискретная видеокарта, то, очевидно, стоит уделить этому вопросу внимание.

В отдельной секции мы более детально проанализируем вопросы производительности, касающиеся встроенного видеоядра KaiXian KX-7000 и внешнего GPU, представив результаты тестов под управлением Windows. Что касается Linux, то в тесте GLmark2 встроенный графический процессор ZX-C1190 показал результат в 1016 очков, в то время как внешняя видеокарта Arise1020 набрала 1180 баллов, что лишь незначительно превышает этот показатель. Для сравнения, встроенная графика Loongson показала результат в 70 баллов, а Huawei Kirin — 88 баллов. Однако, всем им не дотягивают даже до старой видеокарты Radeon RX 480, которая набрала 4668 очков в том же тесте.

Показать исходные данные

При оценке производительности GPU Drawing в утилите HardInfo, полученные результаты – 2738 баллов для встроенного GPU и 9652 для внешней видеокарты – значительно превосходят показатели Kirin, однако интегрированное ядро Zhaoxin уступает аналогичному в Loongson. Похоже, теперь становится ясно, почему Lenovo решили установить внешнюю видеокарту, несмотря на наличие интегрированной графики, но для окончательных заключений мы рекомендуем дождаться результатов тестирования в Windows.

Просмотр видеороликов в высоких разрешениях — одна из типичных задач современных персональных компьютеров, и Zhaoxin здесь показал себя достаточно хорошо. В процессорах Zhaoxin предусмотрены специализированные блоки для аппаратного ускорения декодирования видео, что снижает нагрузку на другие компоненты системы. Встроенный графический процессор официально поддерживает аппаратное декодирование видео в наиболее популярных форматах, поэтому система на базе KaiXian KX-7000 не должна испытывать проблем с этой задачей при наличии необходимой программной поддержки.

Ранее мы уже отмечали, что Lenovo по какой-то причине не включила в комплект необходимые драйверы для внешней видеокарты Arise1020, и без них воспроизведение видео осуществлялось неэффективно – что вполне закономерно, поскольку центральный процессор не всегда способен справиться с программным декодированием. Однако, после установки драйвера, предустановленный в операционной системе медиаплеер без проблем воспроизводил практически любые 4K-видеофайлы в различных форматах, включая H.265, при этом нагрузка на центральный процессор оставалась минимальной, даже для роликов с высоким битрейтом и в современных форматах. В то же время, программное декодирование без соответствующего видеодрайвера работало неэффективно, с пропуском кадров и загрузкой центрального процессора до 50% и более.

Воспроизведение потокового видео не отличалось стабильностью, как и у других китайских процессоров. Причина не заключалась в высокой загрузке ядер центрального процессора – даже при просмотре роликов в разрешении 4K на Youtube загрузка ЦП составляла 60%-70%, однако наблюдались заметные пропуски кадров, что подтверждается статистикой воспроизведения. Особенно ощутимы были пропуски кадров в роликах с разрешением 4K и частотой 60 FPS, когда пропускался примерно каждый второй кадр, и обеспечить плавное воспроизведение не удавалось. Таким образом, результат схож с тем, что было отмечено в обзорах Loongson и Kirin на базе той же UOS: для Full HD разрешения достаточно, а для 4K требуется доработка программного обеспечения. Возможно, изменение драйвера и/или браузера позволит добиться корректной работы, но сразу после установки это не происходит. Однако, вряд ли от таких процессоров ожидают комфортной работы с 4K-видео.

В общем и целом, система демонстрирует работоспособность. После установки драйвера и подбора программного обеспечения она предоставит приемлемый уровень удобства для пользователей, не предъявляющих высоких требований, при работе с простыми приложениями, небольшими файлами и при минимальной активности фоновых процессов, потребляющих значительные ресурсы памяти. Рекомендуется также использовать разрешение Full HD, или, как минимум, не использовать 4K. Для подобных систем этого вполне достаточно, поскольку они спроектированы для обработки задач небольшой интенсивности. Осталось выяснить, какие сведения о процессоре Zhaoxin и его графическом ядре предоставят стандартные системные утилиты в UOS:

Вся ключевая информация представлена на экране, CPU-X предоставляет ее в большем объеме, однако некоторые страницы утилит содержат неточные данные. Иногда попытка их получения и отображения приводит к аварийному завершению работы системного программного обеспечения. Поэтому данные о процессоре остаются неполными, что объясняется относительно низкой популярностью китайского процессора Zhaoxin. Также представляет интерес информация о максимально поддерживаемых частотах ядер, предоставленная утилитой HardInfo, а именно:

В диспетчере задач UOS для KaiXian KX-7000 заявлена максимальная частота 3,6 ГГц, однако фактически только два ядра из восьми способны работать на этой частоте, в то время как для остальных она ограничена 3,4 ГГц. В остальном информация о процессоре соответствует сведениям, предоставляемым китайской компанией Zhaoxin, поэтому перейдем к практическим тестам.

Тестирование производительности

Тестовые системы и условия

В ходе тестирования использовался готовый китайский персональный компьютер производства Lenovo, построенный на базе процессора Zhaoxin KaiXian KX-7000, включающего указанный выше набор аппаратного обеспечения. Для остальных процессоров, участвовавших в сравнении, был подобран стандартный комплект компонентов. Для процессоров Ryzen и Core применялись имеющиеся в нашем распоряжении тестовые материнские платы и оперативная память, настроенная согласно профилям XMP. Ограничения по энергопотреблению для процессоров устанавливались в соответствии с их техническими характеристиками. Китайская система, основанная на процессоре Zhaoxin, оснащена 16 ГБ памяти DDR4-3200, работающей в двухканальном режиме; ее замена на другие компоненты не приведет к увеличению производительности, поскольку в настройках BIOS Setup отсутствуют возможности изменения частоты и таймингов памяти.

Конкурентами для нового китайского процессора остались те же, что и в обзорах Loongson и Huawei, информация о них доступна в соответствующих материалах. В связи с тем, что подобных решений, как Core i3-10100, у нас больше нет, мы использовали минимальную конфигурацию из имеющихся систем на базе процессоров Intel и AMD: Core i3-12100 с памятью DDR5 и «Ryzen 5 1500X». Последний был «эмулирован» с помощью процессора Ryzen 7 1700, путем настройки в BIOS Setup режим 2+2 ядра, поскольку в четырехъядерном Ryzen 5 1500X заблокирована половина ядер не в одном блоке CCX, а по паре ядер в каждом из них. Это позволило процессору сохранить весь объем в 16 МБ L3-кэша, но привело к снижению скорости передачи данных между ними по Infinity Fabric. Для полноценной имитации четырехъядерного Ryzen первой серии также был установлен соответствующий лимит энергопотребления, и в результате получился практически идентичный Ryzen 5 1500X.

С точки зрения программного обеспечения, всё довольно просто: для обеспечения сопоставимости результатов работы всех процессоров, мы продолжижили тестирование под управлением UOS. Несмотря на то, что другие версии Linux или Windows для x86-64 процессоров могли бы продемонстрировать лучшие показатели для x86-процессоров, этот аспект также стоит учитывать. Выбор программного обеспечения для тестирования остался без изменений – он не является идеальным, однако мы сравниваем процессор Zhaoxin прежде всего с Kirin 9000C и Loongson 3A6000, поэтому необходимо, чтобы тесты и методики были применимы к CPU всех архитектур с различными наборами инструкций. Для сегодняшнего тестирования мы вновь использовали пакет Phoronix Test Suite, выбрав как можно больше тестов из него, которые корректно работают на всех трех архитектурах: x86_64, LoongArch64 и AArch64.

Процесс оказался довольно сложным: некоторые тестовые наборы принципиально не функционируют на различных архитектурах, другие используют библиотеки и оптимизации, предназначенные исключительно для архитектуры x86-64, и даже не компилируются на других. Даже при отсутствии явной привязки к архитектуре в коде, могут возникнуть трудности со сборкой, нехватка необходимых библиотек, а если и удастся их решить, то выбранное программное обеспечение может работать некорректно, либо не выдавать результатов, или же завершать тестирование с ошибкой. В целом, мы повторно запускали те же тесты из пакета Phoronix Test Suite, которые мы уже использовали в статье по Loongson и Kirin, а тестирование в Windows будет представлено в отдельном материале в ближайшее время.

Синтетические тесты

Производительность памяти и системы кэширования

Прежде всего, необходимо оценить эффективность контроллера памяти и системы кэширования, разработанных инженерами Zhaoxin. Обеспечить одинаковые параметры памяти для тестовых процессоров не представляется возможным, поэтому применялись различные условия, описанные ранее. Следует учитывать, что процессоры Huawei и Intel, участвовавшие в наших тестах, поддерживают память DDR5, тогда как AMD и Loongson – только DDR4. Китайский процессор Zhaoxin, несмотря на теоретическую совместимость с DDR5, в тестовой системе, как и в других доступных конфигурациях на базе этого CPU, используется память DDR4.

Показать исходные данные

Сначала будет проведен тест пропускной способности подсистемы кэширования и оперативной памяти CacheBench — это компонент пакета LLCbench, который оценивает производительность при чтении, записи и в смешанном режиме, включающем чтение, изменение и запись данных. Согласно результатам предыдущих проверок, на итоговый показатель в большей степени влияет пропускная способность кэшей, нежели оперативной памяти.

Несмотря на ожидания, очередной китайский процессор не показал выдающихся результатов в данном тесте. Процессор Intel, как обычно, занял первое место во всех режимах, и это вполне предсказуемо — Core i3-12100 продемонстрировал вдвое большую скорость чтения из кэша по сравнению с KaiXian KX-7000, а по скорости записи и в смешанном режиме китайский CPU оказался на 4-5 порядков медленнее! Ryzen 5 1500X также превзошел рассматриваемый китайский CPU, но разница была менее существенной — при чтении на 15%, а в остальных режимах — в 2,8-3,6 раза, что также является значительным показателем.

При сравнении Zhaoxin с Kirin и Loongson, KaiXian KX-7000 демонстрирует более высокую скорость чтения данных по сравнению с Loongson, но уступает Kirin. Однако, в других режимах он значительно проигрывает даже другим китайским процессорам, как минимум вдвое. Таким образом, результаты тестов для Zhaoxin оказываются не слишком обнадеживающими: его подсистема кэширования не соответствует ни возможностям более ранних западных Ryzen и Core, ни характеристикам других китайских процессоров.

Показать исходные данные

Второй тест, Memory BandWidth (MBW), предназначен для оценки пропускной способности оперативной памяти при выполнении операций копирования. Он включает несколько режимов, различающихся объемом передаваемых данных и способом копирования – в качестве параметров мы использовали 128 МБ и 4 ГБ. В данном случае на результаты должно оказывать большее влияние пропускная способность оперативной памяти, а не кэш. MBW менее специализированный, чем другие тесты, поскольку он моделирует действия, выполняемые в распространенном программном обеспечении, в то время как другие тесты демонстрируют, скорее, максимальные значения. Нулевой результат в последней колонке для системы на базе Kirin 9000C был вызван ограниченным объемом памяти – у нее установлено 8 ГБ, тогда как у остальных систем – 16 ГБ.

Судя по результатам подтестов, Core i3-12100 уже не является самым быстрым процессором, однако, поскольку в тесте измеряется производительность с подсистемой памяти, системы на базе Intel и Huawei, использующие память DDR5, демонстрируют более высокую скорость. Ryzen 5 1500X значительно уступает по производительности, не говоря уже о Loongson. А что же можно сказать о KaiXian KX-7000? К сожалению, мы вновь получили неутешительные результаты — китайский процессор, совместимый с архитектурой x86, неизменно оказывается медленнее всех остальных CPU, даже Loongson, использующий такую же память DDR4, опередил продукт Zhaoxin. Разница в производительности становится всё более заметной, но от Kirin он отстаёт в 2,25-3,33 раза, и даже Loongson быстрее его на 15%-90%, в зависимости от конкретного подтеста.

Показать исходные данные

RAMspeed – это еще один тест, оценивающий производительность оперативной памяти. В ходе его проведения мы использовали два режима с умеренной скоростью передачи данных, применяя целочисленный и формат с плавающей запятой. В данном тесте ключевую роль играет пропускная способность оперативной памяти, что подтверждается результатами предыдущих испытаний, включая тесты с различным количеством каналов.

Применение памяти DDR5 в Kirin 9000C и Core i3-12100 по-прежнему обеспечивает им существенное преимущество, эти процессоры, очевидно, лидируют, хотя первенство вновь принадлежит решению Intel, разработанному много лет назад. AMD Ryzen 5 1500X продемонстрировал заметно меньшую производительность по сравнению с этой парой. Что же касается Loongson 3A6000 и Zhaoxin KX-7000? Ограничение максимальной частоты памяти в двухканальном режиме, которую удалось установить в нашей тестовой системе, стало причиной отставания первого, поэтому он и проиграл рассматриваемому сегодня процессору, хотя и не значительно – менее чем на 15%. Но Kirin, использующий x86-совместимую архитектуру, уступил в 2,5 раза, и Intel также приблизительно на столько же превосходит его.

Показать исходные данные

Финальный тест в этом разделе называется Stream — это широко используемый инструмент для проверки оперативной памяти, предоставляющий четыре способа оценки пропускной способности. Отличительной особенностью Stream является то, что он предназначен для оценки максимальных значений производительности, а не показателей, полученных в условиях, имитирующих работу реальных приложений.

Заметно, что Kirin 9000C значительно уступает Core i3-12100, причем разрыв составляет почти вдвое, но при этом он все равно демонстрирует более высокую производительность по сравнению с KaiXian KX-7000, рассматриваемым сегодня. В топе рейтинга находится процессор Intel, который, как и ожидалось, обходит решение Zhaoxin в 2,5 раза при копировании данных и более чем вчетверо (!) в остальных сценариях. Ryzen 5 1500X также существенно превосходит тестируемый процессор, причем интересно, что по соотношению производительности в различных режимах Zhaoxin наиболее близок к процессору AMD, уступая ему примерно вдвое во всех тестах. Kirin также быстрее вдвое благодаря своей DDR5-памяти, а еще один китайский процессор, Loongson, в трех из четырех тестов опередил KaiXian KX-7000, который смог показать превосходство только при копировании.

В целом, Zhaoxin не смогла обеспечить эффективную работу контроллера памяти и кэшей, не догнав даже устаревшие западные разработки и не превзойдя конкурентов из Китая. Huawei, например, добилась более высоких результатов в этой области. Zhaoxin необходимо улучшить подсистему памяти и кэширования данных в будущих процессорах, поскольку в текущем поколении скорость обработки информации заметно ниже, чем у китайских аналогов, использующих другие архитектуры.

Синтетические и общие тесты

Для оценки производительности на низком уровне при решении специализированных задач можно использовать синтетические тесты из различных пакетов. Хотя некоторые из них стремятся к универсальности, они в основном демонстрируют относительную производительность процессора в различных приложениях и сценариях.

Показать исходные данные

Core-Latency – это тест, предназначенный для оценки задержек при взаимодействии между различными ядрами процессора. Он демонстрирует минимальные, средние и максимальные значения этих задержек. Наибольшую ценность результаты теста представляют при использовании чиплетной архитектуры, когда ядра объединены в группы, или в многопроцессорных конфигурациях, где межъядерные задержки значительно различаются. KaiXian KX-7000, использующий чиплетную компоновку, является ярким примером. Межъядерные задержки процессоров Zhaoxin достаточно высоки, однако, в отличие от других CPU, максимальное значение практически равно минимальному – это, вероятно, обусловлено тем, что все ядра находятся на одном кристалле.

Процессор KaiXian KX-7000 демонстрирует заметно повышенную среднюю задержку, уступая по этому показателю лишь Kirin, чья структура основана на гетерогенных ядрах, и не превосходя устаревший Ryzen. Однако минимальная задержка вызывает серьёзные опасения, поскольку она в несколько раз превышает показатели других протестированных процессоров. Даже Ryzen 5 1500X, использующий двухблочную организацию CCX, имеет меньшие минимальные задержки, что указывает на неоптимальную работу процессора Zhaoxin.

Показать исходные данные

EEMBC CoreMark представляет собой комплект искусственных тестов, предназначенных для оценки производительности процессоров и микроконтроллеров. Он был разработан как альтернатива более раннему и широко известному тесту Dhrystone. В набор входят реализации алгоритмов, связанных с поиском и сортировкой данных, матричными вычислениями, а также вычислением контрольных сумм и другими операциями. Результаты представляются в виде единого показателя – количества выполненных повторений за секунду, что обеспечивает удобство при сопоставлении различных систем.

Влияние скорости памяти на итог незначительно, и именно здесь KaiXian KX-7000 демонстрирует свои преимущества — в данном тесте он превосходит как Loongson 3A6000, и Kirin 9000C, опережая первый на значительные 40%, а второго — на 9%. Даже Ryzen 5 1500X уступает китайскому процессору, совместимому с архитектурой x86 — в решении этой задачи он эффективнее на 17% по сравнению с процессором поколения Zen 1. А вот Core i3-12100 всё равно быстрее, хотя и на 30%. В любом случае, полученный результат позволяет рассчитывать на хорошие показатели в тестах, которые не ограничены производительностью памяти и кэш-памяти.

Показать исходные данные

Swet – это еще один синтетический тест, предназначенный для оценки производительности центральных процессоров и оперативной памяти, включая многоядерные и многопроцессорные конфигурации. Результаты демонстрируются в виде числа операций, выполняемых за единицу времени. В предыдущем тесте мы не выявили заметного влияния скорости оперативной памяти на итоговые показатели, однако китайские процессоры в нем проявили себя неожиданно слабо.

Рассматриваемый сегодня китайский процессор показал скорость, сопоставимую с Loongson, однако его результат в данном тесте оказался почти вдвое хуже, чем у Ryzen 5 1500X, и более чем втрое медленнее Core i3-12100, что вызывает сожаление. Производительность Kirin 9000C оказалась немного выше – на 12%. Изначально мы считали, что тест мог быть недостаточно оптимизирован для архитектур, отличных от x86, однако пример процессора Zhaoxin продемонстрировал, что проблема заключается в другом – китайские архитектуры пока что не отличаются достаточной эффективностью, даже в сравнении с не самыми современными западными разработками.

HardInfo
Zhaoxin KX-7000 Kirin 9000C Loongson 3A6000 Core i3-12100 Ryzen 5 1500X
Blowfish, sec 1,19 1,9 2,06 0,65 1,52
CryptoHash, GiB/s 414,8 1067,2 1074,5 1823 1170
Fibonacci, sec 0,85 0,68 0,63 0,36 0,64
N-Queens, sec 19,34 3,19 3,55 7,9 5,45
Zlib, Himarks 1,71 1,57 1,43 2,25 1,37
FFT, sec 0,92 1,08 0,83 0,41 0,85
Raytracing, sec 3,24 2,44 1,17 1,14 1,9

HardInfo – это встроенный инструмент, предназначенный для отображения сведений о системе и аппаратной части, а также для мониторинга. Он включает в себя ряд небольших тестов производительности, которые охватывают разнообразные задачи, начиная от трассировки лучей и заканчивая криптографией. Результаты некоторых тестов представлены в виде времени выполнения, а другие – в условных единицах. Для удобства ознакомления тесты организованы в виде таблицы.

В тесте KaiXian KX-7000 демонстрирует не самые выдающиеся результаты, даже по сравнению с Kirin 9000C и Loongson 3A6000. Действительно, в некоторых задачах он превосходит их, но в среднем разница незначительна, а в ряде случаев другие китайские процессоры показали результаты существенно выше. Так, в трассировке лучей Loongson оказался быстрее более чем вдвое, в криптографическом тесте KX-7000 в 2,5 раза уступил обоим китайским конкурентам, а в решении задачи N-Queens, известной своей сложностью, отставание от китайских CPU оказалось более чем шестикратным!

Процессор Zhaoxin, если сравнивать его с китайскими аналогами, демонстрирует пристойные результаты лишь в тестах Blowfish, Zlib и FFT. В сравнении с процессорами западных производителей, неудивительно, что Core i3-12100 превосходил его во всех случаях, а Ryzen 5 1500X уступил китайскому x86-совместимому процессору лишь в двух подтестах: Blowfish и Zlib. Таким образом, в среднем KaiXian KX-7000 находится примерно на одном уровне с Loongson 3A6000 и Kirin 9000C, или даже немного ниже – и, принимая во внимание меньшую тактовую частоту соперников, у нас нет оснований говорить о каких-либо архитектурных преимуществах рассматриваемого сегодня CPU.

Показать исходные данные

Это Java-реализация тестового пакета SciMark 2.0 для научных вычислений. Он содержит ряд тестовых алгоритмов, таких как метод Монте-Карло, быстрое преобразование Фурье, метод последовательной сверхрелаксации Якоби, операции над разреженными матрицами и LU-разложение матриц. На результаты этих тестов зачастую оказывает влияние параллельная обработка, однако это не характерно для всех алгоритмов.

Не пропустите:  Обзор белого 27-дюймового игрового монитора Gigabyte M27QA Ice с матрицей IPS

В данном бенчмарке процессор KaiXian KX-7000, по сути представляющий собой однокристальную систему, показал результаты, не выходящие за рамки среднего – его производительность сопоставима с Kirin 9000C и Loongson 3A6000, не говоря уже о более старых решениях от AMD и Intel, хотя конечный результат во многом определяется спецификой отдельных тестов. В первом из них (который включает в себя комбинацию различных подходов) процессор Zhaoxin продемонстрировал производительность, сопоставимую с Kirin, и вместе они заметно отстали от Loongson и Ryzen с Core. В тестах, использующих метод последовательной сверхрелаксации Якоби и быстрое преобразование Фурье, процессор, совместимый с архитектурой x86, превзошел своих китайских конкурентов, а во втором из них даже сумел обойти старый Ryzen, хотя и не достиг его уровня в первом.

В ходе тестирования LU-разложения матрицы Zhaoxin под силу оказался лишь Kirin, и оба центральных процессора значительно уступили конкурентам. В операциях по умножению разреженных матриц KX-7000 продемонстрировал наихудший результат, проигрывая даже Core i3 на неприемлемо большое значение – более чем в 2,5 раза. В целом, данный процессор характеризуется низкой стабильностью. Хотя производительность во многом определяется конкретной задачей и оптимизацией программного обеспечения, в целом от китайского настольного процессора, совместимого с архитектурой x86 и обладающего высокой тактовой частотой, ожидалось более эффективной работы. Показатель IPC не соответствует даже устаревшей модели Zen 1, не говоря уже о младшей модели процессора Core 12-го поколения.

Бенчмарк Stress-NG

Данная программа – это специализированный инструмент, предназначенный для проведения всестороннего нагрузочного тестирования оборудования с использованием широкого спектра тестов. В связи с большим количеством тестов, входящих в состав пакета, мы решили представить результаты в удобном табличном формате, включив только те, которые успешно завершились на всех протестированных системах:

В ходе тестирования наблюдались значительные расхождения в производительности процессора KaiXian KX-7000 по сравнению с другими CPU. Мы рекомендуем вам самостоятельно изучить представленную таблицу, поскольку она содержит большое количество различных подтестов. Мы выделим лишь некоторые результаты, которые вызвали у нас наибольший интерес. В большинстве случаев три китайских процессора демонстрируют схожую производительность, в отличие от более мощных западных аналогов. Однако, в отдельных случаях наблюдаются неожиданные и сильно отличающиеся результаты.

Очевидно, что процессор Intel показал наилучший результат в данном тесте, за ним расположилось решение AMD, а китайские процессоры находятся по пятам. Примечательно, что у Loongson наибольшее количество ошибок было выявлено в задачах, активно использующих матричные вычисления, где для достижения высокой производительности требуется применение специализированных SIMD-инструкций. В то же время, Kirin 9000C и KaiXian KX-7000 продемонстрировали значительно лучшие показатели в этих подтестах. Кроме того, они заметно превосходят конкурентов в задачах сжатия данных и криптографии — вероятно, тест не оптимально адаптирован к используемым наборам инструкций Loongson, но эффективно использует их на x86 и ARM.

Рендеринг

Современные процессоры сталкиваются со значительными трудностями при прохождении тестов рендеринга, поскольку трассировка лучей предполагает многопоточную нагрузку. При этом процессоры стремятся к максимальной частоте, что приводит к повышенному энергопотреблению и нагреву. Производители центральных процессоров часто используют тесты рендеринга для оценки производительности своих продуктов в сравнении с решениями других компаний. Эффективное выполнение подобных задач требует наличия большего числа ядер и потоков.

Показать исходные данные

Для оценки скорости рендеринга мы объединили результаты сразу четырех тестов на одной диаграмме:

  1. AOBench — это небольшой рендерер, применяющий ambient occlusion и разрешение 2048×2048 пикселей.
  2. C-Ray – это легковесный многопоточный трассировщик лучей, предназначенный для оценки производительности вычислений с плавающей точкой.
  3. Persistence of Vision — это трассировщик лучей, известный как POV-Ray.
  4. Smallpt – это компактный рендерер, осуществляющий расчет глобального освещения посредством трассировки пути Монте-Карло и использующий многопоточность с применением библиотеки OpenMP.

Практически не оказывает влияния на итоговые результаты рендеринга, поэтому сравнение будет сосредоточено на вычислительных возможностях. Результаты процессора KaiXian KX-7000 в тестах рендеринга оказались противоречивыми и определялись используемым программным обеспечением. В AOBench, рассматриваемом сегодня, процессор показал результаты, уступающие другим, по причинам, которые не удалось установить. Однако в Smallpt он превзошел Loongson 3A6000, а в двух оставшихся тестах опередил других китайских процессоров, особенно в C-Ray, где Zhaoxin показал результат, более чем в полтора раза превышающий показатели Kirin и Loongson.

Китайский x86-совместимый процессор, рассматриваемый в данном тесте, продемонстрировал результаты, сопоставимые с уровнем Core i3-12100, и превзошел Ryzen 5 1500X, приблизившись к последнему в POV-Ray. Это указывает на достойный уровень производительности в количестве инструкций за такт, однако, при условии хорошей оптимизации программного обеспечения, он, вероятно, эффективен при использовании специализированных SIMD-инструкций, как мы отмечали в теоретической части. В то же время, он проявляет слабость в операциях, не использующих ускорение, и плохие показатели подсистемы кэширования данных, критически важной для подобных задач, серьезно сдерживают его. Если бы удалось устранить эти ограничения, по показателю IPC он, вероятно, приблизился бы к более современным процессорам западных производителей. Однако на текущий момент даже младшая модель Core 10-го поколения значительно превосходит его.

Работа с медиаданными

В рамках очередного тестового раздела сразу же рассматривается ряд проверок, связанных с обработкой медиафайлов — изображений и видео. В большинстве случаев это прикладные задачи, такие как кодирование аудио- и видеоинформации в определенные форматы, а также специализированные тесты, оценивающие синтез речи. Подобные задачи востребованы среди широкой аудитории, поэтому результаты этого раздела имеют существенное практическое значение.

Показать исходные данные

Первоначально мы провели тестирование сжатия аудиофайлов в различных форматах: APE, FLAC и WavPack. Все эти форматы предназначены для сжатия звука и обеспечивают сжатие данных без потери качества. Влияние пропускной способности оперативной памяти на результаты не было выявлено, зависимость от скорости работы ОЗУ не прослеживается. К сожалению, тест FLAC на процессоре не был выполнен – по всей видимости, возникли какие-то проблемы с совместимостью с x86-совместимым CPU, поэтому мы его пропускаем.

В других тестах, связанных с аудиокодированием, процессор KaiXian KX-7000 демонстрирует более высокую производительность по сравнению с Loongson 3A6000. Однако, в сравнении с Kirin 9000C ситуация неоднозначна: решение HiSilicon, основанное на ARM, одержало победу примерно в 50% случаев при кодировании FLAC, но значительно уступило в кодировании WavPack, отстав в шесть раз. Если отсутствие оптимизаций для LoongArch объясняет результаты для процессора Loongson, то причины низких показателей процессора Huawei в третьем тесте остаются неясными.

При сопоставлении Zhaoxin с решениями Ryzen и Core, он демонстрирует неожиданно более высокую скорость в WavPack (необходимо проверить достоверность полученных результатов, однако). В кодировании FLAC процессор уступает Ryzen на 20%, а Core i3 – в 2,2 раза. Следует учитывать, что кодирование аудио не является распространенной задачей в наши дни, поскольку она выполняется достаточно быстро на всех платформах. Теперь перейдем к другим тестам, касающимся обработки звука.

Показать исходные данные

На представленной диаграмме отображены результаты двух тестов, посвященных синтезу речи и обработке звука. Google SynthMark – это кроссплатформенный инструмент для оценки производительности процессора при работе с аудио в реальном времени в различных условиях. Тест использует модель полифонического синтезатора и позволяет измерить задержку, джиттер и вычислительную производительность. В качестве второго теста используется оценка времени, требуемого для синтеза речи из книги «The Outline of Science» с применением усовершенствованного движка eSpeak-NG и выводом аудио в формате WAV.

При анализе сравнительных показателей трех китайских процессоров первый тест выявил, что KaiXian KX-7000 уступает всем остальным. Другие китайские CPU превзошли его на 9% и 29% соответственно, если сравнивать с Loongson и Kirin. Однако, Ryzen 5 1500X не намного опережает рассматриваемый процессор, хотя Core i3 показал значительно более высокую производительность в тесте обработки аудиоданных в реальном времени.

В тесте синтеза речи ситуация оказалась еще более сложной: процессор Zhaoxin вновь продемонстрировал самую низкую производительность, причем отставание от конкурентов увеличилось. Он стал примерно вдвое медленнее, чем Core i3, и на 11% и 32% уступает Kirin и Loongson соответственно. Таким образом, результаты вновь оказались неутешительными: показатель количества инструкций, выполняемых за такт, у KaiXian KX-7000 приемлем лишь при условии проведения всех необходимых оптимизаций, связанных с применением специализированных инструкций для ускорения потоковой обработки.

Показать исходные данные

Dav1d – это программный декодер, обеспечивающий высокую скорость обработки видео в формате AV1. Мы провели тесты декодирования видеороликов в этом формате с разрешением Full HD и 4K, чтобы оценить его работу. На полученных результатах заметно влияет скорость работы памяти, однако KaiXian KX-7000 оснащен двухканальной памятью DDR4, что, вероятно, обеспечит достаточную производительность. При этом нас особенно порадовало то, что кодеки видеоданных, как правило, эффективно используют дополнительные инструкции для работы с мультимедиа, и в данном случае это должно стать сильной стороной решения Zhaoxin.

При декодировании видео в формате AV1 наблюдается заметное преимущество KaiXian KX-7000 по сравнению с Loongson и Kirin. Первый из них демонстрирует отставание примерно вдвое, что связано с недостаточной оптимизацией и отсутствием поддержки специализированных инструкций. Именно поэтому он показывает более низкие результаты в пакете dAV1d. В случае же Kirin 9000C, вероятно, применяются инструкции, предназначенные для ARM, однако он всё равно не справляется с задачей так же эффективно, уступая в производительности рассматриваемому сегодня процессору на 22%-38%.

KaiXian KX-7000, в сравнении с западными процессорами, продемонстрировал заметное улучшение производительности, хотя и уступает Ryzen 5 1500X. Скорость декодирования Zhaoxin превосходит аналогичный показатель процессора AMD на 5%, а разница в 18% – весьма достойный результат. Тем не менее, Core i3-12100 всё равно обходит рассматриваемый китайский процессор на 50% и 75% при работе с разрешениями 1080p и 4K соответственно. Однако в обычных условиях, при использовании дома или в офисе, редко возникает необходимость в одновременном декодировании нескольких видеороликов в формате AV1 в разрешении 4K, поэтому типичным пользователям будет достаточно производительности китайских процессоров, несмотря на то, что они всё же уступают западным аналогам.

Показать исходные данные

В качестве следующего этапа проводится программное кодирование видеоинформации на центральном процессоре с использованием формата H.265 и популярного кодировщика x265. Для тестирования применяются разрешения Full HD и 4K. При кодировании видеоданных для обеспечения высокой скорости работы необходимо использовать SIMD-инструкции, такие как SSE, AVX, AVX2 и AVX-512, если процессор совместим с архитектурой x86. В этом случае показатели FPS уже не имеют большого значения, и каждый кадр в секунду становится критически важным. Хотя в современных системах кодирование и декодирование видеоданных чаще выполняются на графическом процессоре, при отсутствии соответствующей поддержки эту задачу берет на себя центральный процессор.

В предыдущих публикациях мы отмечали, что данный тест не предусматривает оптимизацию для архитектур LoongArch и AMD, включая поддержку специализированных мультимедийных инструкций, которые они предлагают. Именно поэтому Loongson и Kirin демонстрируют невысокие результаты. Однако здесь проявляется ключевое преимущество KaiXian KX-7000 – его совместимость с x86, благодаря чему ускоряющие SIMD-инструкции используются в полной мере, что позволило ему превзойти своих китайских аналогов в 3-4 раза!

Даже при сравнении современного китайского процессора с западными аналогами, работающими на штатных частотах, разрыв между ними уже не так велик, как это наблюдалось в предыдущих тестах. Процессоры Zhaoxin по-прежнему уступают решениям Intel, но разница составляет 2,5-кратная, а не 9-10-кратная, как у других китайских чипов. К тому же, KaiXian KX-7000 оказался лишь немного медленнее Ryzen, отставая от него на 16% и 28%, в зависимости от разрешения видео. Это вполне можно рассматривать как заметное достижение, если сравнивать с другими процессорами, разработанными в Китае.

Показать исходные данные

Давайте изучим более строгий тест видеокодирования. VVenC – это оперативный и продуктивный кодировщик видео, основанный на формате H.266/VVC (Fraunhofer Versatile Video Encoder), использующий SIMD Everywhere (SIMDe) – библиотеку, обеспечивающую переносимую SIMD-реализацию для различных платформ. К сожалению, среди поддерживаемых платформ отсутствует Loongson, однако присутствует ARM. Если на процессорах, совместимых с x86, будут применяться все типы инструкций SSE и AVX, а на ARM будут работать SIMD-ускоренные операции Neon, то у Loongson, несомненно, возникнут трудности с производительностью.

Эта задача представляется значительно сложнее, и без SIMD-инструкций ее решение не представляется возможным. Очевидна разница между кодом, тщательно оптимизированным для x86-процессоров, кодом, демонстрирующим приемлемую производительность в ускоренном режиме, и кодом, работающим на ARM, где производительность значительно ниже. На архитектуре LoongArch наблюдается еще более существенное снижение эффективности. В данной ситуации преимущество процессоров Zhaoxin, обусловленное их совместимостью с x86 и поддержкой SSE/AVX(2), проявляется в полной мере: модель KaiXian KX-7000 выполняет задачу в 3,8 раза быстрее процессора Kirin и почти в 9 раз быстрее Loongson!

Благодаря этому преимуществу Zhaoxin обошёл других китайских производителей и приблизился к западным решениям для ЦП. Однако, при сравнении китайского процессора с Core i3-12100, он всё же оказывается на 60%-70% медленнее. В то же время, KaiXian KX-7000 превзошёл Ryzen 5 1500X, обогнав его на 12%-13%, что можно рассматривать как значительное достижение для данного x86-совместимого процессора. Это особенно заметно на фоне неудач Loongson и Kirin, вызванных отсутствием оптимизаций для китайских ЦП в различных программных продуктах.

Обработка изображений

Несмотря на то, что данный раздел тестов имеет много общего с предыдущим, мы выделили его в отдельный, поскольку он полностью посвящен работе со статичными 2D-изображениями: их обработке, сжатию и распаковке в различных задачах.

Показать исходные данные

G’MIC — это платформа с открытым исходным кодом для обработки цифровых изображений, предлагающая инструменты для преобразования и обработки изображений в различных форматах. Платформа G’MIC включает в себя сотни алгоритмов и функций, предназначенных для обработки изображений, поддерживает многопоточность и использует OpenMP для ускорения вычислений за счет распределения нагрузки между несколькими ядрами. Результаты представлены в секундах, которые потребовались для завершения каждого из трех тестов.

На производительность в тесте влияет пропускная способность памяти, что дает преимущество процессорам, использующим оперативную память с высокой скоростью. Результаты, полученные для KaiXian KX-7000, вновь оказались неутешительными, даже если сравнивать их с другими китайскими решениями. Лишь в тесте двумерной функции Kirin по неясной причине он значительно уступал, а в остальных тестах процессоры Huawei и Loongson демонстрировали большую скорость работы, чем решение Zhaoxin — на 32%-45% и 16%-48% соответственно. Аналогичная ситуация наблюдается и у западных процессоров: даже Ryzen 5 1500X показал более высокую скорость, за исключением подтеста 3D Elevated Function, не говоря уже о Core i3-12100, который был в 2,2-2,5 раза быстрее рассматриваемого китайского чипа.

Показать исходные данные

RSVG/librsvg – это библиотека, предназначенная для работы с векторной графикой, представленной в формате SVG. В ходе бенчмарка измеряется время, необходимое для преобразования векторной графики в формат PNG, что является распространенной задачей, например, при просмотре современных веб-сайтов. В тесте используется один большой SVG-файл, хотя в реальных условиях обычно приходится иметь дело с множеством небольших изображений, но суть задачи остается той же.

При обработке векторной графики процессор KaiXian KX-7000 показал производительность на 16% выше, чем Kirin 9000C, однако уступает Loongson на 30%. Рассмотренный x86-совместимый процессор значительно отстает от Ryzen 5 1500X и Core i3-12100, проигрывая им в 1,5 и 2,5 раза соответственно. Таким образом, текущая ситуация не вызывает оптимизма: без использования специализированных SIMD-инструкций китайский процессор остается одним из самых медленных.

Показать исходные данные

Мы также рассмотрим еще один универсальный тест, оценивающий работу с изображениями. RawTherapee – это кроссплатформенное приложение для каталогизации и обработки фотографий, полученных с цифровых камер в формате RAW. Оно является аналогом Adobe Photoshop Lightroom и Aperture, но распространяется с открытым исходным кодом. В ходе тестирования измеряется время, затрачиваемое на обработку и преобразование RAW-файлов, что является распространенной задачей для профессиональных фотографов.

В данном тесте KaiXian KX-7000 демонстрирует более высокие показатели по сравнению с процессорами Kirin 9000C и Loongson 3A6000, обеспечивая преимущество в 30% и 47% соответственно. Однако этого недостаточно для достижения уровня западных процессоров. Скорость обработки RAW-файлов процессором Zhaoxin в RawTherapee оказалась на 12% ниже, чем у Ryzen 5 1500X, а Core i3-12100 превосходит его на целых 76%. На текущий момент результаты в этом разделе не внушают оптимизма, и эти тесты уже отражают реальные условия – если обработка каждого кадра занимает почти две минуты вместо одной, то при большом объеме фотографий это будет ощутимо.

Показать исходные данные

Перейдем к сжатию и распаковке изображений. tjbench — это инструмент для оценки эффективности распаковки JPEG-файлов с использованием библиотеки libjpeg-turbo, которая оптимизирована с применением SIMD-инструкций, поддерживаемых современными архитектурами центральных процессоров. Неясно, насколько хорошо библиотека адаптирована для ARM и LoongArch, хотя, согласно описанию программы, поддержка соответствующих SIMD-инструкций была добавлена.

В ходе тестирования KaiXian KX-7000 показал результаты, сопоставимые с Kirin 9000C. Оба китайских процессора демонстрируют производительность, почти вдвое превышающую показатели Loongson. Однако процессор AMD обходит Zhaoxin на 10%, а Core i3-12100 выполняет конвертацию JPEG-файлов на 80% быстрее. Таким образом, несмотря на то, что протестированный сегодня китайский процессор справился с поставленной задачей достаточно хорошо, и программная оптимизация с использованием SIMD была проведена, отрыв от западных решений остаётся значительным.

Показать исходные данные

Теперь перейдем к тестам кодирования изображений, представляющим собой более серьезное испытание. OpenJPEG – это кодек, предназначенный для изображений в формате JPEG 2000, и в соответствующем тесте используется крупное панорамное изображение в формате TIFF, занимающее 717 МБ, которое преобразуется в формат JPEG2000. Время конвертации отображено на диаграмме в миллисекундах.

Еще один весьма обнадеживающий результат: в сравнении с Loongson 3A6000, x86-совместимый процессор продемонстрировал прирост производительности в 40% — очевидно, что программное обеспечение лучше адаптировано к набору инструкций x86, нежели к LoongArch. ARM, представленный Kirin 9000C, в этом тесте проиграл процессору Zhaoxin примерно на 16%. Даже Ryzen 5 1500X оказался медленнее KaiXian KX-7000 на 8%, хотя Core i3-12100 по-прежнему быстрее — в этот раз на 16%. Тем не менее, можно сделать вывод, что по IPC в данном конкретном тесте результаты выглядят неплохо. Рассмотрим тесты других форматов сжатия.

Показать исходные данные

В рамках очередного теста производительности используется библиотека Google libwebp для преобразования изображений в формат WebP. Для кодирования применяется утилита cwebp. В качестве исходного материала берется JPEG-файл с разрешением 6000×4000 пикселей, и измеряется скорость его перекодирования в WebP, выраженная в мегапикселях в секунду.

Эффективность программного обеспечения, адаптированного к аппаратным возможностям процессоров, играет важную роль, и в этом аспекте большинство китайских процессоров не демонстрируют выдающихся результатов. Благодаря совместимости с архитектурой x86, KaiXian KX-7000 обеспечивает достойную скорость обработки изображений в этом формате, опережая Kirin 9000C на 22%-37%, в то время как Loongson уступает рассматриваемому сегодня процессору в 2,5 раза – но только в двух из трех тестов, а в наиболее сложном подтесте сжатия без потерь Zhaoxin начинает немного отставать от него. При этом, если в первых двух тестах KaiXian KX-7000 проигрывал Ryzen 5 1500X лишь на 18%, то в третьем уже отстал в полтора раза. Неудивительно, что Core i3-12100 показывает еще более высокую скорость: в первых двух тестах он быстрее на 65%-71%, а в третьем – более чем вдвое!

Показать исходные данные

Этот тест также аналогичен предыдущему: он применяет библиотеку Google libwebp2 для кодирования изображения в формат WebP2. Как и в предыдущем тесте, используется формат WebP, и входной файл остается прежним. WebP2 – это экспериментальный формат, находящийся в разработке, который поддерживает 10-битный HDR, обеспечивает более эффективное сжатие с потерями и улучшенное сжатие без потерь, а также предоставляет полную поддержку многопоточности.

В этом тесте KaiXian KX-7000 демонстрирует производительность, сопоставимую с Kirin 9000C и Loongson 3A6000. Он превзошел первого из них, обогнав в полтора раза, а второго оказался быстрее в два раза – это весьма достойный показатель. Особенно заметно, что удалось впервые обойти Ryzen 5 1500X, хотя и с небольшим преимуществом, в пределах 3%-9%. Core i3-12100, представляющий собой еще один западный процессор, по-прежнему демонстрирует более высокую скорость, опережая на 33%-45%. Таким образом, по IPC китайский процессор Zhaoxin показывает хорошие результаты, приближаясь к архитектуре Zen 1, что можно оценить как значительное достижение.

Несмотря на то, что Etcpak позиционируется создателями как «самый быстрый компрессор ETC на планете», он не смог корректно работать с процессором Zhaoxin KaiXian KX-7000 при попытке сжатия текстур с очень высоким разрешением в форматы ETC и S3. Подобные проблемы иногда возникают в неоптимизированном программном обеспечении, даже при использовании систем, основанных на китайских процессорах, совместимых с архитектурой x86.

Криптографические тесты

Криптографические задачи также являются важным аспектом оценки производительности процессоров. Сегодняшние центральные процессоры способны в реальном времени шифровать значительные объемы данных, и многие из них поддерживают специальные команды для популярных алгоритмов шифрования, например AES.

Показать исходные данные

Aircrack-ng – это комплекс инструментов, которые используются для поиска Wi-Fi-сетей, анализа передаваемого по ним трафика, и, что наиболее важно для нас, для оценки надёжности ключей шифрования WEP и WPA/WPA2, то есть для их расшифровки. При проведении подобных проверок ключевую роль играют количество вычислительных ядер и высокопроизводительная архитектура с высокой тактовой частотой, а не объем кэша и скорость оперативной памяти, поэтому можно рассчитывать на хорошие результаты при использовании процессора Zhaoxin.

Оптимизация утилиты под архитектуры x86 и ARM прошла успешно, тогда как с LoongArch ситуация не столь благоприятная. При этом, вычислительные ядра KaiXian представлены в достаточном количестве и обладают высокой частотой. В результате, производительность KX-7000 оказалась на исключительно высоком уровне – более чем вдвое превысила показатели Kirin 9000C, который, в свою очередь, оказался более чем втрое быстрее Loongson 3A6000. Таким образом, Zhaoxin демонстрирует результат, который в семь раз выше, чем у последнего. Также, рассматриваемый сегодня процессор отлично взаимодействовал с Ryzen 5 1500X, показав результат, который вдвое превышает его. Однако Core i3-12100 по-прежнему демонстрирует наилучшую скорость, и китайский процессор, совместимый с x86, уступает ему лишь на 23%, что является весьма показательным результатом.

Показать исходные данные

Bork – это компактная кроссплатформенная программа для шифрования файлов, разработанная на языке Java. Тестирование направлено на определение времени, необходимого для шифрования демонстрационного файла. Метод шифрования остается неясным, однако, согласно результатам, аппаратное ускорение шифрования, которое поддерживают некоторые процессоры, не используется.

Таким образом, утилита KaiXian KX-7000 демонстрирует производительность, занимая промежуточное положение между Kirin 9000C и Loongson: она превосходит первый, но уступает второму. Вероятно, бенчмарк не был оптимально адаптирован для всех представленных вычислительных архитектур. Показатели Zhaoxin в сравнении с западными процессорами также не внушают оптимизма – китайский процессор оказался на 14% медленнее процессора Ryzen 5 1500X, а его производительность ниже, чем у Intel, в два раза.

Показать исходные данные

Crypto++ — это библиотека с открытым исходным кодом для языка C++, разработанная для работы с широким спектром криптографических алгоритмов. Для процессоров x86 предусмотрена поддержка расширения AES-NI, а для ARM, вероятно, реализованы оптимизации, чего нельзя сказать о LoongArch. Для всех алгоритмов, охватываемых тестовым программным обеспечением, мы использовали единый общий результат.

В ходе сегодняшнего анализа китайский процессор продемонстрировал несколько меньшую производительность по сравнению с Kirin 9000C, отставая на 11%. Loongson 3A6000, в свою очередь, уступил разработке Zhaoxin в два раза. В состязании с условными западными аналогами особых успехов не наблюдается — китайский CPU не смог превзойти даже Ryzen 5 1500X, не говоря уже о Core i3-12100, который, как обычно, лидирует и демонстрирует почти вдвое большую скорость по сравнению с KaiXian KX-7000.

Показать исходные данные

Финальным тестом раздела стала криптографическая библиотека OpenSSL, широко известная благодаря использованию в протоколе HTTPS. Это программное обеспечение с открытым исходным кодом поддерживает различные алгоритмы хеширования, шифрования и распространенные криптографические стандарты. Для тестирования были выбраны два варианта: RSA4096 и SHA512, производительность которых оценивалась по-разному – в первом случае измерялось количество создаваемых подписей в секунду, во втором – скорость в мегабайтах в секунду.

Несмотря на то, что это не наблюдается во всех тестах, производительность китайского процессора, совместимого с архитектурой x86, в данном случае оказалась весьма достойной, а в AES он продемонстрировал лидерство, что можно считать уникальным событием для всех проведённых тестов, опередив даже лучший из сравниваемых западных процессоров – Core i3-12100! Ожидалось, что Ryzen 5 1500X будет медленнее, однако разница оказалась почти вдвое, что также является беспрецедентным результатом. Судя по всему, китайский процессор Zhaoxin демонстрирует отличные показатели в ускорении AES. Однако в других тестах ситуация менее благоприятная: в SHA512 и RSA4096 он превосходит процессор AMD, но уступает решениям Intel, причем во втором случае отставание составляет 77%.

Современная модель AES демонстрирует значительно превосходящие показатели по сравнению с другими китайскими процессорами, показывая скорость в 26 и 44 раза выше, чем у Kirin и Loongson соответственно. В ходе первого этапа тестирования RSA процессор KaiXian KX-7000 также опередил конкурентов, но уже с меньшим отрывом: на 6% и 118%. Тестирование SHA позволило ему обойти лишь Loongson, тогда как процессор Huawei продемонстрировал результат на 37% лучше, чем у KX-7000. Тем не менее, результаты бенчмарка OpenSSL можно оценить как весьма успешные для процессора компании Zhaoxin, поскольку в этом тесте он показал производительность, сопоставимую с решениями Zen 1 и Core 12-го поколения, хотя и не самыми мощными из них.

Сжатие и распаковка

Большинство пользователей знакомы с процессами сжатия и распаковки данных, а также с популярными архиваторами. Для оценки их работы мы провели тесты, используя наиболее распространенные инструменты, применяемые в системах Unix/Linux.

Показать исходные данные

Gzip — распространенный формат сжатия без потерь, используемый в Unix-системах и основанный на методе Deflate (сочетании алгоритмов LZ77 и Хаффмана). Данный тест предназначен для определения времени сжатия двух версий исходного кода ядра Linux 4.13. Анализ результатов, полученных на различных системах в предыдущих публикациях, показывает, что пропускная способность памяти оказывает незначительное влияние на этот процесс.

Процессор Zhaoxin показал более высокую производительность по сравнению с Loongson 3A6000 и Kirin 9000C, превзойдя их на 11% и 21% соответственно. Его результаты также близки к показателям Ryzen 5 1500X, уступая ему всего около 11%. Таким образом, даже в сравнении с процессором AMD, рассматриваемый CPU демонстрирует вполне достойный уровень IPC. Однако Core i3-12100 обходит его по скорости, причем значительно – на 66%. Учитывая, что это уже довольно старые западные процессоры, становится очевидно, что китайским разработчикам предстоит еще много работы.

Показать исходные данные

Архиватор 7-zip широко используется на различных платформах и привлекает внимание благодаря достаточно эффективному, но ресурсоемкому способу сжатия. Также он представляет интерес тем, что тест является кроссплатформенным, что позволяет сравнивать результаты на разных операционных системах. При сжатии обычно наблюдается зависимость от скорости работы памяти, в то время как при распаковке она значительно ниже.

В данном тесте результаты рассмотренного сегодня процессора Zhaoxin можно охарактеризовать как… умеренные. Учитывая заявленную тактовую частоту, можно было бы рассчитывать на более высокую производительность, хотя и меньшего – из-за неоптимальной подсистемы кэширования и не самого быстрого контроллера памяти. При выполнении задач, связанных со сжатием данных, китайский CPU показывает результат на 8% лучше, чем Loongson, но уступает Kirin на 4%. Очевидно, что западные процессоры демонстрируют более высокую скорость, однако Ryzen 5 1500X достаточно близок к китайским решениям – он лишь на 6% быстрее KaiXian KX-7000, и по показателю IPC они сошлись. И всё было бы неплохо, если бы Core i3-12100 при сжатии не обгонял его на внушительные 75%.

В плане производительности Intel не является безоговорочным лидером, поскольку наиболее эффективным оказался Kirin 9000C. Этот чип на 13% превосходит процессор Zhaoxin, который, в свою очередь, быстрее Loongson 3A6000 на 22%. Китайский процессор, совместимый с архитектурой x86, уступает Core i3-12100 лишь на 8%, но при этом демонстрирует прирост в 9% по сравнению с Ryzen 5 1500X. Таким образом, процессор Zhaoxin по количеству инструкций, выполняемых за такт, показывает себя достаточно конкурентоспособным.

Показать исходные данные

Тестирование сжатия включает в себя измерение времени, затрачиваемого на сжатие и распаковку стандартного файла silesia.tar с использованием алгоритма LZ4. Этот алгоритм принадлежит к семейству методов сжатия LZ77, представляющих собой способ сжатия данных без потерь, разработанный для достижения высокой скорости сжатия и распаковки. Он обеспечивает меньшую степень сжатия по сравнению с классическим gzip, но значительно превосходит его по скорости. В процессе тестирования мы использовали уровень сжатия Level 9 и оценивали скорость сжатия и распаковки.

При сжатии данных KaiXian KX-7000 продемонстрировал несколько более низкую скорость по сравнению с Kirin 9000C и Loongson 3A6000, отставая от них на 6% и 4% соответственно. Как и все эти чипы, он работает медленнее, чем западные процессоры. В данном случае, KX-7000 уступил Ryzen 5 1500X примерно на 12%, а Core i3-12100 при сжатии информации оказался значительно быстрее китайского чипа, опередив его на 67%. К сожалению, и по количеству инструкций, обрабатываемых за такт, у этого китайского процессора наблюдаются трудности – очевидно, это связано с недостаточной вычислительной эффективностью, вызванной неоптимальной работой кэш-памяти, а также зависимостью от контроллера памяти.

Процесс распаковки выполняется существенно быстрее и не ограничен пропускной способностью оперативной памяти, в отличие от сжатия. Однако и в этой операции KaiXian KX-7000 оказался медленнее остальных — Kirin 9000C превзошел его на 30%, а Loongson — на 10%. Неудивительно, что Ryzen 5 демонстрирует скорость распаковки, на 68% превышающую показатели KX-7000, а Core i3 и вовсе обходит его в 2,3 раза.

Показать исходные данные

Тест сжатия измеряет время, необходимое для сжатия и распаковки файла-примера silesia.tar с использованием метода Zstd (Zstandard). Это алгоритм без потерь, разрабатываемый при поддержке Facebook. Он объединяет словарь сжатия типа LZ77 и эффективное энтропийное кодирование типа ANS, подобное коду Хаффмана. На тестах был использован уровень сжатия Level 19 Long.

Рассматриваемый сегодня процессор Zhaoxin продемонстрировал производительность при сжатии в указанном формате, которая оказалась еще ниже, что снова поставило его на последнее место в очередном сравнении. Kirin 9000C превосходит сегодняшний процессор на 5% при сжатии и на 11% при распаковке, а Loongson 3A6000 был быстрее на 22% и 23% соответственно. С западными Core i3-12100 и Ryzen 5 1500X сравнение выглядит еще более неутешительно — процессор Intel при сжатии на 82% быстрее, а AMD — на 50%. При распаковке ситуация еще хуже: KaiXian KX-7000 оказался на 59% медленнее решений AMD, а Core i3-12100 — в 2,5 раза быстрее.

Показать исходные данные

Широко распространенным форматом сжатия является многопоточная версия bzip2, основанная на алгоритме Барроуза — Уилера. Она обеспечивает более высокую степень сжатия для большинства файлов по сравнению с традиционными решениями gzip и zip, но при этом работает медленнее. Важно отметить, что современная версия алгоритма предъявляет значительные требования к процессору и является распараллеленной. В ходе тестирования было измерено время сжатия и распаковки файла FreeBSD-13.0-RELEASE-amd64-memstick.img с использованием Parallel BZIP2. На скорость сжатия заметно влияет использование нескольких потоков, а производительность распаковки также подвержена ее влиянию.

Процессоры KaiXian KX-7000 продемонстрировали в данном тесте несколько лучшие показатели: они незначительно превосходят Kirin, а сравнение с Loongson не дает однозначного результата. По сравнению с процессором Huawei, рассматриваемый сегодня Zhaoxin показывает более высокую скорость как при сжатии, так и при распаковке данных – на 1% и 7% соответственно. Однако, при взаимодействии с Loongson наблюдается нетипичная картина: при сжатии данных последний уступает на 13%, а при распаковке он опережает KX-7000 на 16%. Процессоры западного производства демонстрируют более высокую производительность по сравнению с китайскими x86-совместимыми: Ryzen 5 1500X обходит их на 34% и 21% при сжатии и распаковке данных. Процессор Intel сжимает файлы почти вдвое быстрее, а при распаковке показывает на 90% большую производительность. Очевидно, что решение Zhaoxin не позволило получить ожидаемо высоких результатов.

Показать исходные данные
Не пропустите:  Honor Magic V5: подробный обзор смартфона-раскладушки

В качестве финального теста раздела мы измерили время распаковки архива .tar.xz, содержащего установочные файлы веб-браузера Mozilla Firefox 84.0. Наши предыдущие эксперименты продемонстрировали, что пропускная способность памяти оказывает некоторое влияние на скорость распаковки.

Firefox распаковывается на тестируемом китайском процессоре медленнее, чем все остальные, за исключением Kirin 9000C – он проигрывает сегодняшнему герою всего на 5%. Loongson 3A6000, в свою очередь, справился с распаковкой на 26% быстрее, не говоря уже о западных процессорах. Однако Ryzen 5 1500X показывает результаты примерно на одном уровне с Loongson, а Core i3-12100 опередил KaiXian KX-7000 почти вдвое – такое преимущество часто связано с более высокими показателями вычислительных ядер, более эффективной подсистемой кэширования данных, а также использованием DDR5-памяти, что весьма важно при распаковке данных. Zhaoxin, как сообщается, поддерживает такую память, но в системах с ним используется только DDR4.

Компиляция и разработка

Несмотря на то, что этот раздел не отличается большим объемом и не пользуется высокой популярностью, он представляет определенный интерес. Вряд ли среди наших читателей много разработчиков, но появление китайских процессоров различных архитектур в настольных компьютерах – относительно недавнее событие, и интерес к разработке программного обеспечения для них, вероятно, существует, особенно в Китае, который активно переходит на собственные решения. Мы выясним, как обстоят дела у очередного китайского процессора с компиляцией кода, сборкой приложений и другими задачами, связанными с разработкой ПО.

Показать исходные данные

Build2 представляет собой кроссплатформенный инструментарий, предназначенный для компиляции кода на языках C и C++. Первый этап тестирования оценивает время, необходимое для установки Build2 из исходников. Влияние скорости работы памяти на результаты этого теста незначительно, что было установлено в ходе предыдущих исследований.

KaiXian KX-7000 не может похвастаться выдающимися результатами, по скорости компиляции программного обеспечения он занимает промежуточное положение между Loongson 3A6000 и Kirin 9000C. Процессор Zhaoxin демонстрирует небольшое преимущество над одним из китайских аналогов, но уступает другому на такое же значение. Достичь уровня западных процессоров ему не удалось: Ryzen 5 1500X справился с компиляцией кода быстрее на 38%, а Core i3-12100 – в 2,3 раза быстрее. Таким образом, в данном тесте Zhaoxin не проявляет высокой производительности по сравнению с другими китайскими решениями, несмотря на поддержку архитектуры x86.

Показать исходные данные

PyBench представляет собой тест, предназначенный для оценки общей производительности, поскольку он вызывает различные функции, написанные на Python. Время выполнения тестов для таких функций, как BuildinginFunctionCalls и NestedForLoops, суммируется, что позволяет получить приблизительную оценку средней производительности Python в конкретной системе.

Ситуация для KaiXian KX-7000 оказалась еще более сложной: этот китайский процессор продемонстрировал лишь незначительное превосходство над Loongson 3A6000, разница между ними составила всего 6%. В то же время, его x86-совместимый аналог из той же серии проиграл Kirin 9000C на целых 35%, что является не самым приятным показателем. Примерно на столько же рассматриваемый CPU опередил Ryzen 5 1500X, который уже давно представлен на рынке. Что касается Core i3-12100, то и здесь он лидирует с ощутимым преимуществом — он быстрее KX-7000 почти в три раза.

Показать исходные данные

В заключение этого раздела представлены два теста, оценивающих скорость компиляции: проекты, написанные на C++ с использованием библиотеки линейной алгебры Eigen, и проекты, разработанные на Erlang – языке программирования и среде выполнения для создания масштабируемых систем реального времени. Эти тесты измеряют время, необходимое для компиляции указанных проектов, и результаты выражаются в секундах. Влияние параллельной статической обработки (ПСП) на результаты проявляется, но не является существенным.

Проблемы с производительностью KaiXian KX-7000 в данном сегменте стали еще более заметными, поскольку по скорости компиляции он значительно уступил конкурентам, особенно при компиляции библиотеки Eigen, причины чего остаются неясными. Kirin 9000C и Loongson 3A6000 выполнили эту задачу быстрее, примерно в 2,6 раза, в то время как во втором тесте Zhaoxin показал преимущество в 14% и 3% соответственно. Неудивительно, что Ryzen 5 1500X был быстрее даже во втором случае – на 19%, а в Eigen – в 3,5 раза. С Core i3-12100 всё обстоит привычно: он значительно превосходит его по скорости, на 82% и в 6 раз, соответственно, что указывает на значительный разрыв в производительности по сравнению с процессорами Zhaoxin, даже если сравнивать их со старыми западными моделями.

Высокопроизводительные вычисления

Сложность тестового раздела заключается в том, что именно высокопроизводительные вычисления предъявляют максимальные требования к вычислительной мощности процессоров, однако процессор начального уровня для настольных ПК вряд ли будет использоваться для решения подобных задач. Тем не менее, мы рассматриваем тесты китайских процессоров в этом разделе, поскольку все производители предлагают серверные CPU той же архитектуры с большим количеством ядер. По скорости настольных решений можно получить представление о вычислительной архитектуре компаний в целом, а не только о решениях для настольных ПК.

Показать исходные данные

Первый тест предназначен для оценки производительности Algebraic Multi-Grid (AMG) — параллельного решателя, основанного на алгебраических многосеточных методах, который применяется для решения линейных систем на неструктурированных сетках. Результатом теста является показатель, характеризующий общую производительность, причем более высокое значение свидетельствует о более высокой скорости вычислений. Как и следовало ожидать от тестов, используемых для оценки научных вычислений, на результат существенно влияет скорость обмена данными с памятью.

Процессор KaiXian KX-7000 вновь разочаровал, показав наихудший результат среди протестированных ЦП. Kirin 9000C и Loongson 3A6000 в первом тесте продемонстрировали очень близкие результаты, превзойдя показатели предыдущих на 37%, что является значительным приростом. Однако, по количеству выполняемых инструкций за такт в данном тесте, все китайские разработки существенно отстают даже от Ryzen 5, не говоря уже о Core i3 5-го поколения. Тестируемое решение оказалось в три раза медленнее, чем разработки Zhaoxin, а процессор Intel, не являющийся новейшим, обогнал китайский x86-процессор в этом тесте в 4,2 раза.

Показать исходные данные

Тест High Performance Conjugate Gradient (HPCG) предназначен для решения системы линейных уравнений, включающей в себя большую разреженную квадратную матрицу, с применением метода сопряженных градиентов и предварительного предобуславливания Гаусса-Зейделя. Алгоритм реализован с использованием MPI и OpenMP, что обеспечивает поддержку многоядерных центральных процессоров. На результаты тестирования также оказывает значительное влияние скорость работы памяти, из-за чего процессоры с разной тактовой частотой могут демонстрировать схожую производительность.

Производительность китайского процессора Zhaoxin, совместимого с архитектурой x86, остается относительно невысокой, несмотря на то, что в этот раз он показал результаты, превышающие показатели Kirin 9000C вдвое. Однако, такое преимущество может быть обусловлено ограниченным объемом памяти у последнего (решение Huawei оснащено встроенной памятью объемом всего 8 ГБ, которую невозможно расширить). В то же время, Loongson 3A6000 демонстрирует сопоставимый уровень производительности, разница между ними не превышает 3%.

Западные процессоры значительно превосходят аналогичные решения, и в данном тесте KaiXian KX-7000 продемонстрировал скорость на 3,2 раза меньшую, чем у Ryzen 5 1500X, а также более чем в четыре раза уступил Core i3-12100 – это очередной неутешительный итог. В тестах, предъявляющих меньшие требования к памяти и кэш-памяти, китайский процессор, вероятно, покажет несколько лучшие результаты, но это тоже не является гарантированным.

Показать исходные данные

Himeno Benchmark представляет собой линейный решатель уравнения Пуассона по давлению, применяющий точечный метод Якоби и демонстрирующий производительность в мегафлопах. На полученные результаты также оказывает заметное влияние пропускная способность памяти, однако она не является определяющим фактором; в предварительных испытаниях процессоры AMD и Intel с различной частотой показали существенно различающиеся показатели.

В данном тесте KaiXian KX-7000 продемонстрировал наихудшие показатели, уступая Kirin 9000C на 44%, а Loongson 3A6000 — на 23%. Эти результаты нельзя считать позитивными. Ryzen 5 1500X показал результаты, сопоставимые с процессором Huawei, опережая его на 42%, что подчеркивает значительное отставание рассматриваемого китайского чипа даже от процессоров поколения Zen 1. Анализ результатов более современной модели Core i3-12100 с памятью DDR5 только усиливает негативное впечатление — западный процессор оказался в 2,9 раза быстрее.

Показать исходные данные

Mocassin (Монте-Карло моделирование ионизированных туманностей) – это инструмент для проверки моделей ионизированных туманностей с использованием метода Монте-Карло. Для оценки производительности используются два варианта теста, причем один из них требует больше времени и ресурсов для завершения, что позволяет получить время решения в секундах. Параллельные вычисления также оказывают влияние на результат, однако оно менее значительно, чем в предыдущих тестах.

В данном тесте китайский процессор, который мы сегодня рассматриваем, показал превосходство над однокристальной системой HiSilicon в 4-6 раз, однако это произошло из-за серьезной нехватки оперативной памяти в случае системы на базе Kirin 9000C, использующей встроенные микросхемы памяти объемом вдвое меньшим. Процессор Loongson 3A6000 демонстрирует более высокую скорость, опережая на 22% и 9% в двух подтестах. Сравнение с западными процессорами не выглядит столь негативным: Ryzen 5 1500X оказался быстрее лишь на 10% и 33%, а вот Core i3-12100 по-прежнему значительно превосходит все остальные по производительности — на 70% и 106% соответственно.

Показать исходные данные

NAS Parallel Benchmarks (NPB) – это комплекс тестов, созданный NASA для оценки производительности высокопроизводительных вычислительных систем. Он включает в себя несколько задач различной сложности и масштаба. При оценке результатов бенчмарка, которые представлены в виде числа операций в секунду (в миллионах), мы выбрали два варианта из предложенных. Влияние параллельной обработки проявляется только в первой подзадаче.

Сопоставлять KaiXian KX-7000 и Kirin 9000C больше не представляется целесообразным, поскольку при анализе результатов предыдущего теста уже было установлено, что 8 ГБ оперативной памяти у второго центрального процессора явно недостаточно, что объясняет его результат, значительно уступающий процессору Zhaoxin. Однако x86-совместимый китайский процессор показал себя достаточно хорошо в этом тесте, продемонстрировав почти в четыре раза более высокую производительность в 3D-варианте быстрого преобразования Фурье (3D FFT) по сравнению с Loongson.

Производительность KX-7000 в первом тесте оказалась близка к Ryzen 5 1500X, уступая ему всего на 9%. Core i3-12100, безусловно, демонстрирует более высокую скорость, опережая его почти на 70%. Zhaoxin показал результат во втором тесте в 2,8 раза лучше, чем Loongson, однако наиболее любопытным является его сопоставление с процессорами западных компаний: он неожиданно превзошел даже Core i3, хотя и незначительно – на 6%, а Ryzen 5 уступил ему почти в два раза – это действительно неожиданный результат!

Показать исходные данные

Parboil – это комплекс тестов, разработанный исследовательской группой Университета Иллинойса для оценки эффективности вычислительных архитектур. Сценарии Parboil совместимы с многопоточными средами OpenMP, OpenCL и CUDA. В нашем исследовании мы использовали только OpenMP-реализацию в четырех подтестах. Время выполнения задачи фиксировалось во всех тестах. Влияние параллельных вычислений проявляется не во всех подтестах, однако в ряде из них оно весьма заметно и оказывает существенное воздействие на производительность.

Оценки KaiXian KX-7000 неоднозначны: в некоторых случаях он демонстрирует результаты, превосходящие показатели Loongson и Kirin, иногда даже в два раза, но в других тестах Zhaoxin занимает последнее место. Так, в тесте Stencil он проиграл Kirin почти втрое, а от Core i3 – в четыре раза. В подтесте MRI Gridding этот x86-совместимый процессор китайского производства был быстрее только Loongson, значительно уступая западным аналогам. В тесте LBM он показал результат на 90% лучше, чем Loongson, и на 50% лучше, чем Kirin, опередив даже Ryzen 5 на 14%, но уступив Core i3 на 64%. Однако в подтесте CUTCP процессор Zhaoxin превзошел даже западные CPU на несколько процентов, увеличив отрыв от Kirin на 38% и обогнав Loongson в 2,5 раза, что свидетельствует о периодическом проявлении высокой производительности KaiXian KX-7000.

Показать исходные данные

Rodinia – это набор инструментов, предназначенный для повышения производительности ресурсоемких приложений с использованием CUDA, OpenMP и OpenCL. Аналогично предыдущему тесту, мы применяли только версию с OpenMP, поскольку аппаратная поддержка ускорения вычислений на GPU отсутствует. Время выполнения четырех подтестов указано в секундах; более низкий показатель свидетельствует о более высокой эффективности. Заметное воздействие ПСП на результаты было отмечено в двух из четырех подтестов: первом и третьем.

В зависимости от конкретного теста, Zhaoxin демонстрировал либо превосходство над другими китайскими процессорами, либо уступал им. Например, он показал себя хорошо в HotSpot3D, где Kirin не смог работать из-за недостатка памяти, а Loongson выдал крайне слабый результат, в то время как KX-7000 обогнал его в 4,5 раза! В решателе CFD x86-совместимый процессор из Китая оказался быстрее Kirin на 7%, однако уступил Loongson на 28%, а в LavaMD он превзошел оба чипа, опередив их на 6% и 25% соответственно. В подтесте Streamcluster рассматриваемый процессор быстрее Loongson на 46%, в то время как Kirin оказался быстрее его на 52% – таким образом, сравнение китайских процессоров друг с другом не дает однозначного вывода, поскольку у каждого из них есть свои преимущества.

Процессоры Core i3-12100 и Ryzen 5 1500X демонстрируют заметно более высокую скорость, причем первый из них в ряде случаев обгоняет конкурентов в несколько раз. Рассматриваемый сегодня китайский процессор, который редко становится объектом внимания, показывал результаты сопоставимые с Ryzen или даже превосходящие их – на 5% в LavaMD, однако в остальных тестах он значительно уступал процессору AMD. Решения от Intel всегда демонстрировали более высокую производительность – в 2,7, 1,7, 3,5 и 2,5 раза для четырех подтестов соответственно. Таким образом, выявленные недостатки производительности Zhaoxin указывают на аппаратные проблемы, такие как архитектурные недоработки, поскольку оправдать их программной оптимизацией при условии x86-совместимости уже не представляется возможным.

Молекулярная динамика

Эти тесты также связаны с высокопроизводительными вычислениями, которые были описаны ранее, и вычислительная гидродинамика также затрагивалась там, однако мы выделили их в отдельный раздел, поскольку их оказалось значительное количество.

Показать исходные данные

CloverLeaf представляет собой гидродинамическое тестирование, основанное на методе Лагранжа-Эйлера, использующее OpenMP для работы на многопоточных процессорах. В качестве основы взят наиболее простой расчет clover_bm, и тест выдает время его выполнения в секундах. Результаты теста подвержены заметному влиянию ПСП, что необходимо учитывать.

Процессор KaiXian KX-7000 продемонстрировал производительность, сопоставимую с Kirin 9000C, и оба центральных процессора значительно превосходят Loongson 3A6000 – на более чем 30%, что является существенной разницей. Вероятно, на это повлияла недостаточная оптимизация программного обеспечения для специфических особенностей китайского процессора, использующего уникальную архитектуру. Сегодня рассматриваемый процессор Zhaoxin в данном тесте работает на 50% медленнее, чем процессор Ryzen 5 1500X, а модель Core i3-12100 оказалась в 2,5 раза производительнее x86-совместимого процессора китайского производства — к сожалению, результаты оказались не самыми оптимистичными.

Показать исходные данные

Dolfyn служит эталоном для оценки эффективности современных подходов к численному моделирования вычислительной гидродинамики (CFD). Этот тест определяет время, необходимое для выполнения демонстрационных программ вычислительной гидродинамики, которые поставляются в комплекте, и предоставляет данные о затраченном времени на вычисления. Вклад графического процессора (GPU) в результаты этого теста незначителен по сравнению с тактовой частотой центрального процессора (CPU.

В данном тесте процессор компании Zhaoxin оказался наихудшим. Он продемонстрировал проигрыш Kirin 9000C в размере 43%, а Loongson превзошел его на 14%. Сравнивая KX-7000 с процессорами западных производителей, его производительность оказалась значительно ниже: она составила 60% от показателей Ryzen 5 1500X и в 2,6 раза уступила Core i3-12100. Показатель количества инструкций, выполняемых за такт, у KaiXian KX-7000 оказался неудовлетворительным уже во втором тесте раздела.

Показать исходные данные

Large-scale Atomic/Molecular Massively Parallel Simulator (LAMMPS) представляет собой программный пакет для классического моделирования молекулярной динамики, предназначенный для решения сложных вычислительных задач. Для работы на многопроцессорных системах используется интерфейс MPI, а в качестве тестовой модели нами была выбрана Rhodopsin Protein. По результатам предыдущих исследований, влияние пропускной способности памяти в данном бенчмарке незначительно.

В данном тесте KaiXian KX-7000 продемонстрировал высокую скорость работы. Однако, процессор Kirin 9000C показал результат, который был более чем в шесть раз хуже, что связано с недостатком оперативной памяти, её объем был вдвое меньше. Даже процессор Loongson 3A6000 уступил рассматриваемому устройству примерно в полтора раза. x86-совместимый китайский процессор Zhaoxin показал результат на 30% лучше, чем Ryzen 5 1500X, что говорит о хороших показателях IPC. Несмотря на это, Core i3-12100 всё равно оказался на 30% быстрее, поэтому китайским разработчикам еще предстоит совершенствовать свои решения, принимая во внимание устаревший возраст западных центральных процессоров.

Показать исходные данные

Livermore Unstructured Lagrangian Explicit Shock Hydrodynamics (LULESH) – это трехмерное неструктурированное гидродинамическое моделирование Лагранжа, предназначенное для решения стандартной аналитической задачи Седова. Влияние параллельной работы практически не отражается на производительности, и в данном тесте им можно пренебречь.

Новый китайский процессор, совместимый с архитектурой x86, преподнес немало сюрпризов – и не только благодаря тому, что он в 20 раз превосходит Kirin 9000C (это объясняется меньшим объемом памяти в данной системе), и не из-за того, что Loongson оказался медленнее чем на 2,5 раза. Наибольшее удивление вызвал тот факт, что в данном тесте KaiXian KX-7000 показал лучший результат. Победы над Ryzen 5 1500X случались, но чтобы обогнать Core i3-12100, потребовались значительные усилия. У Zhaoxin это получилось – процессор AMD в этом тесте уступал в производительности вдвое, а Intel проиграл ощутимые 18%. В данном тесте Zhaoxin демонстрирует отличные показатели по количеству выполняемых инструкций за такт!

Показать исходные данные

Pennant – это приложение, предназначенное для расчетов гидродинамики на неструктурированных сетках в двумерном пространстве. Оно включает два отдельных подтеста и предоставляет время их выполнения в секундах. При анализе результатов следует учитывать значительное влияние пропускной способности памяти на оба подтеста.

Ограниченный объем памяти, всего 8 ГБ оперативной памяти, существенно сказался на производительности системы, построенной на базе Kirin 9000C, что привело к демонстрации крайне низких результатов – она оказалась в 3-5 раз медленнее, чем KaiXian KX-7000. Loongson показал незначительное преимущество в подтесте sedovbig (на 11%), но значительно уступал в leblancbig (на 47%). Несмотря на это, западные процессоры все еще превосходят рассматриваемый сегодня китайский чип: Ryzen 5 1500X демонстрирует на 69% и 8% большую производительность в первом и втором подтестах, а Core i3-12100 – в 2,1-2,3 раза, в зависимости от теста. Таким образом, по сравнению с другими китайскими разработчиками Zhaoxin может быть и неплох, однако до устаревших западных CPU ему еще далеко.

Показать исходные данные

И вот последний тест в этой категории. Incompact3d – это высокопроизводительный код, написанный на Fortran-MPI, предназначенный для решения системы уравнений Навье-Стокса для несжимаемой жидкости. Мы используем самую простую конфигурацию с 129 ячейками на направление, а результат отображается в секундах, затраченных на вычисления. Влияние параметров системы также довольно значительно, как и в большинстве других тестов этого и предыдущего разделов, посвященных высокопроизводительным вычислениям.

Процессоры KaiXian KX-7000 по-прежнему демонстрируют хорошие результаты в сравнении с Kirin 9000C, поскольку китайский конкурент в версии с 8 ГБ оперативной памяти не прошел очередной тест из-за недостатка ОЗУ, уступив x86-совместимому аналогу почти в три раза. Loongson 3A6000 на этот раз показал более низкую производительность по сравнению с рассматриваемым CPU, незначительно уступая ему – на четверть, что говорит о сравнительно неплохих показателях Zhaoxin. Западные процессоры превосходят их по скорости, но Ryzen 5 500X опередил текущий образец всего на 5%, а Core i3-12100 оказался быстрее на значительные 77%. Разрыв всё же существенный, особенно если учитывать, что западные процессоры, представленные в нашем обзоре, были выпущены на рынок много лет назад, а на данный момент актуальны другие поколения AMD и Intel.

Машинное обучение

Невозможно было не затронуть актуальную тему ресурсоемких вычислений, которые связаны с машинным обучением. В этом разделе представлено всего два теста, однако они представляют интерес, даже если для подобных вычислений всё чаще применяются графические процессоры, демонстрирующие большую эффективность в таких задачах, хотя и универсальные центральные процессоры также находят своё применение.

Показать исходные данные

NumPy (Numerical Python) – это математическая библиотека с открытым исходным кодом, предназначенная для языка программирования Python. Она обеспечивает поддержку многомерных массивов, в том числе матриц, и предлагает широкий набор высокоуровневых математических функций для работы с ними.

Без Loongson, Zhaoxin вновь оказался бы самым медленным процессором в сравнении. Если Loongson можно оправдать потенциальными проблемами с оптимизацией, то у x86-совместимого CPU такой отговорки нет. KaiXian KX-7000 на 20% превосходит Loongson 3A6000, однако Kirin 9000C смог обойти текущего лидера с ощутимым преимуществом – 55%. Даже Ryzen 5 1500X не демонстрирует столь высокую скорость, опережая Zhaoxin на 40%, а Core i3-12100 – самый быстрый процессор в данном сравнении (как обычно) и он в 2,5 раза быстрее очередного китайского CPU.

Показать исходные данные

Этот раздел содержит более подходящий тест. TNN — кроссплатформенна́я платформа глубокого обучения с открытым исходным кодом, разработанная компанией Tencent. Она отличается высокой производительностью и хорошо масштабируется, охватывая широкий спектр устройств – от мобильных телефонов до мощных серверов и систем на базе GPU. В целях упрощения анализа мы использовали только две модели из четырех, представленных в бенчмарке, и время выполнения тестовых задач отображено на диаграмме.

К сожалению, поводов для оптимизма нет, поскольку в данном тестировании KaiXian KX-7000 вновь показал самый низкий результат. Процессор Zhaoxin проиграл Loongson 3A6000 до 36%, в зависимости от конкретного подтеста, хотя в одном из них и превзошел его. Kirin 9000C также опережает рассматриваемый процессор – на 208%, 39% и 68% соответственно. Западные центральные процессоры демонстрируют еще более высокую производительность, Ryzen 5 1500X незначительно опередил процессор Huawei, а вот Core i3-12100 оказался в 4 раза быстрее Zhaoxin KaiXian KX-7000 в первом подтесте, в 2,7 раза во втором и почти в 3 раза в третьем. Таким образом, по числу инструкций, выполняемых за такт, x86-совместимый китайский процессор значительно отстает даже от Zen 1, и повторить попытку догнать западных «ветеранов» снова не удалось.

Выводы

Анализ результатов тестирования и опыт применения системы на базе KaiXian KX-7000 позволяют утверждать, что новый китайский процессор для настольных компьютеров оказался вполне пригодным для решения разнообразных задач, характерных для домашних и офисных ПК. Речь идет о задачах, не требующих высокой вычислительной мощности, таких как работа с веб-браузером, электронной почтой и офисными приложениями. Не больше и не меньше. Использование лицензии VIA для процессоров x86-64, в сочетании с финансовой поддержкой китайского правительства, обеспечило компании Zhaoxin определенные преимущества. С самого начала Zhaoxin применяла модифицированные версии архитектур Centaur Technologies, а не создавала полностью новую архитектуру. Возможно, Centaur передала Zhaoxin проект своей новой микроархитектуры CNS до того, как часть Centaur была приобретена компанией Intel, и эти разработки легли в основу рассматриваемого сегодня процессора.

Даже с таким началом пути компании Zhaoxin было бы крайне затруднительно догнать AMD и Intel, к тому же ей препятствуют санкции, ограничивающие использование передовых полупроводниковых производств, расположенных за пределами материкового Китая. Zhaoxin, хоть и получила лицензию на x86-процессоры от VIA, пока не способна на настоящую конкуренцию с лидерами отрасли. Разработка высокочастотного ядра с высокой производительностью на такт и эффективностью во всем диапазоне применений представляет собой очень сложную задачу. VIA ранее разумно сосредоточилась на своей нише, отказавшись от конкуренции с AMD и Intel, однако Zhaoxin вынуждена стремиться к созданию собственных процессоров, способных заменить западные во всех областях – это вопрос государственной важности, поддерживаемый китайским правительством. И хотя чипам Zhaoxin не требуется конкурировать с AMD и Intel на глобальном рынке, последние определяют уровень производительности и универсальности, которого необходимо достичь для полной замены западных процессоров.

Архитектура Century Avenue обладает современными возможностями, обеспечивает приоритетное выполнение команд, а также имеет оптимизированную кэш-память и подсистему памяти. Модель KX-7000 характеризуется более высокой тактовой частотой по сравнению с предыдущим поколением и конкурирующими китайскими решениями, а также предлагает кэш-память, объем которой увеличен более чем в четыре раза. Это объясняет повышение скорости работы по сравнению с моделями серии KX-6000. Несмотря на то, что Zhaoxin не увеличила количество ядер и потоков в семействе KX-7000, сохранив прежние восемь ядер и восемь потоков, прирост производительности достигнут благодаря архитектурным усовершенствованиям, которые привели к значительному увеличению числа инструкций, выполняемых за такт. Кроме того, KX-7000 предлагает ряд улучшений платформы по сравнению с KX-6000, включая удвоенный объем памяти стандартов DDR4 и DDR5, совместимость с PCIe 4.0, восемь дополнительных линий PCIe и поддержку USB 4.

Это значительный прорыв для растущей китайской индустрии, можно даже сказать, что это скачок по сравнению с относительно скромной архитектурой LuJiaZui. В Century Avenue заметен хороший прогресс: восемь производительных ядер работают на частоте свыше 3 ГГц, демонстрируя производительность, сопоставимую с AMD Bulldozer. Хотя это и не производит сильного впечатления на фоне современных западных решений, это существенный прогресс по сравнению с предыдущими процессорами компании. В ядрах Century Avenue реализованы по два блока FMA шириной 256 бит, что указывает на стремление Zhaoxin оптимизировать задачи, использующие AVX2. К сожалению, их сдерживает довольно слабая и малопроизводительная подсистема кэширования данных, а также некоторые другие характеристики ядер, которые не позволяют полностью реализовать имеющийся потенциал. L2-кэш в Century Avenue относительно невелик, задержки L3-кэша слишком высоки, а скорость чтения данных из оперативной памяти явно недостаточна для восьми ядер, и все это негативно влияет на выполнение многих ресурсоемких задач.

Пользователи обращают внимание как на совместимость, так и на производительность. В случае решения Zhaoxin, совместимость с x86-архитектурой обеспечивает беспроблемную работу, однако с производительностью всё обстоит не так оптимистично по сравнению с западными процессорами. Процессор KaiXian KX-7000 был представлен в конце 2023 года, и тогда предполагалось, что он сможет конкурировать с процессорами Intel Core и AMD Ryzen, хотя и не самыми современными. Однако первые же тесты продемонстрировали, что китайский процессор лишь приблизился к уровню производительности западных моделей, выпущенных несколько лет назад. Наше сравнение KX-7000 даже с процессорами Intel Core i3-12100 (2022) и Ryzen 5 1500X (2017), которые уже не являются новыми, показало, что он значительно проигрывает им как в тестах однопоточной производительности, так и в многопоточных задачах.

KX-7000 в задачах, требующих одновременной обработки множества потоков, демонстрирует отставание даже от устаревших процессоров Zen 1 и Bulldozer, выпущенных ещё в 2011 году. Хотя однопоточная производительность и сопоставима с характеристиками Bulldozer, она также не вызывает особого восхищения. KX-7000 не ориентирован на завоевание рынка западных потребителей, и ему достаточно обеспечить приемлемый уровень комфорта для китайских пользователей, работающих с простыми приложениями. В этом отношении как однопоточная, так и многопоточная производительность вполне адекватны. Century Avenue значительно уступает современным процессорам AMD и Intel даже в бюджетном сегменте, но это – ещё один позитивный шаг в развитии китайской микроэлектроники.

Новый процессор Century Avenue от Zhaoxin демонстрирует значительный прогресс по сравнению с предыдущими разработками компании, обеспечивая почти 50% прироста производительности в целочисленных операциях и более чем двукратное ускорение вычислений с плавающей запятой. Инженеры проявили себя, однако результаты не могут впечатлить на фоне современных высокопроизводительных CPU. Модель KX-7000 оснащена восемью ядрами, но и в многопоточных задачах результаты неоднозначны. Некоторые программные продукты, использующие большое количество потоков и AVX2-инструкции, не демонстрируют ощутимых преимуществ китайского процессора – KX-7000 уступает Zen 1, несмотря на меньшее количество ядер. В ситуациях, когда поддержка AVX2 не требуется, а применяются исключительно скалярные целочисленные инструкции, например, при сжатии данных, западные CPU обгоняют KX-7000 еще больше. Восемь ядер Century Avenue нередко проигрывают четырем ядрам Skylake, не говоря уже о более современных процессорах, таких как протестированный нами Core i3-12100. Подобная картина, когда Zhaoxin находится примерно на уровне Bulldozer и Skylake, а не Zen 1 и выше, достаточно распространена. Китайскому процессору не хватает как тактовой частоты, включая технологии ее кратковременного повышения в зависимости от нагрузки и энергопотребления, так и поддержки одновременной многопоточности.

Увеличение числа ядер не оказывает существенного влияния на производительность KX-7000, поскольку процессор не поддерживает многопоточность. Каждое ядро обрабатывает лишь один поток, и по числу одновременно выполняемых задач он проигрывает даже процессорам AMD. Особенно заметно это отставание в играх, где критически важна производительность одного ядра. KX-7000 сложно назвать энергоэффективным, так как его энергопотребление в полтора раза превышает показатели Core i3-12100 или Loongson 3A6000, и по этому параметру он уступает даже китайскому чипу. Таким образом, KX-7000 в целом значительно отстает от даже устаревших западных CPU, что во многом обусловлено использованием не самого современного технологического процесса. Но проблема не только в этом, поскольку в аппаратной архитектуре также присутствуют недостатки, которые мы упоминали ранее. Интегрированная графика в KX-7000, хотя и присутствует, значительно уступает по мощности встроенным решениям Core i3-12100, не говоря уже о современных AMD APU, но это – тема, к которой мы еще вернемся.

Процессор KX-7000 обладает неплохими характеристиками для своей платформы: соответствующие процессоры и материнские платы поддерживают такой же объем оперативной памяти и такое же количество линий PCIe, как и AMD Ryzen серии 7000. Intel, действительно, превосходит Zhaoxin по максимальному объему поддерживаемой памяти, однако решения Raptor Lake уступают по количеству линий PCIe (KX-7000 не поддерживает PCIe 5.0, но это не является критичным для устройств такого класса). В целом, процессор KX-7000 представляет собой значительный прогресс для сравнительно молодой и ограниченной в производственных возможностях полупроводниковой промышленности Китая, стремящейся к технологической независимости от западных разработок. Следует помнить, что Zhaoxin – единственная китайская компания, получившая лицензию на производство x86-совместимых CPU. Это дает их процессорам ощутимое преимущество, поскольку они могут использовать существующую обширную базу программного обеспечения, разработанного для x86-процессоров. В ходе тестирования системы на базе KaiXian KX-7000 мы столкнулись с меньшим количеством проблем совместимости по сравнению с ранее протестированными китайскими процессорами, хотя они и присутствовали.

Выпуск новых разработок Zhaoxin сталкивается с задержками из-за политических факторов. Производство китайских микрочипов на передовых мощностях тайваньской компании TSMC полностью прекращено, что вынуждает их ожидать совершенствования технологических процессов на китайских предприятиях, таких как SMIC и HLMC. Тем не менее, объемы выпуска персональных компьютеров и ноутбуков, основанных на процессорах серий KX-6000 и KX-7000, увеличиваются. Эти системы успешно заменяют аналогичные решения от Intel и AMD в настольных компьютерах, серверах, тонких клиентах и других устройствах. С учетом действующих ограничений, KX-7000 представляют собой достойный вариант среди моделей, созданных и выпущенных в материковом Китае, и демонстрируют заметный прогресс в развитии собственных китайских процессоров.

Несмотря на это, отставание китайских производителей в технологиях производства не является определяющим фактором, поскольку, к примеру, Ryzen 5 1500X создан по 14-нанометровому техпроцессу, но демонстрирует производительность, в среднем, выше, чем KaiXian KX-7000, выпущенный по 16-нанометровой технологии, даже при меньшем количестве ядер. О Core i3-12100 и говорить не стоит, этот четырехъядерный процессор Intel еще быстрее, а в линейке он представляет собой одно из наиболее простых решений; существуют и процессоры с большим количеством вычислительных ядер и более высокой тактовой частотой. Таким образом, уровень Zhaoxin, несмотря на его совместимость с архитектурой x86, не сильно отличается от того, что мы отмечали в предыдущих публикациях о других китайских процессорах — для конкуренции с западными разработками им предстоит проделать большой объем работы, чтобы достичь сопоставимого уровня.

Похожие статьи