[Industry News] 如何正确吃龙芯3A6000的瓜
Tofloor
poster avatar
fuuko
deepin
2023-08-02 18:11
Author

前两天龙芯官方发布了 3A6000 已成功流片的消息,显示初步测试下来已达到 Intel 10 代酷睿或者 AMD Zen 2 架构的水准,我将结合一些自己的专业知识和部分网上的数据带大家“科学”地吃这个瓜。

预备知识

首先我们看一块 CPU 是否好用,应该从两个维度出发:暴力计算能力和分支预测能力。

  • 暴力计算能力指的是 CPU 在无复杂分支代码的情况下进行纯粹计算的速度,典型应用就是各种科学计算、人工智能等等;
  • 分支预测能力指的是 CPU 在拥有庞大复杂分支代码的情况下的运行速度,典型应用为各类桌面应用等等。

也就是说,如果我们在一些人工智能 benchmark 中看到某些芯片遥遥领先,但是拿它开个 WPS 却卡成狗,那不用想,它肯定是把天赋都点到暴力计算上了。

其次是除了以上两个硬件维度外,我们还可以看软件层面:它配套的指令集、编译器/解释器、操作系统、应用软件。

  • 指令集是程序员操作 CPU 的基础,它代表了该 CPU 能开发什么样的软件:比如有虚拟化指令,那么就能在上面开发出高效的虚拟机应用;有向量计算指令,那么就能在上面开发出高效的多媒体应用。
  • 编译器和解释器是高级编程语言和汇编语言的桥梁,虽然汇编语言能够使用指令集直接操作 CPU,但使用汇编语言做开发极其低效,因此只有部分特殊岗位会研究汇编语言(高性能计算、嵌入式、操作系统等等),其它绝大部分开发者都是使用诸如 C/C++、Golang、Rus* 等高级语言进行开发。因此一款优秀的编译器或者解释器是非常关键的。
  • 操作系统就不用说了,之前 Intel 的大小核架构同时折磨了 Windows 和 Linux 两边很久。
  • 应用软件其实还是要看程序员的水平,在算法设计上没有大失误的情况下看编译器的实现水平,接着再看操作系统的调度能力,最后才是看芯片自身的情况。当然你说你芯片本身很牛逼,前面几条一团浆糊也能顺利跑起来,那你的芯片确实厉害。

本次 3A6000 依然沿用 LoongArch 架构,我也没看到指令集更新的消息(如果有请在帖子后面补充消息来源);然后是基础的编译器和解释器套件相对于 3A5000 刚发布时迭代了很多版本,这方面应该会有一定的提升;然后操作系统的话,麒麟那边不知道,UOS 这边迭代到了 106x,我觉得还是可以相信一下官方的水平的;最后应用软件就不好说了,属于有好有坏的情况。

预备知识结束,可以正式开始吃瓜了。

瓜 1 龙芯的规格与跑分

首先龙芯官方是根据 3A6000 的跑分结果确认和 Intel 10 代酷睿与 AMD Zen 2架构相当的,但请注意的是,10 代酷睿产品线分为 i3 i5 i7 三个主线,和一个偶尔会蹦出来的叫 i9 的超级支线;而 Zen 2 架构同理,分为了 R3 R5 R7 R9 四个锐龙主线,加一个叫 Threadripper(线程撕裂者)的工作站分支,以及一个叫 EPYC(霄龙)的服务器分支。

所以我们需要进一步看 3A6000 的具体规格:4 核心 8 线程,缩写下来也就是 4c8t

那么我们搜索一下,它对标的到底是哪款 Intel 或者 AMD 的 CPU 呢?经过我的查找,同样为 4c8t 的两家对应架构的 CPU 如下:

Intel(i3-10100F) :https://www.intel.com/content/www/us/en/products/sku/203473/intel-core-i310100f-processor-6m-cache-up-to-4-30-ghz/specifications.html

AMD(r3-3100):https://www.amd.com/en/support/cpu/amd-ryzen-processors/amd-ryzen-3-desktop-processors/amd-ryzen-3-3100

这两款 CPU 均是 4c8t 规格,符合龙芯官方宣传的 10 代酷睿和 Zen 2 架构,同时均没有核显的计算加速支持,也没有动态超频功能,唯一的问题是这两款 CPU 的主频均高于 3A6000,我猜可能是龙芯那边把频率拉齐以后测的?这点需要后续正式版出来后进行进一步的测试。

要知道 Intel 用的是迭代了无数次的 14nm+++++++ 工艺,AMD 用的是台积电 7nm 工艺,而龙芯本次仅用了 12nm 的工艺,而且还不知道是意法半导体的,还是中芯国际的,又或者是台积电的 =。=,总之 12nm 打 7nm,优势在我就是了。

瓜 2 龙芯的暴力计算能力

如果你是经常混迹 GitHub 人工智能圈的,你应该会注意到前两天有人上传了龙芯在暴力计算上的 benchmark 数据:https://github.com/Tencent/ncnn/blob/master/benchmark/README.md

搜索 3A6000 即可看到情况,而它的上方正是大哥 3A3000、3A4000、3A5000 的计算速度。这份数据表格分为参数配置和测试数据两个部分:

  • 参数配置

loop_count = 10 //重复计算 10 次
num_threads = 8 //使用 8 个线程进行并行计算
powersave = 2 //大小核设置项,3A6000 不受此项影响
gpu_device = -1 //不使用 GPU 计算
cooling_down = 0 //不等待芯片冷却

  • 测试数据,第一列是神经网络名称,后面三列分别是最小用时、最大用时、平均用时,单位毫秒

squeezenet min = 7.12 max = 7.20 avg = 7.16
squeezenet_int8 min = 8.93 max = 9.20 avg = 8.98
mobilenet min = 11.81 max = 11.88 avg = 11.84

不过严谨来说,因为这个项目(NCNN)针对各个架构的优化强度是不一样的,在目前龙芯官方不放出对暴力计算有利的向量指令集的情况下,只有龙芯官方自己的人能对这些暴力计算模块进行高强度的优化。所以这个数据也只能看出龙芯计算能力的进化趋势:龙芯中科没有挤牙膏,他们真的很努力了。

一点点总结

龙芯中科这次算是用行动证明了完全自研高性能 CPU 芯片的可能性,虽然这货目前还是只能达到国际先进水平大约五年前的样子,但就我个人的经验来说,这块 U 做一些辅助性的暴力计算工作应该是够用了,比如你希望在本地跑个简单的 AI 修图,或者让它协助盯下监控应该都是没问题的。至于桌面应用方面,还得等它正式版出来后,看有没有谁买回来跑个 WPS 试试 =。=,就此前的趋势来看,我还是蛮有信心的。

Reply Favorite View the author
All Replies
2 / 2
To page
longlong
deepin
Developer
2023-08-02 22:56
#21

顺便说下 3a5000的体验还是很不错, 6000很有可能是惊喜。

Reply View the author
longlong
deepin
Developer
2023-08-02 22:57
#22
fuuko

按之前的经验来看,龙芯的新主机出来后会以7000一台的价格出售(包含随叫随到的售后服务),或者有些非正常渠道可以压到3000到4000左右的价格,这个钱已经可以购买国际顶尖水平的主机再加一套键盘鼠标和显示器了,比如AMD Zen3架构的5600g整机sad

后续正规渠道可能会降价,比如现在3A6000发售在即,3A5000整机就降到了2699,啊,价格上还是不如AMD的实惠sob

只能说慢慢来吧,目前龙芯还是以保障国家信息安全为第一目标,日后价格真正下去了才是普惠全世界的时候shamed

现在5000的机器已经很便宜了 1500的主板,全套下来大概2500左右

Reply View the author
nihaoxye
deepin
2023-08-03 00:28
#23
GXDEr

太贵了,这瓜吃不起

龙芯京东官网1499的主板很便宜了。

Reply View the author
怀霜
deepin
2023-08-03 00:51
#24

随着龙芯销售数量上去以后,龙芯的芯片成本被分摊,价格便会逐渐降下来,期待那一天。

Reply View the author
waiting
deepin
2023-08-03 01:18
#25

加油啊

Reply View the author
把一切操作变成GUI
deepin
Backbone of ecological co-construction group
2023-08-03 02:13
#26

不是降到同频对比,是ipc乘主频对比单核性能,而且他核心数和那个i3的型号也是一样的

Reply View the author
fuuko
deepin
2023-08-03 02:40
#27
把一切操作变成GUI

不是降到同频对比,是ipc乘主频对比单核性能,而且他核心数和那个i3的型号也是一样的

如果他们是这样对比的话,那龙芯就已经很厉害了,12nm工艺不说,而且还是低主频打高主频

Reply View the author
把一切操作变成GUI
deepin
Backbone of ecological co-construction group
2023-08-03 03:00
#28
fuuko

如果他们是这样对比的话,那龙芯就已经很厉害了,12nm工艺不说,而且还是低主频打高主频

华为也是这样的

Reply View the author
fuuko
deepin
2023-08-03 03:09
#29
把一切操作变成GUI

华为也是这样的

台式机版的鲲鹏920么,基于ARMv8指令集,用着感觉还行,没看过跑分数据shamed

NCNN benchmark里面也有鲲鹏920,大约两到三个核心就能锤3A6000的全核,不过也有可能是NCNN的ARM优化比LoongArch优化力度高的缘故

Reply View the author
xibei
deepin
2023-08-03 08:03
#30

我现在还在用5年前的E3 1231v3,够用够够的,希望国产芯片早点普及!

Reply View the author
平常陌生人
deepin
2023-08-03 21:22
#31

1、龙芯宣布近期可以提供7天媒体及极客测试申请了,欢迎大家折腾出测评;

2、已经有不少大佬和爱好者拿到了整机在折腾游戏了,配上latx 1.4的二进制翻译,听说提升很大;

3、对于个人办公,如果有软件生态,完全搓搓有余了。

Reply View the author
唱跳RapMusic
deepin
2023-08-03 23:38
#32
GXDEr

太贵了,这瓜吃不起

有很便宜的主板的,一千4左右;买整机应该都是政企,一般都带随叫随到服务!

Reply View the author
耐思
deepin
2023-08-04 02:08
#33
longlong

在计划中了,如果你关注我们sig组的话就知道,今天loong64已经上线了我们的obs打包服务器集群了,里面甚至有我自费购买的一台3a5000,后续当基础软件包满足了 deepin将提供loong64的主线支持(new world)

龙芯的新世界什么意思,是心得abi吗?和旧的有什么区别?

Reply View the author
lianghb
deepin
2023-08-04 02:55
#34
耐思

龙芯的新世界什么意思,是心得abi吗?和旧的有什么区别?

龙芯的新世界就是3A5000及以后得新CPU,用的都是loongArch架构。

Reply View the author
fuuko
deepin
2023-08-04 14:57
#35
耐思

龙芯的新世界什么意思,是心得abi吗?和旧的有什么区别?

对,新的ABI,因为loongarch最早是在旧ABI基础上发布的,然后后来龙芯中科又大规模调整了一波ABI,导致出现了严重的兼容性问题no

现在已发布的UOS V20和银河麒麟 V10的loongarch版都是基于旧ABI的

Reply View the author
fuuko
deepin
2023-08-04 14:58
#36
lianghb

龙芯的新世界就是3A5000及以后得新CPU,用的都是loongArch架构。

主要是第一批loongarch软件是基于旧ABI构建的,这点很致命

Reply View the author
平常陌生人
deepin
2023-10-26 01:36
#37
GXDEr

太贵了,这瓜吃不起

龙芯3A6000的板U开卖了,1499就发车了,自己买点配件,2499左右可以拿下全套16G+1T的整机了。也许明年还会降低一丢丢价格。

Reply View the author
2 / 2
To page