图形处理器(Graphic Processing Unit, GPU)是数字世界图形内容生成的基石,不但为桌面应用、游戏、电影、数字孪生和元宇宙应用提供技术支撑,还凭借强大的并行计算能力业成为各种应用加速的主流手段,被广泛应用于科学计算和人工智能,也因此与CPU、FPGA芯片一道被称之为“芯片中的珠穆朗玛峰”。
然而,我国GPU芯片九成以上依赖进口。随着美国不断加码限制英伟达、AMD向我国供应高端GPU芯片,进口GPU也受到极大的限制。这些多重因素,更加促使国产GPU企业奋起直追。这其中,由国内企业中天恒星科技有限公司(Advanced Technology Stellar,简称中天恒星/ATS)自主研发的GPU架构“天狼星”,就颇受行业关注。
国产自主GPU架构“天狼星”鉴定及发布会
GPU架构“天狼星”出世
中天恒星研发团队由卡内基梅隆大学电子与计算机工程博士、清华大学软件学院、微电子学研究所副教授、NVIDIA合作教授邓仰东博士率领。
作为GPU通用计算最早研究人员之一,邓仰东博士长期从事图形处理器体系结构、并行计算研究和芯片产品开发工作,曾设计出全球第一个基于FPGA的GPU仿真平台,被誉为“GPU通用计算先行者”,研究成果在ISCA、MICRO等顶级会议和期刊发表。此外,邓博士还撰写了多部教材和专著,其中《数字集成系统的结构化设计与高层次综合》入选清华大学及多所大学研究生教材,《异构处理器OpenCL编程导论》是国内GPU异构计算第一部教材,《3-Dimensional VLSI》是三维集成电路的第一部专著。
中天恒星联合创始人兼总架构师邓仰东博士
他在介绍“天狼星”架构的研发过程时提到,“天狼星”架构前期的研究工作主要在清华大学进行,从2007年开始,包括并行计算、虚拟指令集设计、GPU加速仿真、GPU核心模块设计等等。之后,为了提高仿真速度,他们把传统软件仿真搬到FPGA平台上,2013年,在FPGA平台上仿真出了整个GPU架构,实现了快速迭代。此后,又进行了光线追踪算法/硬件、片上调度、片上通信网络等研究工作。最后,在这些工作基础上,发展出了中天恒星的GPU架构。
2019年,第一代“天狼星”架构芯片设计验证完成。2021年,第一代“天狼星”架构GPU诞生;2022年,定义第二代GPU架构“大角星”;2023年,第一代“天狼星”架构GPU实现量产。
而GPU架构之所以取名为“天狼星”,也有着独特的寓意。中天恒星创始人黄永博士指出:“我们的架构全部是以恒星来命名的。Stellar是恒星、星宿、星座的意思,引申出来有超一流、卓越的含义。第二代架构命名为大角星;大角星是第二亮的恒星。只是因为距离地球更远,所以看起来没有天狼星亮;实际上,大角星比天狼星更亮,其亮度是太阳的110倍。”
据悉,2024年,中天恒星会继续优化基于“天狼星”架构的GPU。2025年,第二代GPU架构“大角星”将实现量产。
“天狼星”有何不同?
资料显示,与同类型产品相比,“天狼星”GPU架构包括以下主要亮点:
- 具有3D图形引擎+2D图形加速+视频引擎;
- 自主可控/灵活优化的指令集和VLIW/SIMD机器指令集(ICCD'13)。其中,自主可控/灵活优化的指令集,保证GPU芯片迭代的软件兼容;
- SIMT计算框架可充分利用图形应用的数据并行性(DATE'12.ICCD'13,TVLSI15);
- 支持物理真实渲染(ACMComputingSurvey'14,SIGGRAPHASIA'14.15);
- Shader Core(Graphics ProcessingCluster),包括SIMT独立指令执行单元、以32位浮点ALU为基础的统一图形架构(ICCD13)以及集成寄存器堆、纹理/数据缓存。
- 延迟聚集式全局线程调度技术(ISCA20、TPDS21、TCAD'21);
- 具有良好性能伸缩性的片上互联架构(MICRO'20、TPDS'21)。
此次发布的“天狼星”GPU主要面向亿级订单市场,以独立显卡GPU芯片主流产品为突破口,瞄准需求广阔、增长强劲的亿级刚需市场,突出性价比优势。更为重要的是,在当前我国进口GPU受到极大限制的情况下,“天狼星”GPU是以清华大学超过10年研究基础为依托的自研核心架构,拥有完全自主知识产权,可确保产品迭代自主可控。
邓仰东博士表示,“天狼星”GPU以基础理论研究为基础,从数学公式推导开始,到架构设计、算法模型、原理验证、硬件实现、驱动开发等环节全部正向设计。核心架构完整知识产权,已申请专利和著作权数百项,数十项已获授权,相关研究成果发表于ISCA、Micro、IEEE TPDS、IEEE TCAD等顶级会议和期刊。
同时,为确保产品量产自主可控,并具备完备的交付能力,产业链上下游也进行了充分的准备。除了上文谈及的芯片设计自主可控并完成全面验证,确保流片成功外,软硬件接口也均符合国际标准,包括操作系统认证(Windows WHQL)、API认证(Open GL Conformance Test)、外围接口认证(HDMI DP CTS)、专业测试认证(PHY layer和LIINK layer)、质量体系认证(显卡3C认证(中国)、日本VCCI、欧盟CE、美国FCC),确保芯片装机即可使用。
不过,一个众所周知的事实是,自研GPU架构存在极高的技术挑战。邓仰东分析指出,GPU设计至少有两处非常复杂:一是架构级的设计,这其实是个统筹的艺术;二是架构仿真的时间非常长,需要经验也需要直觉,去找出架构问题到底出在哪里,需要有多年的积累才能去做这件事。
比如GPU本身的资源,在所谓的uni版的shader,所有的计算资源是一样的,大家都用32比特或者64比特的浮点运算单元,这是一个配合的问题。有很多个核共享L2缓存,然后每个核内有自身的计算单元,还有通往片外的各种通道,实际上片上还有一些针对图形的缓存。虽然很容易知道这些是什么样的模块,但难的是如何配合起来实现整体性能最优。换言之,如何通过统筹协调,能够适应绝大多数图形应用。在大多数情况下,均衡的设计保持性能每秒至少30帧,是一个极具挑战的地方。
发力图形渲染GPU
ChatGPT的横空出世让GPU概念更加火热,也带动了算力GPU市场的蓬勃发展。按照黄仁勋的说法,算力GPU的产值今年会超过300亿美元的规模,到2027年将达到1500亿美元的量级。但邓仰东表示,事实上,用于图形渲染的GPU才是市场主流,相比2022年服务器GPU市场80-90亿美元的规模,用于渲染的GPU占到整个GPU市场的80%以上。
从二者的市场规模来看也是如此。2021年全球服务器出货量1300万台,而PC出货量3.5亿台左右。一般来说,算力GPU搭载在服务器中,而每一台PC都会搭载一块显卡,所以从这个意义上来讲,渲染GPU也是主流。
此外,还要关注一个更大的可能性——大屏电视目前已经非常普及,与大屏电视的交互非常有前景,典型应用如游戏等,对GPU将产生更多需求。
而如果从GPU渲染标准的发展来看,主要是由三大图形和计算标准界定的,一是OpenGL,由国际标准化组织1997年推出,之后从2007年开始,OpenGL连出三版,基本上界定了整个图形渲染要完成的工作;二是微软的Direct X,是专门针对Windows环境的图形标准;三是OpenCL,最初是针对图形的纯计算能力,后来延伸到通用计算。
“这三大标准都在2007-2017年经历了黄金时代,到2017年基本固化。也就是说今天的图形标准仍然是2007年主要的图形显示内容,2007年之后,基本上图形标准没有很大变化,GPU要做的刚需工作基本没有变化。这里就有一个赶上NVIDIA图形渲染GPU设计的可能性。”邓仰东表示。
业界专家高度认可国产GPU显卡前景
对于天狼星架构,国际信息显示学会中国总裁、fellow、俄罗斯工程院外籍院士、国际信息显示学会北京分会理事长严群博士指出:“GPU架构“天狼星”很多指标非常先进,基于“天狼星”架构的第一代GPU芯片正好定位于显示。如果与显示结合,将能在显示领域产生非常多颠覆性的应用创新。”
国际信息显示学会中国总裁、fellow、俄罗斯工程院外籍院士、国际信息显示学会北京分会理事长严群博士
严群院士此前参与了整个等离子显示的原创研发、规模化生产。他指出,前两代显示技术都是被动式显示技术,观看的人对信息传输只有接收,没有互动。而5-10年内即将到来的下一代显示技术,可以被称之为“真正的沉浸式3D影像”,能够跟人进行实时影像交互,实现影视游戏化、游戏影视化。
他举例称,苹果一两个星期前发布的Vision Pro,实际是一个操作系统革命与生态革命。其核心并不是头戴式设备,头戴式设备只是临时性产品,以后真正的产品是不需要带头盔的,看到的三维影像就在人们的面前。
“‘天狼星’GPU架构可以处理像素的带宽非常大。显示领域要做空间三维影像的话,对数据量的要求非常大,计算需求非常大。显示行业现在已经在做这方面工作,如何实现空间三维影像,最大的问题就是怎么做图像处理,包括数据传输,都是一系列巨大的问题,这个生态是非常需要有高算力的图形化处理硬件。”严院士指出。
上海市集成电路行业协会秘书长郭奕武
上海市集成电路行业协会秘书长郭奕武认为,当前,云计算、数字化、智能汽车、云端到边缘等产业,都迫切需要大算力和高性能GPU芯片,而“天狼星”GPU从3D图形渲染,到指令集自主可控,再到框架结构,包括使用DDR4实现高速存储,都是行业领先的自主架构设计,能做到非常不容易。未来随着新技术产业革命的发展,国产GPU将获得更大的发展空间。
结语
当前,美国对中国的科技打压仍在继续,对中国限制供应高端GPU芯片的打压不会减弱。国产自研“天狼星”GPU架构的推出,无疑推动国产GPU芯片朝前迈出一个新的高度。可以预见的是,随着国产替代进程的不断深入,国内下游应用市场采购国内自主可控的芯片的自主性和迫切性更强,这将进一步激发中国企业自研GPU芯片的热情,为国产GPU的发展提供巨大的助力。