在当前我国进口GPU受到极大限制的情况下,“天狼星”GPU是以清华大学超过10年研究基础为依托的自研核心架构,拥有完全自主知识产权,可确保产品迭代自主可控。

图形处理器(Graphic Processing Unit, GPU)是数字世界图形内容生成的基石,不但为桌面应用、游戏、电影、数字孪生和元宇宙应用提供技术支撑,还凭借强大的并行计算能力业成为各种应用加速的主流手段,被广泛应用于科学计算和人工智能,也因此与CPU、FPGA芯片一道被称之为“芯片中的珠穆朗玛峰”。

然而,我国GPU芯片九成以上依赖进口。随着美国不断加码限制英伟达、AMD向我国供应高端GPU芯片,进口GPU也受到极大的限制。这些多重因素,更加促使国产GPU企业奋起直追。这其中,由国内企业中天恒星科技有限公司(Advanced Technology Stellar,简称中天恒星/ATS)自主研发的GPU架构“天狼星”,就颇受行业关注。

国产自主GPU架构“天狼星”鉴定及发布会

GPU架构“天狼星”出世

中天恒星研发团队由卡内基梅隆大学电子与计算机工程博士、清华大学软件学院、微电子学研究所副教授、NVIDIA合作教授邓仰东博士率领。

作为GPU通用计算最早研究人员之一,邓仰东博士长期从事图形处理器体系结构、并行计算研究和芯片产品开发工作,曾设计出全球第一个基于FPGA的GPU仿真平台,被誉为“GPU通用计算先行者”,研究成果在ISCA、MICRO等顶级会议和期刊发表。此外,邓博士还撰写了多部教材和专著,其中《数字集成系统的结构化设计与高层次综合》入选清华大学及多所大学研究生教材,《异构处理器OpenCL编程导论》是国内GPU异构计算第一部教材,《3-Dimensional VLSI》是三维集成电路的第一部专著。

中天恒星联合创始人兼总架构师邓仰东博士

他在介绍“天狼星”架构的研发过程时提到,“天狼星”架构前期的研究工作主要在清华大学进行,从2007年开始,包括并行计算、虚拟指令集设计、GPU加速仿真、GPU核心模块设计等等。之后,为了提高仿真速度,他们把传统软件仿真搬到FPGA平台上,2013年,在FPGA平台上仿真出了整个GPU架构,实现了快速迭代。此后,又进行了光线追踪算法/硬件、片上调度、片上通信网络等研究工作。最后,在这些工作基础上,发展出了中天恒星的GPU架构。

2019年,第一代“天狼星”架构芯片设计验证完成。2021年,第一代“天狼星”架构GPU诞生;2022年,定义第二代GPU架构“大角星”;2023年,第一代“天狼星”架构GPU实现量产。

而GPU架构之所以取名为“天狼星”,也有着独特的寓意。中天恒星创始人黄永博士指出:“我们的架构全部是以恒星来命名的。Stellar是恒星、星宿、星座的意思,引申出来有超一流、卓越的含义。第二代架构命名为大角星;大角星是第二亮的恒星。只是因为距离地球更远,所以看起来没有天狼星亮;实际上,大角星比天狼星更亮,其亮度是太阳的110倍。”

据悉,2024年,中天恒星会继续优化基于“天狼星”架构的GPU。2025年,第二代GPU架构“大角星”将实现量产。

“天狼星”有何不同?

资料显示,与同类型产品相比,“天狼星”GPU架构包括以下主要亮点:

  • 具有3D图形引擎+2D图形加速+视频引擎;
  • 自主可控/灵活优化的指令集和VLIW/SIMD机器指令集(ICCD'13)。其中,自主可控/灵活优化的指令集,保证GPU芯片迭代的软件兼容;
  • SIMT计算框架可充分利用图形应用的数据并行性(DATE'12.ICCD'13,TVLSI15);
  • 支持物理真实渲染(ACMComputingSurvey'14,SIGGRAPHASIA'14.15);
  • Shader Core(Graphics ProcessingCluster),包括SIMT独立指令执行单元、以32位浮点ALU为基础的统一图形架构(ICCD13)以及集成寄存器堆、纹理/数据缓存。
  • 延迟聚集式全局线程调度技术(ISCA20、TPDS21、TCAD'21);
  • 具有良好性能伸缩性的片上互联架构(MICRO'20、TPDS'21)。

此次发布的“天狼星”GPU主要面向亿级订单市场,以独立显卡GPU芯片主流产品为突破口,瞄准需求广阔、增长强劲的亿级刚需市场,突出性价比优势。更为重要的是,在当前我国进口GPU受到极大限制的情况下,“天狼星”GPU是以清华大学超过10年研究基础为依托的自研核心架构,拥有完全自主知识产权,可确保产品迭代自主可控。

邓仰东博士表示,“天狼星”GPU以基础理论研究为基础,从数学公式推导开始,到架构设计、算法模型、原理验证、硬件实现、驱动开发等环节全部正向设计。核心架构完整知识产权,已申请专利和著作权数百项,数十项已获授权,相关研究成果发表于ISCA、Micro、IEEE TPDS、IEEE TCAD等顶级会议和期刊。 

同时,为确保产品量产自主可控,并具备完备的交付能力,产业链上下游也进行了充分的准备。除了上文谈及的芯片设计自主可控并完成全面验证,确保流片成功外,软硬件接口也均符合国际标准,包括操作系统认证(Windows WHQL)、API认证(Open GL Conformance Test)、外围接口认证(HDMI DP CTS)、专业测试认证(PHY layer和LIINK layer)、质量体系认证(显卡3C认证(中国)、日本VCCI、欧盟CE、美国FCC),确保芯片装机即可使用。

不过,一个众所周知的事实是,自研GPU架构存在极高的技术挑战。邓仰东分析指出,GPU设计至少有两处非常复杂:一是架构级的设计,这其实是个统筹的艺术;二是架构仿真的时间非常长,需要经验也需要直觉,去找出架构问题到底出在哪里,需要有多年的积累才能去做这件事。

比如GPU本身的资源,在所谓的uni版的shader,所有的计算资源是一样的,大家都用32比特或者64比特的浮点运算单元,这是一个配合的问题。有很多个核共享L2缓存,然后每个核内有自身的计算单元,还有通往片外的各种通道,实际上片上还有一些针对图形的缓存。虽然很容易知道这些是什么样的模块,但难的是如何配合起来实现整体性能最优。换言之,如何通过统筹协调,能够适应绝大多数图形应用。在大多数情况下,均衡的设计保持性能每秒至少30帧,是一个极具挑战的地方。

发力图形渲染GPU

ChatGPT的横空出世让GPU概念更加火热,也带动了算力GPU市场的蓬勃发展。按照黄仁勋的说法,算力GPU的产值今年会超过300亿美元的规模,到2027年将达到1500亿美元的量级。但邓仰东表示,事实上,用于图形渲染的GPU才是市场主流,相比2022年服务器GPU市场80-90亿美元的规模,用于渲染的GPU占到整个GPU市场的80%以上。

从二者的市场规模来看也是如此。2021年全球服务器出货量1300万台,而PC出货量3.5亿台左右。一般来说,算力GPU搭载在服务器中,而每一台PC都会搭载一块显卡,所以从这个意义上来讲,渲染GPU也是主流。

此外,还要关注一个更大的可能性——大屏电视目前已经非常普及,与大屏电视的交互非常有前景,典型应用如游戏等,对GPU将产生更多需求。

而如果从GPU渲染标准的发展来看,主要是由三大图形和计算标准界定的,一是OpenGL,由国际标准化组织1997年推出,之后从2007年开始,OpenGL连出三版,基本上界定了整个图形渲染要完成的工作;二是微软的Direct X,是专门针对Windows环境的图形标准;三是OpenCL,最初是针对图形的纯计算能力,后来延伸到通用计算。

“这三大标准都在2007-2017年经历了黄金时代,到2017年基本固化。也就是说今天的图形标准仍然是2007年主要的图形显示内容,2007年之后,基本上图形标准没有很大变化,GPU要做的刚需工作基本没有变化。这里就有一个赶上NVIDIA图形渲染GPU设计的可能性。”邓仰东表示。

业界专家高度认可国产GPU显卡前景

对于天狼星架构,国际信息显示学会中国总裁、fellow、俄罗斯工程院外籍院士、国际信息显示学会北京分会理事长严群博士指出:“GPU架构“天狼星”很多指标非常先进,基于“天狼星”架构的第一代GPU芯片正好定位于显示。如果与显示结合,将能在显示领域产生非常多颠覆性的应用创新。”

国际信息显示学会中国总裁、fellow、俄罗斯工程院外籍院士、国际信息显示学会北京分会理事长严群博士

严群院士此前参与了整个等离子显示的原创研发、规模化生产。他指出,前两代显示技术都是被动式显示技术,观看的人对信息传输只有接收,没有互动。而5-10年内即将到来的下一代显示技术,可以被称之为“真正的沉浸式3D影像”,能够跟人进行实时影像交互,实现影视游戏化、游戏影视化。

他举例称,苹果一两个星期前发布的Vision Pro,实际是一个操作系统革命与生态革命。其核心并不是头戴式设备,头戴式设备只是临时性产品,以后真正的产品是不需要带头盔的,看到的三维影像就在人们的面前。

“‘天狼星’GPU架构可以处理像素的带宽非常大。显示领域要做空间三维影像的话,对数据量的要求非常大,计算需求非常大。显示行业现在已经在做这方面工作,如何实现空间三维影像,最大的问题就是怎么做图像处理,包括数据传输,都是一系列巨大的问题,这个生态是非常需要有高算力的图形化处理硬件。”严院士指出。 

上海市集成电路行业协会秘书长郭奕武

上海市集成电路行业协会秘书长郭奕武认为,当前,云计算、数字化、智能汽车、云端到边缘等产业,都迫切需要大算力和高性能GPU芯片,而“天狼星”GPU从3D图形渲染,到指令集自主可控,再到框架结构,包括使用DDR4实现高速存储,都是行业领先的自主架构设计,能做到非常不容易。未来随着新技术产业革命的发展,国产GPU将获得更大的发展空间。

结语

当前,美国对中国的科技打压仍在继续,对中国限制供应高端GPU芯片的打压不会减弱。国产自研“天狼星”GPU架构的推出,无疑推动国产GPU芯片朝前迈出一个新的高度。可以预见的是,随着国产替代进程的不断深入,国内下游应用市场采购国内自主可控的芯片的自主性和迫切性更强,这将进一步激发中国企业自研GPU芯片的热情,为国产GPU的发展提供巨大的助力。

责编:Lefeng.shao
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
9月10日,苹果发布了一系列新品,包括iPhone 16系列手机、Apple Watch Series 10智能手表和AirPods 4耳机。发布会后网上响起了一片吐嘈声,带着这些吐槽,我们来看看这次苹果到底有没有新玩意……
不管怎么样,英特尔仍在努力推进18A芯片工艺,以期未来在最先进的芯片工艺上能与台积电、三星有一定的领先优势,毕竟其已经率先拿到ASML两台最先进的High NA(高数值孔径)EUV光刻机。未来,英特尔没有选择,只有抓住任何的可能性,硬着头皮上。
一直听说x86指令集天生做不了低功耗,真的是这样吗?这篇文章着重谈谈酷睿Ultra二代是怎么考量低功耗的,有没有可能做到低功耗...
Xockets认为,英伟达凭借侵犯该企业专利的DPU产品垄断了AI GPU服务器市场,而微软则垄断了支持GPU的AI平台领域。此外,Xockets还称这两家科技公司就授权费建立了垄断同盟。
经营业绩下滑,以及在代工业务上的巨额亏损以及市场需求疲软,也或是英特尔出售Mobileye股份的重要原因之一。
英伟达的CUDA生态系统和高性能AI GPU仍将作为核心竞争力,但要支撑其像以往那样的飞速的发展态势,必然要面临更大的挑战,或者已到增长的天花板。
• 得益于西欧、关键亚洲市场和拉丁美洲市场的增长,以及中国品牌的持续领先,全球折叠屏手机出货量在2024年第二季度同比增长了48%。 • 荣耀凭借其在西欧特别强劲的表现,成为最大的贡献者,成为该地区排名第一的品牌。 • 摩托罗拉的Razr 40系列在北美和拉丁美洲表现良好,为其手机厂商的出货量贡献了三位数的同比增长。 • 我们预计,头部中国手机品牌厂商的不断增加将至少在短期内抑制三星Z6系列在第三季度的发布。
AI技术的发展极大地推动了对先进封装技术的需求,在高密度,高速度,高带宽这“三高”方面提出了严苛的要求。
奕斯伟计算2024首届开发者伙伴大会以“绿色、开放、融合”为主题,从技术创新、产品应用、生态建设等方面,向开发者、行业伙伴等相关方发出开放合作倡议,加速RISC-V在各行各业的深度融合和应用落地,共同推动RISC-V新一代数字基础设施生态创新和产业发展。
2024年 Canalys 中国云计算渠道领导力矩阵冠军厂商分别是:阿里云、华为云和亚马逊云科技(AWS)
天眼查信息显示,天津三星电子有限公司经营状态9月6日由存续变更为注销,注销原因是经营期限届满。该公司成立于1993年4月,法定代表人为YUN JONGCHUL(尹钟撤),注册资本约1.93亿美元,
在德国柏林举行的IFA 2024上,AMD计算和图形业务集团高级副总裁兼总经理Jack Huynh宣布,公司将把以消费者为中心的RDNA和以数据中心为中心CDNA架构统一为UDNA架构,这将为公司更有
在当今人工智能飞速发展的时代,AI Agent正以其独特的方式重塑着企业的生产运营方式。澜码科技作为AI Agent领域的先行者,其创始人兼CEO周健先生分享了对大模型与AI Agent发展现状的深刻
近日,又一国产SiC企业宣布实现了主驱突破,并将出口海外。据“行家说三代半”的追踪统计,自2022年起,国内主驱级SiC器件/模块开始在多款车型中得到应用,尤其是2024年,本土供应商的市场份额显著上
‍‍据龙芯中科介绍,近日,基于龙芯3A6000处理器的储迹NAS在南京师范大学附属小学丹凤街幼儿园、狮山路小学、南京大学附属中学等学校相继落地。储迹NAS是基于最新的龙芯CPU--3A6000,其代表
[关注“行家说动力总成”,快速掌握产业最新动态]9月6日,据“内江新区”消息,晶益通(四川)半导体科技有限公司旗下IGBT模块材料和封测模组产业园项目已完成建设总进度的40%,预计在明年5月建成。据了
8月28-30日,PCIM Asia 2024展在深圳举行。“行家说”进行了为期2天的探馆,合计报道了200+碳化硅相关参展企业(.点这里.)。其中,“行家说”还重点采访了长飞先进等众多企业,深入了解
9月6日,“智进AI•网易数智创新企业大会”在秦皇岛正式举行,300+企业高管及代表、数字化技术专家齐聚一堂,探讨当AI从技术探索迈入实际应用,如何成为推动组织无限进化的新引擎。爱分析创始人兼CEO金
随着汽车智能化升级进入深水区,车载ECU(域)以及软件复杂度呈现指数级上升趋势。尤其是多域、跨域和未来的中央电子架构的普及,以及5G/V2X等车云通信的增强,如何保障整车的信息与网络安全,以及防范外部
近日,3个电驱动项目迎来最新进展,包括项目量产下线、投产、完成试验等,详情请看:[关注“行家说动力总成”,快速掌握产业最新动态]青山工业:大功率电驱项目下线9月5日,据“把动力传递到每一处”消息,重庆