独立GPU市场一直是行业关注的焦点。而近日,一则英特尔公司计划将图形芯片部门(AXG)一分为二,并计划任命Raja Koduri担任英特尔首席架构师的新闻,更是引起了业界广泛的讨论。英特尔方面对媒体回应称,公司目前在独立显卡领域的承诺和产品路线图不会改变,图形芯片和加速计算将是英特尔今后的关键增长引擎。
其实,英特尔今年8月正式发布的GPU Flex系列已经彰显了这一努力。仅在中国市场,短短几个月内已通过搭载新华三、浪潮、宁畅、宝德、超聚变等众多OEM合作伙伴的系统陆续面市,在当虹科技、中科大洋、火山引擎、亿联网络等行业合作伙伴的实际使用场景中实现了针对不同视觉云工作负载的应用部署落地,在此过程中也同时获得了来自中国联通、天翼云、移动云的电信运营商的支持,整体生态呈现良好增长势头。
拥抱数字时代,加速驱动算力飞跃
如今,数据量正呈指数级增长,数据形态也日趋多元化。英特尔公司市场营销集团副总裁、中国区云与行业解决方案部总经理梁雅莉指出,在数据“量”的方面,当我们把日常经济、娱乐、生活中的一些事情搬到虚拟数字世界去进行,缩短时空带来的交互,继续提高效率时,与之相应产生的数据量预计将达到Quecca级别,这将是10的27-30次方,是巨大的数据量。
在数据“质”的方面,任何新应用的发展都会带来新的数据形式、数据处理方式和数据格式,实时性要求越高,数据量也就越高。同时,这些数据又都来自真实世界,不可能依靠预先编好的程序,必须要有新的算法,这同样带来了对更强计算能力的要求。
因此,不论是从数据“量”还是“质”上来看,传统的单一计算架构是无法解决所有问题的,行业需要采用不同计算架构去处理不同类型的数据,真正做到“用好的工具解决好的问题”,从而更加高效地处理复杂计算。
再回到GPU。当前,我们正处于一场由更多用户、更多应用和更高分辨率所共同驱动的“像素爆炸”变革中,根据Altman Solon关于 2021年全球像素和用途数据显示,全球累积产生的用户原创内容达每秒19 万亿个像素,全球视频内容消费则达每秒 7 千亿个像素。置身于“像素爆炸”变革之中,海量用户、海量应用以及超高分辨率要求当今的数据中心基础设施承担着计算、编码、解码、传输、存储和显示视觉信息的巨大压力,传统模式中单一且孤立的计算架构不足以应对。
为此,放眼于日益增长的算力需求,英特尔不但基于XPU战略打造了跨CPU、GPU、FPGA、IPU等多种架构的算力资源,还特别希望基于Xe-HPG 微架构,让Flex系列GPU能够更好的满足图像质量、部署密度和时延方面的要求。
立足技术优势,扩大应用场景覆盖
据英特尔市场营销集团副总裁、中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰介绍,Flex系列包含多达4个Xe媒体引擎、XMX AI加速单元和AV1硬件编解码器,也是英特尔在数据中心领域首款支持AV1编解码的独立GPU。
该系列GPU单卡能够支持多达36路视频流的1080p60转码吞吐量,以及 8 路视频流的 4K60 转码吞吐量,能够以低于同类型解决方案的能耗,提供更出色的媒体转码吞吐性能和解码吞吐性能。此外,英特尔数据中心GPU Flex系列基于硬件的开源AV1编码器可节省 30% 以上的带宽。 Flex 140 GPU的媒体引擎还支持包括HEVC、AVC和VP9在内的业界广泛使用的编解码器,并可以有效提高其性能。在软件层面,它可广泛支持主流媒体工具、API、框架和最新的编解码器。
在应用层面,随着视频行业快速进入4K/8K时代,在为用户带来更出色的视频观看体验的同时,也对视频解码和转码系统的性能,以及总体拥有成本带来了严峻的挑战。中科大洋技术研究院院长褚震宇表示,利用英特尔数据中心GPU Flex 140,并使用涵盖英特尔oneVPL在内的英特尔oneAPI工具套件进行优化,其LeoVideo Cloud在多媒体转码和视觉图形处理等方面能够实现解码16路4K并发或4路8K并发或 60路高清并发,以及编码6路4K并发或30路高清并发,这一性能表现远超传统产品,而且具有更优异的性价比。
“需要重点提及的是,在编码质量上,尤其是在甚低码率编码质量上,英特尔Flex 140较竞品有明显优势,毕竟GPU硬件加速在编码质量方面超过CPU相当有难度。“褚震宇说。
另一方面,数字化办公的推进也极大促进了视频会议的应用普及与发展。但在亿联网络高级解决方案架构师林振鹏看来,无论是早期的MCU架构,或是现在新的视频会议架构,都无法实现优质的高并发处理,即当SIP H.323终端接入会议时,需要具备全编全解的能力。在传统的处理架构之下,CPU的处理架构需要兼顾到多种业务处理方式,又要做到整体的业务编解码,这时会出现在传统的H.265情况下,编解能力较为低下,即便选择H.264,同样存在性能和性价比不足的情况。
他在谈及Flex系列GPU的能力时认为,“在功能应用上,Flex系列GPU是业内少数几家能够完整支持解码、混屏、缩放、编码应用的GPU,能够相当完整的支持公司所需的视频编解码业务要求。”数据显示,在使用CPU处理的传统情况下,其软编解能力在H.265 4K30FPS的情况下只能达到2路,但通过引入Flex GPU硬编解,则可以在4K 30FPS H.265的情况下达到19路。
云游戏是另一个考验GPU性能的使用场景。从下图可以看到,在《王者荣耀》游戏中,单张Flex170显卡在游戏画质为720p30时,可以同时支持多达68路的游戏同时运行 ,这为客户带来了极大的成本优化。在最近的版本发布上,同一张GPU卡既可以支持Android云游戏,也可以支持Windows云游戏,灵活性大幅增强。
火山引擎系统架构师梁宇重点谈及了制作安卓云游戏解决方案过程中遇到的三大挑战:一是成本,例如包括GPU在内的硬件服务器成本、网络带宽成本等等;二是端到端延迟;三是安卓云游戏场景对GPU硬件编解码能力的需求较大,如果GPU自带强大硬件编解码功能,十分有助于软硬件的整合和成本控制。
而在火山引擎技术支持的3D动作手游《航海王热血航线》中,单个Flex系列140 GPU可支持渲染20路720p60数据流,编码60路720p60数据流,这样的更多路实时云游戏流可以充分保证更优的游戏服务质量。
此外,Flex系列还支持XeSS超级采样技术。通过AI超分的技术手段,在画面质量接近的前提下,大幅缩短渲染时间,进而提升运行效率。图中我们可以看到,在4K的渲染下,如果用了XeSS超采样功能,可以大幅缩短渲染的时间。因此,对于很多标清转高清和修复老视频的应用,XeSS超采样技术是可以带来大幅度的性能的提升。
随着新媒体的高速发展,各种显示设备的分辨率不断提高,人们对于影片清晰度的要求也越来越高。当虹科技就与英特尔开展合作,升级了一套用于老胶片电影修复、重要历史资料纪录片翻新和大数据人文素材修复等场景的解决方案。
当虹科技解决方案总监郑晓玲介绍说,老片修复的AI技术主要有以下几方面应用:一是AI插帧,即通过AI的插帧把更多的帧数插入以前25帧、24帧、或是40帧的画面,让影片可以在4K/8K 50帧甚至更高帧率要求下播放出来;二是AI HDR转换,在4K/8K播放时,需要把以前标清和高清的色域空间变大为HDR色域空间;三AI超分,指将分辨率提升为4K和8K;四是AI画质增强。
结语
随着云计算、大数据、人工智能技术的演进,GPU的应用场景正从像素绘制向人工智能、深度学习和科学计算等领域快速迈进,成为帮助人类解决复杂计算挑战的重要武器。英特尔方面承诺今后将依靠灵活性、新的设计思路、软件和合作伙伴生态,将GPU性能不断提升至全新高度,我们也将时刻关注英特尔的独显之路。