在当前AGI(通用人工智能)时代,算力芯片的发展将面临着巨大的挑战和机遇。一方面随着AI技术的不断进步,人工智能算力需求呈现出爆炸性增长;另一方面未来计算将面临物理极限的挑战,需要从软件、架构和系统层面去创新,突破半导体物理层极限,构建智能、绿色、安全的未来计算。
深圳理工大学算力微电子学院院长唐志敏
在2024国际AIoT生态发展大会上,深圳理工大学算力微电子学院院长唐志敏以“AGI时代的算力芯片”为主题,特别分享了算力芯片发展趋势,以及存在生态挑战与解决之道。
唐志敏首先分享了自己对“算力”这一词的定义。他介绍,实际上“算力”一词是中国自媒体新创的词汇,“算力不仅仅是计算的能力,其另一个含义是什么问题能解算,什么问题不能解算”。他认为,算力应该是“快速计算的能力”,利用可接受的资源、在可接受的时间内,完成某种计算任务的能力。
同时,算力应该用性能来度量,其两种基本表述方式:一是延迟,即完成单个任务所需要的时间;二是吞吐量,即单位时间里完成任务的数量。从度量的角度,算力的评测也非常重要,比如性能评价、社会绩效评估。
唐志敏指出,不恰当的评估方式危害巨大,比如此前过度强调GDP发展会影响环境,“评价是一个很棘手的问题。如果我们评价的方法不好,实际上我们的战略发展可能会误入歧途,或者没有走到正确的道路上去。”因此,最本质的衡量方式是完成计算任务的总时间。
理论上,通过硬件的累加,即运算部件数量*运算部件位宽*时钟频率,就能实现峰值性能。但唐志敏表示,硬件峰值是一个永远也达不到的上限,“没有一个程序能让所有运算部件同时全速运行;实际跑程序的性能,远远低于这个峰值(很可能仅1~5%)”。
高性能计算中运行效率最高的程序是LINPACK,但从上世纪70年代开始,到现在超算上,能达到60~70%的效率。但世界上大部分的应用软件在超级计算机中的效率是远远低于LINPACK,主要原因在于优化不够,比如并行度不够、负载不平衡、数据来回搬运、内存瓶颈等。因此,唐志敏认为,算力看起来是硬件问题,其实是软件问题、应用问题。
他同时指出,人类对计算能力的需求是永无止境的,只是从此前的产品操作计算演进到AI相关类型的计算,“我们还是要不停的探索新的计算能力。”
传统计算主要是科学与工程计算,比如双精度浮点运算(FP64),除了国防军事之外,主要应用在气象预报、油气勘探、工程设计、新药开发等。但随着大数据、人工智能技术的不断发展,比如深度神经网络、大模型,硬件的投入大幅上升,需要通过一些数据优化,来降低硬件的投入成本。
唐志敏表示,CPU是传统的算力芯片,随着进入纳米工艺后,摩尔定律逐渐失效,而AIGC对算力增长的需求却每6个月翻一番(也有3.5个月一说)。2000年Pentium4的主频已经达到4GHz,后来的CPU大部分都低于这个频率,光靠研发性能更好的CPU已经难以满足提升算力的需求。因此,算力需求的大幅上升对异构计算芯片(xPU)
但CPU+XPU的异构计算架构需要做通用性、算力、能耗、成本等方面的平衡,比如图像处理器GPU发展为较通用的加速引擎GPGPU,比如谷歌TPU、各种神经网络NPU、类GPGPU等加速器。不过,唐志敏也指出,异构加速计算的难点在于编程、软件兼容性,比如原来只在CPU上运行的程序,要分为两部分,一部分仍在CPU上,另一部分放到xPU上。因此,这又衍生出算力芯片的生态问题。
那么,什么是算力芯片的生态?应该是能在处理器上运行的各类软件的总和,包括各种应用软件,及支撑应用软件开发运行的系统软件、中间件、库等。比如,CPU的两大典型生态:x86计算机、ARM嵌入式(手机)
唐志敏特别提到,由于嵌入式应用的软件栈不深,RISC-V等其它CPU也有一些机会,但在系统软件、开发环境的完备性方面,跟ARM的差距仍然不小。他也指出,xPU的生态更是个大问题,主要体现在:一是硬件不做动态优化,完全依赖并行软件的优化才能发挥出性能;二是虽然种类很多,用户还是喜欢NV的产品,因为有CUDA。
值得一提的是,尽管兼容CUDA不难,仅需支持一种高级语言,编译器就能搞定,但兼容CUDA生态非常难,甚至可以说一个不可能完成的任务,因其涉及不计其数的库函数,支持数学、科学、工程等领域,都是二进制格式的,同时还涉及构成开发环境的各种工具,基于CUDA平台的各种AI框架、LLM、应用等。
那么,在中国先进制程被封锁、算力芯片的峰值性能落后的大背景下,中国应该如何应对挑战呢?唐志敏认为,应该全栈协同,突破算力芯片和系统的关建技术,即需要系统级思维,在限制条件下求全系统的最忧解,不追求芯片峰值性能的绝对领先,通过协同创新、全栈优化,得到领先的性能。
因此,深圳理工大学成立算力微电子学院,也是希望走一条“另辟蹊径”的道路,基于中国现实的硬件条件,通过全系统的优化,包括设计、工艺、制造协同优化,电路设计与工艺技术结合,芯片微体系结构与电路设计结合,软件设计与硬件结构结合,突破制程制约,实现效能领先的AI应用性能。
在接受电子工程专辑采访时,唐志敏对中美两国的AI技术差距作了相关的解读。他认为,虽然中国在AI芯片技术上相对落后,但可以从应用的角度,推动相关技术的落地,同时强调了软件的优化,以充分发挥AI芯片的性能。