大模型时代下，AI芯片的技术和应用创新-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 扫一扫

扫码查看更多文章

11月23日，“2023 中国临港国际半导体大会” 在上海临港新片区成功举办，同期举办的“AI芯片与高性能计算论坛”邀请到来自芯片原厂、上游IP厂商、终端应用厂商以及研究机构的嘉宾，聚焦人工智能、云计算、物联网等领域的发展趋势，探讨如何利用先进的芯片技术来推动高性能计算的创新。

自2022年底 ChatGPT发布以来，引发了全球范围内对于生成式人工智能技术（AIGC）的关注。ChatGPT的“火出圈”也给大语言模型（LLM）领域带来了更多的玩家，模型数量和参数量在过去一年均不断激增。据不完全统计，仅中国目前的大模型数量就已超过110个，这同时也带来了对于AI算力需求的剧增。

据英伟达数据显示，在没有以Transformer模型为基础架构的大模型之前，算力需求大致是每两年提升8倍；而自利用Transformer模型后，算力需求大致是每两年提升275倍。基于此，530B参数量的Megatron-Turing NLG模型，将要吞噬超10亿FLOPS的算力。

随着大模型参数量增长，ASIC芯片的弱通用性难以应对下游层出不穷的应用，GPGPU受制于高功耗与低算力利用率。如今很多大模型的参数量已经超过了万亿规模，这意味着需要更大规模的算力平台才能进行如此规模大模型的训练。在这样的背景下，存算一体将有望成为继CPU、GPU架构之后的第三种算力架构，背后还涉及了HBM（高带宽存储）、Chiplet等新兴技术。

更大规模的平台还会带来另外一个问题，即卡与卡之间、不同的节点之间的更多通信，大模型的训练需要融合多种并行策略，对卡间P2P互连带宽以及跨节点互联带宽提出了更高的要求。随着模型参数量进一步增加以及GPU算力的成倍增加，未来需要更高的互连带宽才能满足更大规模模型的训练需求。

只有解决上述问题，才能充分挖掘大模型时代的红利，让所有人感受到AI时代的便利。11月23日，“2023 中国临港国际半导体大会” 在上海临港新片区成功举办，同期举办的“AI芯片与高性能计算论坛”邀请到来自芯片原厂、上游IP厂商、终端应用厂商以及研究机构的嘉宾，聚焦人工智能、云计算、物联网等领域的发展趋势，探讨如何利用先进的芯片技术来推动高性能计算的创新。

回归AI计算的第一性原理

随着大模型时代的到来，数据搬运量大幅增加，导致计算能耗急速增长，计算效率大大降低，运营和建设成本极高。同时，AI应用进入2.0时代，模型参数量呈现出更快的增长速度，数据搬运速度的剪刀差也越来越大，然而每一次推理计算都需要搬运整个模型参数，存储墙成为最大痛点。

亿铸科技创始人、董事长兼CEO 熊大鹏博士

亿铸科技创始人、董事长兼CEO 熊大鹏博士在主题为《回归AI计算第一性原理，存算一体迎大模型时代》的演讲中表示，回归AI计算的第一性原理，也就要回到硬件加速设计的基本定律——阿姆达尔定律(Amdahl Law)，而存算一体架构，可以从根本上解决存储墙带来的能耗和算力瓶颈的问题。

据介绍，亿铸在今年首次提出了基于忆阻器的超异构芯片，以存算一体AI加速计算单元为核心，同时将不同的计算单元如GPGPU，CPU进行3D异构集成，即实现更大的AI算力以及更高的能效比，同时提供更为通用的软件生态，使得CIM AI大算力芯片真正满足AI算力增长第二曲线的需求。目前公司原型技术验证芯片（POC）首次流片已回片并点亮，这也是首颗面向数据中心、云计算、自动驾驶等场景的存算一体AI大算力芯片。

Transformer面临参数规模过大问题

现在以Transformer为代表的各种AI大模型火爆全球，因为在精度跟并行度上的优势，很多领域现在都能看到它的身影。但这类大模型目前面临参数规模太大的难题，且还在呈指数增长，现有内存发展跟不上就会频繁遭遇“存储墙”。

视海芯图创始人、董事长许达文博士

视海芯图创始人、董事长许达文博士在主题为《多模态AI终端芯片》的演讲中表示，由于精度高、具备全局特征和多模态、迁移性强等特点，当前很多AI模型的主干网络正从CNN转变为Transformer，并以机器人视觉、机器人主控和机器人大算力的路径，兼顾其他行业应用来开展具体业务，包括代码生成、AI对话、虚拟教室等应用场景也纷纷落地。

“但Transformer在终端芯片上遇到了因为参数规模太大，NPU利用率低的问题，为此视海芯图推出了SH1580 Transformer加速SoC芯片，采用自研NPU，配备高性能主核及图像处理，12nm工艺制造。”据许达文介绍，这款芯片的核心技术是自研PTPU架构，也称为多态张量处理器（polymorphic tensor processing unit），“由它打造的神经网络处理器可以对Transformer、Bert这些大模型做针对性加速，同时也能继续支持传统的CNN、RNN模型。”

高端IP对算力芯片极为重要

随着全球产业信息化向智能化跨越，半导体行业迎来算力等SoC芯片的需求爆发，芯动科技IP研发副总裁高专在主题为《高性能计算IP“三件套”：HBM/DDRn、Chiplet、SerDes》的演讲中表示，先进工艺大芯片是未来芯片产业的“主战场”，而这类芯片是IP堆积整合的结晶，既比拼高端工艺，更比拼高端IP。“没有IP，95%以上SOC公司做不出芯片。先进工艺大芯片，特别是Chiplet技术对成熟可靠的IP依赖更加严重。”

芯动科技IP研发副总裁 高专

芯动科技已在一站式高端IP和芯片定制领域耕耘17年，获得全球主流代工厂百万片晶圆授权，覆盖从55nm到3nm工艺全套高速IP核和ASIC定制解决方案，“尤其是12/10/8/7/6/5/3nm等先进FinFET工艺均已流片验证，全球知名客户过50亿颗SOC芯片背后有芯动技术。”高专说到。

为适应国内上下游企业和芯片产品的迫切需要，芯动推出了国产算力芯片IP“三件套”，包括高端HBM/DDRn系列、兼容UCIe标准的Innolink™ Chiplet系列、SerDes（PCIe6/5）系列，如今高端IP如GDDR6/6X、HBM2E/3、DDR5/LPDDR5/5X、SERDES、Chiplet都已实现量产验证。”

存算一体架构实现片上DNN训练

在PC通用性计算时代，CPU因为契合通用基础算力的需求获得了长足发展。在移动互联网/大数据时代，GPU则因为契合数据量激增后并行处理的需求，被众星捧月。然而，CPU不擅长大规模并行计算，GPU追求高算力的同时忽视了能耗，在智能化时代要满足海量数据的分析与处理需求，需要进行突破冯诺依曼架构的底层创新——存算一体，也称存内计算。

苹芯科技产品市场总监 王菁

苹芯科技产品市场总监王菁在主题为《存内计算在智能计算领域的应用与展望》的演讲中表示，存内计算结构可以通过降低数据的移动，大幅提高DNN的计算效率。但是过去的存算结构专注于DNN推理，而并没有对于DNN训练有足够的研究。“相较于DNN推理，DNN训练对于计算精度有更高的要求，为了实现片上的DNN训练，浮点计算是一个必须的功能，同时对于张量操作也有更多要求，这对于存内计算的设计也提出了新的要求。”

鉴于此，苹芯科技提出了基于哈德玛积形式的BF16浮点存内计算结构，实现浮点的DNN训练，将存内计算技术更好的应用于DNN的片上训练，实现应用场景的可定制化，为存内计算技术支撑下一代可穿戴设备、AIoT等更为广泛的AI应用场景奠定了基础。“苹芯的PIMCHIP-S系列端侧AI推理芯片系列，搭载SRAM存算一体计算加速单元，能够高能效、低功耗、低成本地完成多种数据密集型任务。其中PiMCHIP-S300能够提供1T算力，待机功耗小于100uW，支持多模态，通用性强，工具链支持高级语言。”王菁说到。

大模型已经并将持续影响半导体行业

人工智能（AI）是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。从1956年达特茅斯会议上首次提出“像人一样思考的计算机”，到2022年OpenAI发布ChatGPT，人工智能已经在计算机视觉（CV）、自然语言处理（NLP）、音频信号处理（ASP）等领域广泛使用。随着GPT系列模型的火出圈，全球科技企业从不同角度快速跟进，其中就包括华为在今年开发者大会（HDC）上发布的盘古大模型。

华为制造与大企业军团行业解决方案总监 孙磊

华为制造与大企业军团行业解决方案总监孙磊在主题为《智能世界展望：从高性能计算到大模型》中表示，GPT-4已初步具备自主学习和思考能力，在文本/图像/音频/视频/代码等脑力劳动场景中已达到人类80%的水平。“预计未来AI的发展将跨越拐点，从‘预测推断’ 走向‘内容生成’，从替代低端重复性工作的专用领域，走向替代较高端脑力劳作的通用领域。”

如今人工智能进入大模型时代，使用门槛大幅降低，边际成本逐渐接于零，而Transformer架构则成为大模型中的主流，占比从2019年的26%增长到2022年的49%。“如今，大模型已经并将持续影响半导体行业。” 孙磊说到，华为也在盘古大模型上持续战略投入，推动大模型在计算机视觉、自然语言处理、多模态、智能检测和科学智能等行业的规模应用，“对于想要开发自己大模型的客户，昇腾大模型解决方案可以使能全流程开发与应用创新，鲲鹏HPC解决方案则可以使能软硬件全栈，实现端到端方案。”

AI能否驱动芯片产业链变革？

人工智能如今已经对芯片产业链中的设计、制造、封测和应用环节产生了一定影响。AI+芯片设计已经成为可能，尤其是在多层、3D 堆叠和异构集成等需要密集计算设计的任务中胜过人类，而生成式 AI 也为当今和未来 PCB 日益复杂的布局布线（P&R）问题提供了极具吸引力的解决方案。

AI4C应用研究院院长 管震

“几个月前，有一个用大语言模型成功设计出芯片的案例。”AI4C应用研究院院长管震在主题为《AI是否能驱动芯片产业链变革？》的演讲中表示，其实在EDA行业已经有很多成熟方案，可以利用AI来帮助芯片设计，例如Synopsys.AI的Copilot。“在软件行业大模型的应用就更多了，在帮助开发人员理解复杂代码并编写文档、评审代码、提出改进意见并自动生成大量单元测试等方面，大大提升了效率。”

管震强调，大模型应用的潜力应该在“具身智能”上，当整个应用群体都拥有具身智能后，AI就能在社会学、自动驾驶以及群体连接等方面发挥巨大作用。“芯片行业在这波浪潮中的爆发点可能是AI基座，也就是各种大芯片。但在具体应用落地上，可不仅仅是跟ChatGPT聊天这么简单，你首先需要明确需求，准备好供机器学习的数据，对各种大模型进行选择和微调，随后是架构设计、部署优化和用户培训。”可能企业不清楚哪款大模型更适合自己，或是具体怎样用来优化自家流程，这方面AI4C研究院可以提供帮助。

圆桌讨论：AIGC给AI芯片带来的机会和挑战

最后，在主题为《生成式AI应用的爆发，对AI芯片带来哪些机会和挑战？》的圆桌论坛上，主持人AspenCore资深产业分析师黄烨锋，与亿铸科技创始人、董事长兼CEO 熊大鹏博士、芯动科技IP研发副总裁高专、苹芯科技产品市场总监王菁以及 AI4C应用研究院院长管震，就生成式AI的商机、端侧和云侧生成式AI的区别、盈利模式、本土数据中心大芯片等热点话题展开了深度对话。

责编：Luffy

本文为EET电子工程专辑原创文章，禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

阅读全文，请先

人工智能软件数据中心/服务器大数据智能硬件业界新闻

大模型时代下，AI芯片的技术和应用创新