8位浮点数成功训练出深度神经网络AI芯片-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 扫一扫

扫码查看更多文章

IBM研究人员开发出使用8位浮点数成功训练DNN的数字AI芯片，同时可在深度学习模型上保持原有的准确性，而其模拟AI芯片也采用了8位精度的内存乘法与相变内存...

随着在美国旧金山举行的国际电子组件会议(IEDM)以及在加拿大蒙特利尔举行的神经信息处理系统大会(NeurlPS)双双启动，对于任何希望迎头赶上人工智能(AI)研发进展步伐的人来说，最近正是把握庞大机会的最佳时刻。

例如，IBM研究人员介绍其打造数字和模拟AI芯片的新AI途径。IBM声称其数字AI芯片首次展现“使用8位浮点数成功训练深度神经网络(DNN)，同时在一系列深度学习模型和数据集上完整保持准确性(accuracy)。”

另外，IBM研究人员在IEDM还展示了一款模拟AI芯片，采用了8位精度(precision)的内存(in-memory)乘法以及相变内存。

IBM Research-Almaden副总裁兼实验室主任Jeffrey Welser在接受《EE Times》访问时指出，“我们确实认为目前进行中的这些工作——例如试图降低精度以提高性能提升并降低功率——对于持续推进AI非常重要。”。

这一点至关重要。Weiser解释说，因为这个世界正从“狭义AI”(narrow AI)转变为“广义AI”(broad AI)，例如我们从“用AI在因特网上辨识猫”进展到“分析医学影像，或者我们希望能够将文本和成像信息整合在一起，以提出解决方案”。

他补充说：“所有这些更广泛的问题需要更大的神经网络、更大的数据集和多模态数据集...... （为此），我们需要改变架构和硬件来实现这一切。”

Weiser认为IBM发表的两篇论文可看出“一连串有趣的进展”，有助于使业界走向（广义AI）的未来。

市场研究公司Linley Group总裁兼首席分析师Linley Gwennap说：“机器学习继续迅速发展。现有硬件无法有效处理研究人员建构的最大神经网络，因此他们正在寻找各种新方法来提高性能和效率。”

Gwennap补充说，这些新的发展将会对于硬件供应商带来巨大压力，因为芯片公司“必须灵活、快速地在这个混乱的市场中生存”。

AI的GPU时代结束

IBM大胆预测GPU在AI领域的主导地位即将结束。

Welser说：“GPU能够为绘图处理进行大量的平行矩阵乘法运算。这种矩阵乘法恰巧与神经网络所需的完全相同。”在他看来，“这有点巧合，但它非常重要。因为没有那些（GPU），我们永远无法达到我们目前已在AI实现的性能。”但是，Welser补充说，“随着我们更能掌握关于如何实现AI的更多知识，目前也正着手寻找方法设计一种更高效的硬件。”

降低精度

提高效率的途径之一是降低AI处理所需的精度。

Welser解释说，“几年前我们开始意识到一个大方向是，虽然习惯于非常精确的计算——以32位计算浮点作为标准，甚至64位，才能为真正准确的计算类型倍增精度，但这一点在AI中并不一定非常重要。”

他强调，在AI中，“对于神经网络在意的是当你展示一个影像或单词时，它是否能得到正确的答案。当我们问它是猫还是狗时，它回答说是一只猫。如果答案正确，你并不一定会注意到其间进行的所有计算过程。”

理想情况下，AI应该模仿人眼。Welser说：“如果你从一扇起雾的窗子看出去，你看到一个人走在街上。这是一个低度定位的影象...但是你可能经常会说‘喔，那是我妈走过来了！’所以，只要你得到正确的答案，视觉影像是否正确精准其实是无关紧要的。”

他解释说，这就解释了AI处理中精度逐渐较低的趋势。

Welser继续说道：“对于32位计算，我必须在32位上进行计算。如果我们可以在16位上进行，那基本上只需要一半的计算能力，或者可能是芯片面积的一半甚至更少。如果你可以再降低至8位或4位，那就更好了。”他说，“所以，这让我在面积、功率、性能和吞吐量方面获得了巨大的胜利——我们能够以多快的速度完成这一切。”

（来源：IBM Research）

然而，Welser坦承，“很长一段时间，我们认为我们必须持续使用32位精度进行AI培训，当时别无他法。”

2015年，IBM Research发表了针对传统CMOS技术的新型数据流相关文章，推出为AI模型训练与推论而降低精度的途径。IBM展示以16位精度的训练模型，其准确度约相当于32位训练模型，而不至于牺牲准确度。

从那时起，IBM观察到“降低精度的方法很快地被采纳为业界标准，16位训练和8位推论如今已经司空见惯，并促使新创公司和创投业者(VC)投资大量涌入，投入打造降低精度的AI芯片。”尽管存在这样一种新兴趋势，但由于人们需要保持模型的高准确度，因此，小于16位的“训练”几乎不可能实现。

如何实现？

Welser说IBM开发一连串让研究人员可应用于AI处理的方法，实现了这一目的。例如，他说，“我们确实有一部份以8位来做，有些部份采用16位进行累积，而其他部份则以不同组件实现，所以不至于失去精度。”

换句话说，比起普遍将8位计算应用于整个操作，IBM团队的研究成果更加复杂，但研究人员找到了各种方法组合，分别应用于流程的不同部份。

Welser证实，“没错，这完全正确。例如，我们现在可以使用8位进行所有的权重更新过程，但仍然使用16位进行一些加法和累积步骤过程。事实证明这非常重要，因为16位加法比16位乘法更容易，所以实际上以16位的方式执行它是有帮助的。”

也许更重要的是，正如Welser所指出的，IBM的研究成果关键在于“提出一种数据流架构，让数据以非常流畅的方式流经芯片，而且以这种方式运行最终也不至于造成瓶颈。”

最后，“我们证明您可以有效地使用8位浮点，以取得较过去人们使用16位或32位相同的准确度。”

8位操作的障碍？

Linley Group的Gwennap表示，最新的GPU和AI芯片支持使用IEEE定义格式的16位浮点(FP16)。

然而，他补充说，“尽管如此，大多数开发人员还在使用FP32训练神经网络。”他说，“8位FP的问题在于缺乏标准格式，只有几种可能的指数组合和有意义的尾数。在标准(IEEE或某些非正式协议)建立之前，芯片制造商将发现难以在硬件中有效实施。”

那么在商业世界多久才开始使用8位精度进行训练？Welser说目前还不得而知，因为“我们现在看到第一次使用16位技术的情况越来越多，但是产业界大部份还是着眼于32位…。”

然而，他强调说他并未看到任何降低精度的实际障碍，“只要我们能够显示出相同输出的结果。”他指出，从用户的角度来看，“如果芯片速度更快、耗功更低，价格更便宜，而且也能得到同样的答案，就没什么好计较的了。”

当然，在其下的软件基础设施修改必发挥作用。

Welser证实，“你必须拥有能够降低精度的软件或算法，使其得以正确执行。”由于现在所有的软件架构都是为使用GPU和32位而建构的，“所有的一切都必须为接受16位或8位而进行修改。”

在用户存取实际硬件之前，业界可能持续使用已知的内容。

8位精度的内存乘法

IBM在IEDM展示该公司所谓的8位精度内存乘法以及设计中的相变内存(PCM)。

在IEDM上，IBM科学家发表了一项关于新型内存内运算(in-memory computing；IMC)装置的研究，它比起当今的商业技术达到了更低100-1000倍的运算能耗级。该组件非常适用于边缘AI应用，例如自动驾驶、医疗保健监控和安全性（来源：IBM Research）

工程界已经意识到，降低能耗的关键是尽量减少运算架构中出现数据必须从内存移至处理器进行运算的机会。这种移动需要耗负大量的时间和精力。

对于更高效AI处理的需求促使许多人致力于研究内存内运算。Mythic在追逐这一点的AI芯片新创公司中脱颖而出，但其后还可能出现更多竞争对手。

在Welser看来，模拟技术“很自然地适于边缘AI。」正如从运算发展史的观察，模拟运算需要低功耗，证明它具有高能效。但它也不准确。”Welser说：“这就是为什么数字运算最终胜过模拟运算。”

但是，Tirias Research首席分析师Kevin Krewell表示，模拟正在回归中，因为“内存内运算与模拟运算可以相互搭配。”他解释说：“内存数组保持神经网络权重，模拟组件则执行总和和触发。”

Krewell补充说，“挑战在于保持模拟的正确校准，以及过程和温度变化的准确性。此外，内存和模拟组件也不像数字组件那样扩展。”

权重是内存的阻值

同样地，Welser解释说，模拟运算中神经网络使用的权重是“存在于内存内部的阻值”。它们不必移入和移出，都是固定的。Welser说：“换句话说，由于采用内存内运算架构，内存单元兼作处理器，有效地实现了储存和运算的双重任务。”

然而，Welser所说的挑战是：“我们将要使用的是什么阻值状态？它能使我们在训练时将其设置为各种不同的阻值吗？它必须够准确才可用。”

Welser解释说，虽然数字AI硬件会降低精度，但模拟至今一直受到内部精度相对较低的限制，从而影响了模型精度。

在开发接近8位精度的能力时，IBM使用了相变内存(PCM)。Welser说，PCM长久以来一直用于模拟内存。在此情况下，“我们使用PCM来回储存更多不同的阻值。更重要的是，我们正使用一种新颖的架构。”

IBM的论文详细介绍在纯量乘法运算中实现8位精度的技术。该公司声称，这导致“以往的模拟芯片准确度提高了大约一倍，而且也比同类精度的数字架构功耗更低33倍”。

Gwennap坦言IBM已经在PCM上研究一段时间了，但他称之为“仅仅是一项研究计划”。

Gwennap认为这种PCM途径的最大挑战在于可制造性。“模拟特性因不同的晶体管以及产在线的不同芯片而异，这就是为什么大多数产业都使用较不易受这种变化影响的数字电路。”

《EE Times》向Linley Group和IBM分别询问了商用AI芯片(如Mythic)使用内存内运算架构的情况。Gwennap说：“Mythic似乎最接近于将这项技术投入生产，但即使如此也还需要至少一年的时间。”

IBM承认，“Mythic采用了一种专注于使用内存内运算的有趣方法。”然而，IBM也指出，Mythic的芯片“仅适用于推论应用”。

根据IBM发言人，IBM的不同之处是：“我们相信完整的AI解决方案需要加速推论和训练。我们正在开发可用于推论和训练的非挥发性内存组件，并使其发展得更成熟。”

编译：Susan Hong，EET Taiwan

阅读全文，请先

人工智能 EDA/IP/IC设计处理器/DSP 业界新闻

您可能感兴趣

2025年全球将启动18个新的晶圆厂项目建设，中国有5个

半导体行业正迎来一个新的建设高峰期，SEMI预测，2025年，全球范围内将有18个新的晶圆厂项目开始建设，其中15座为12英寸晶圆厂，3座为8英寸晶圆厂，大部分预计将于 2026 年至 2027 年开始运营......

TCL正式发布“世界上第一款模块化人工智能伴侣机器人”

这款机器人头上的摄像头可以录制视频或使用人工智能识别物体，虽然该机器人的动作仅限于挥动细小的手臂和眨动动画眼睛，但它可以与一把小型电动椅子配对，自动在家中导航。

迎接硅光子时代：开启超高速数据传输新篇章

随着AI和量子计算等前沿领域的快速发展，GlobalFoundries、Tower Semiconductor以及多家公司正积极迎接硅光子技术带来的新机遇。这项新兴技术有望为二线代工厂带来竞争优势，并推动全球芯片制造技术的多样化发展。

AI需求强劲增长，富士康第四季度营收超预期

富士康在一份声明中说，作为苹果公司最大的 iPhone 组装商，富士康第四季度营收增长 15.2%，达到 2.13 万亿新台币（647.2 亿美元），比LSEG SmartEstimate预测的2.1万亿新台币还要高......

支付9500万美元，苹果和解Siri语音助手隐私窃听集体诉讼

此次和解是苹果在隐私保护方面做出了重大让步，苹果将永久删除2019年10月之前获取的所有个人音频记录，并确保未来不再发生类似事件......

2024年韩国出口额达6838亿美元，半导体成增长主力

尽管2024年韩国展现出了强劲的出口表现，但2025年其出口形势可能会有所逆转。这主要受限于韩国政治形势对一系列产业政策的影响，以及美国对华提升关税和中国同业者的竞争。

为什么翻新机的价格在上涨？

• 目前，iPhone在翻新市场中是最热门的商品，并将长期主导着翻新机的平均销售价格。 • 全球翻新机市场持续向高端化发展，其平均销售价格（ASP）现已超过新手机。 • 新兴市场是增长的最大驱动力，消费者对高端旗舰产品有着迫切需求。 • 由于市场固化和供应链的一些问题限制推高中国、东南亚和非洲等大市场的价格。 • 2024年，这些翻新机平均销售价格将首次超过新手机。

2024三季度全球扫地机器人市场出货增长持续，卷势不减

从全球厂商竞争来看，三季度凭借多个新品发布，石头科技市场份额提升至16.4%,连续两季度排名全球第一……

摩尔斯微电子推出MM8108：全球体积最小、速度最快、功耗最低、传输距离最远的Wi-Fi芯片

最新Wi-Fi HaLow片上系统(SoC)为物联网的性能、效率、安全性与多功能性设立新标准，配套USB网关，可轻松实现Wi-Fi HaLow在新建及现有Wi-Fi基础设施中的快速稳健集成

移远通信再扩短距离通信模组版图：Wi-Fi 7/6、Wi-Fi Halow等六款新品助力无线连接升级

其中包含Wi-Fi 7和蓝牙5.4 模组FME170Q-865、Wi-Fi 6和蓝牙5.4 模组FCS962N-LP、Wi-Fi 6和蓝牙5.3模组FCU865R 、独立Wi-Fi和蓝牙模组FGM840R、高功率Wi-Fi HaLow模组FGH100M-H……

芯片巨头：裁员5%！推迟加薪！

据报道，由于多种芯片需求疲软，日本芯片制造商瑞萨电子今年将裁员数百人。瑞萨电子已通知员工，计划在日本和海外的 21000 个岗位中裁员不到 5%。该公司还将推迟原定于春季实施的定期加薪。瑞萨电子的一位

奥康皮鞋：终止收购芯片公司！

1月8日消息，奥康国际发布公告称，终止发行股份购买资产，公司股票将于1月8日开市起复牌。至此，奥康国际谋划的跨界收购芯片公司事项告一段落。奥康国际在公告中介绍，公司于2024年12月24日披露了《关于

视频：实时控制解决方案的正确选择——数字信号控制器（DSC）或通用MCU

今天推荐的视频介绍了单片机（MCU）和数字信号控制器（DSC）之间的差异、Microchip DSC的单核和双核架构、DSC的应用示例以及可将您的设计推向市场的开发资源。更多更全视频尽在Microch

研报|机器人大语言模型市场规模预估于2028年破千亿美元，英伟达WFM平台或成主要驱动力

‌‌Jan. 9, 2025 产业洞察根据TrendForce集邦咨询最新研究，随着人型机器人迈向高度系统整合，并有望从工业场景走进家庭生活，前端的AI模型训练将更为关键，以满足更多后端理解与互动需求

天马创新显示技术闪耀CES2025，引领未来科技潮流

当地时间2025年1月7日，全球备受期待的技术盛宴——国际消费电子展（CES 2025）在美国拉斯维加斯盛大开幕。作为显示领域的领军企业，天马携一系列前沿创新技术和最新智能座舱解决方案惊艳登场，带来手

宝马新时代座舱应用MiniLED

在CES2025上，宝马发布了BMW首创全景iDrive与新世代操作系统X，据了解，其中控屏为Mini LED背光屏幕，宝马表示，这一创新不仅重新定义了汽车人机交互的标准。除了宝马之外，CES 202

戴尔科技集团以全新设计的PC产品组合驱动行业创新

戴尔科技AI PC产品组合助力终端用户释放创造力并提高工作效率。戴尔科技统一旗下产品组合品牌命名，旨在帮助用户更轻松、快速地找到相匹配的PC、配件及服务。搭载英

2028年中国在全球PCB销售占比预估仍超60%，主导地位稳固

△广告与正文无关 1月3日，The Elec援引电子元件专业媒体内容表示，尽管取代中国PCB的努力仍在继续，但预计到2028年，中国（包括大陆和台湾省）在全球PCB销售中的份额将超过60%，在市场

日本瑞萨电子大裁员！暂停加薪！

1月8日消息，据外媒报道，由于半导体行业需求衰退，日本瑞萨电子将在日本及海外裁员数百人，并且定期加薪也将被推迟！据报道，瑞萨电子在日本和海外有约21,000名员工，本次裁员比例近5%。这一裁员计划已于

消息称Arm寻求收购半导体设计公司AmpereComputing

据彭博社报道，软银集团及其控股子公司 Arm 正在探讨收购 Ampere Computing 的可能。 Ampere Computing 是甲骨文支持的半导体设计公司，致力于塑造云计算的未来,并推出了

8位浮点数成功训练出深度神经网络AI芯片