详解FPGA如何实现FP16格式点积级联运算-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 扫一扫

扫码查看更多文章

通过使用Achronix Speedster7t FPGA中的机器学习加速器MLP72，开发人员可以轻松选择浮点/定点格式和多种位宽，或快速应用块浮点，并通过内部级联可以达到理想性能。

神经网络架构中的核心之一就是卷积层，卷积的最基本操作就是点积。向量乘法的结果是向量的每个元素的总和相乘在一起，通常称之为点积。此向量乘法如下所示：

图 1:点积操作

该总和S由每个矢量元素的总和相乘而成，因此

本文讲述的是使用FP16格式的点积运算实例，展示了MLP72支持的数字类型和乘数的范围。

此设计实现了同时处理8对FP16输入的点积。该设计包含四个MLP72，使用MLP内部的级联路径连接。每个MLP72将两个并行乘法的结果相加（即），每个乘法都是i_a输入乘以i_b输入（均为FP16格式）的结果。来自每个MLP72的总和沿着MLP72的列级联到上面的下一个MLP72块。在最后一个MLP72中，在每个周期上，计算八个并行FP16乘法的总和。

最终结果是多个输入周期内的累加总和，其中累加由i_first和i_last输入控制。 i_first输入信号指示累加和归零的第一组输入。 i_last信号指示要累加和加到累加的最后一组输入。最终的i_last值可在之后的六个周期使用，并使用i_last o_valid进行限定。两次运算之间可以无空拍。

●配置说明

表 1:FP16点积配置表

●端口说明

表 2 :FP16点积端口说明表

●时序图

图 2 FP16点积时序图

其中，

那么，以上运算功能如何对应到MLP内部呢？其后的细节已分为MLP72中的多个功能阶段进行说明。

●进位链

首先请看下图，MLP之间的进位链结构，这是MLP内部的专用走线，可以保证级联的高效执行。

图 3 :MLP进位链

●乘法阶段

下图是MLP中浮点乘法功能阶段，其中寄存器代表一级可选延迟。

图 4 :MLP乘法功能阶段框图

MLP72浮点乘法级包括两个24位全浮点乘法器和一个24位全浮点加法器。两个乘法器执行A×B和C×D的并行计算。加法器将两个结果相加得到A×B + C×D。

乘法阶段有两个输出。下半部分输出可以在A×B或（A×B + C×D）之间选择。上半部分输出始终为C×D。

乘法器和加法器使用的数字格式由字节选择参数以及和参数设置的格式确定。

浮点输出具有与整数输出级相同的路径和结构。MLP72可以配置为在特定阶段选择整数或等效浮点输入。输出支持两个24位全浮点加法器，可以对其进行加法或累加配置。进一步可以加载加法器（开始累加），可以将其设置为减法，并支持可选的舍入模式。

最终输出阶段支持将浮点输出格式化为MLP72支持的三种浮点格式中的任何一种。此功能使MLP72可以外部支持大小一致的浮点输入和输出（例如fp16或bfloat16），而在内部以fp24执行所有计算。

图 5:MLP浮点输出阶段框图

需要强调的是本设计输入和输出都是FP16格式，中间计算过程，即进位链上的fwdo_out和fwdi_dout 都是FP24格式。具体逻辑框图如下所示：

图 6: FP16点积逻辑框图

MLP内部数据流示意图：

图 7:FP16点积在MLP内部数据流图

最终ACE的时序结果如下：

作者：杨宇，Achronix资深现场应用工程师

责编：Amy Guan

阅读全文，请先

FPGAs/PLDs EDA/IP/IC设计技术文章

您可能感兴趣

做小型FPGA的思路：莱迪思Nexus 2是个范本

莱迪思在最近的开发者大会上发布了最新的Nexus 2平台和对应的小型FPGA产品。这次我们有机会看看相比竞品，Nexus 2是怎么做到低功耗和高性能的...

莱迪思或将收购Altera，国产FPGA行业迎来新变数

莱迪思（Lattice）正在考虑对英特尔旗下的FPGA业务Altera发起收购要约,对于国产FPGA行业而言，这一消息无疑带来了新的挑战和机遇。尽管在技术实力、产品性能及市场份额等方面与国际巨头尚有一定差距，但近年来国产FPGA的发展势头不容小觑……

硬件配置再创新高，AMD第二代Versal Premium为系统加速计算再立标杆

继今年4月AMD宣布推出第二代Versal AI Edge系列和Versal Prime系列之后，日前，该公司又宣布推出第二代Versal Premium系列，使得第二代Versal系列的版图更趋完整。

时延2.34纳秒！AMD为金融高频交易再推“超级引擎”

在金融行业的高频交易中，每一纳秒都至关重要，会导致从盈利几百万美元到巨额亏损之间的差别。正是在这样的背景下，AMD推出了其最新的金融科技加速卡——Alveo™ UL3422。这款加速卡不仅满足了金融机构对高性能和低时延的迫切需求，还以其独特的优势引领着金融交易的新时代。

在波动市场中寻求增长，莱迪思聚焦AI与安全市场的新机遇

中国市场对于Lattice而言不仅是至关重要的战略市场，更是其全球业务不可或缺的一部分。他提到，Lattice在中国的业务历史已超过30年，作为首批进入中国市场的半导体企业之一，Lattice已经建立了专门的本地团队，这些团队不仅深入理解并服务中国市场，还致力于为中国客户量身打造解决方案。

TI发布一款几分钟就可完成设计仿真和配置的PLD

TI最近刚刚发布了新款PLD（可编程逻辑）产品系列，据说不需要编程知识，就能在十分钟内完成设计、仿真和配置...

“一碰交互，共触未来”ITMA峰会盛大开启近场交互新生态

目前，智能终端NFC功能的使用频率越来越高，面对新场景新需求，ITMA多家成员单位一起联合推动iTAP（智能无感接近式协议）标准化项目，预计25年上半年发布1.0标准，通过功能测试、兼容性测试，确保新技术产业应用。

中科院微电子所在忆阻神经-模糊硬件及应用探索方面取得新进展

中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案，首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……

直角照明轻触开关为复杂电子应用提供定制性和多功能性

C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置，为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。

投身国产浪潮向上而行，英韧科技再获“中国芯”认可

94岁巴菲特公布后事安排！1500亿美元遗产，只留0.5%给子女？

投资界传奇人物沃伦·巴菲特，一位94岁的亿万富翁，最近公开了他的遗嘱。其中透露了一个惊人的决定：他计划将自己99.5%的巨额财富捐赠给慈善机构，而只将0.5%留给自己的子女。这引起了大众对于巴菲特家庭

雷曼光电与辰显光电签约，推进MicroLED商业化

‍‍12月18日，深圳雷曼光电科技股份有限公司（下称“雷曼光电”）与成都辰显光电有限公司（下称“辰显光电”）在成都正式签署战略合作协议。双方将充分发挥各自在技术创新、产品研发等方面的优势，共同推进Mi

跟着撒贝宁走进维信诺，探寻“非凡中国屏”诞生背后的科技传奇之旅

万物互联的时代浪潮中，以OLED为代表的新型显示技术，已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者，凭借自主创新，实现了我国OLED技术的自立自强，成为中国新型显示产

iPhone17系列迎六年来首次设计大换代：回归铝合金背板

有博主基于曝光的信息绘制了iPhone 17系列渲染图，对比iPhone 16系列，17系列最大变化是采用横置相机模组，背部DECO为条形跑道设计，神似谷歌Pixel 9系列，这是iPhone六年来的

JNTC宣布在印度开发和量产车载盖板玻璃

12月18 日，据报道，JNTC与印度Welspun BAPL就车载盖板玻璃的开发及量产签订了投资引进业务合作备忘录（MOU）。资料显示，JNTC是韩国的一家盖板玻璃厂商。Welspun的总部位于印度

AI日报丨超级AI独角兽来了！拿下100亿美元融资，估值升至620亿美元

“ 洞悉AI，未来触手可及。”整理 | 美股研究社在这个快速变化的时代，人工智能技术正以前所未有的速度发展，带来了广泛的机会。《AI日报》致力于挖掘和分析最新的AI概念股公司和市场趋势，为您提供深度的

撒贝宁走进维信诺，探寻“非凡中国屏”诞生背后的科技传奇之旅

高科视像、新视通等持续扩大COB产能

近期，高科视像、新视通、江苏善行智能科技等企业持续扩充COB产能。插播：加入LED显示行业群，请加VX：hangjia188■ 高科视像：MLED新型显示面板生产项目（二期）招标12月18日，山西高科

面板大厂引入AI，每年节省10亿！

LG Display 12月18日表示，为加强OLED制造竞争力，自主开发并引进了“AI（人工智能）生产体系”。“AI生产体系”是AI实时收集并分析OLED工艺制造数据的系统。LG Display表

还有38%的上涨空间！亚马逊AI战略大爆发

“ AWS 的收入增长应该会继续加速。 ”作者 | RichardSaintvilus编译 | 华尔街大事件亚马逊公司( NASDAQ：AMZN ) 在当前水平上还有 38% 的上涨空间。这主要得益

文章评论

最新
热门

换一换

EE直播

更多>

详解FPGA如何实现FP16格式点积级联运算

杂志声明