广告

IBM研发基于PCM的AI芯片,算力是GPU百倍

2018-06-27 08:05:57 机器之心 阅读:
IBM 近日提出的全新芯片设计可以通过在数据存储的位置执行计算来加速全连接神经网络的训练。研究人员称,这种“芯片”可以达到 GPU 280 倍的能源效率,并在同样面积上实现 100 倍的算力。该研究的论文已经发表在上周出版的 Nature 期刊上。
广告

用 GPU 运行神经网络的方法近年来已经为人工智能领域带来了惊人的发展,然而两者的组合其实并不完美。IBM 研究人员希望专门为神经网络设计一种新芯片,使前者运行能够更快、更有效。

直到本世纪初,研究人员才发现为电子游戏设计的图形处理单元 ( GPU ) 可以被用作硬件加速器,以运行更大的神经网络。

因为这些芯片可以执行大量并行运算,而无需像传统的 CPU 那样按顺序执行。这对于同时计算数百个神经元的权重来说特别有用,而今的深度学习网络则正是由大量神经元构成的。

虽然 GPU 的引入已经让人工智能领域实现了飞速发展,但这些芯片仍要将处理和存储分开,这意味着在两者之间传递数据需要耗费大量的时间和精力。这促使人们开始研究新的存储技术,这种新技术可以在同一位置存储和处理这些权重数据,从而提高速度和能效。

这种新型存储设备通过调整其电阻水平来以模拟形式存储数据,即以连续规模存储数据,而不是以数字存储器的二进制 1 和 0。而且因为信息存储在存储单元的电导中,所以可以通过简单地让电压通过所有存储单元并让系统通过物理方法来执行计算。

但这些设备中固有的物理缺陷会导致行为的不一致,这意味着目前使用这种方式来训练神经网络实现的分类精确度明显低于使用 GPU 进行计算。

负责该项目的 IBM Research 博士后研究员 Stefano Ambrogio 在此前接受 Singularity Hub 采访时说:“我们可以在一个比 GPU 更快的系统上进行训练,但如果训练操作不够精确,那就没用。目前为止,还没有证据表明使用这些新型设备和使用 GPU 一样精确。”

但随着研究的进展,新技术展现了实力。在上周发表在《自然》杂志上的一篇论文中(Equivalent-accuracy accelerated neural-network training using analogue memory),Ambrogio 和他的同事们描述了如何利用全新的模拟存储器和更传统的电子组件组合来制造一个芯片,该芯片在运行速度更快、能耗更少的情况下与 GPU 的精确度相匹配。

这些新的存储技术难以训练深层神经网络的原因是,这个过程需要对每个神经元的权重进行上下数千次的刺激,直到网络完全对齐。Ambrogio 说,改变这些设备的电阻需要重新配置它们的原子结构,而这个过程每次都不相同。刺激的力度也并不总是完全相同,这导致神经元权重不精确的调节。

研究人员创造了“突触单元”来解决这个问题,每个单元都对应网络中的单个神经元,既有长期记忆,也有短期记忆。每个单元由一对相变存储器 ( PCM ) 单元和三个晶体管和一个电容器的组合构成,相变存储器单元将重量数据存储在其电阻中,电容器将重量数据存储为电荷。

PCM 是一种“非易失性存储器”,意味着即使没有外部电源,它也保留存储的信息,而电容器是“易失性的”,因此只能保持其电荷几毫秒。但电容器没有 PCM 器件的可变性,因此可以快速准确地编程。

当神经网络经过图片训练后可以进行分类任务时,只有电容器权重被更新了。在观察了数千张图片之后,权重会被传输到 PCM 单元以长期存储。

PCM 的可变性意味着权重数据的传递可能仍然会存在错误,但因为单元只是偶尔更新,因此在不增加太多复杂性的情况下系统可以再次检查导率。“如果直接在 PCM 单元上进行训练,就不可行了。”Ambrogio 表示。

为了测试新设备,研究人员在一系列流行的图像识别基准中训练了他们的神经网络,并实现了与谷歌的神经网络框架 TensorFlow 相媲美的精确度。但更重要的是,他们预测最终构建出的芯片可以达到 GPU 280 倍的能源效率,并在同样平方毫米面积上实现 100 倍的算力。

值得注意的是,研究人员目前还没有构建出完整的芯片。在使用 PCM 单元进行测试时,其他硬件组件是由计算机模拟的。Ambrogio 表示研究人员希望在花费大量精力构建完整芯片之前检查方案的可行性。

他们使用了真实的 PCM 设备——因为这方面的模拟不甚可靠,而其他组件的模拟技术已经成熟。研究人员对基于这种设计构建完整芯片非常有信心。

“它目前只能在全连接神经网络上与 GPU 竞争,在这种网络中,每个神经元都连接到前一层的相应神经元上,”Ambrogio 表示。“在实践中,很多神经网络并不是全连接的,或者只有部分层是全连接的。”
crossbar-arrays-of-non-volatile-memories
交叉开关非易失性存储器阵列可以通过在数据位置执行计算来加速全连接神经网络的训练。图片来源:IBM Research

Ambrogio 认为最终的芯片会被设计为与 GPU 协同工作的形式,以处理全连接层的计算,同时执行其他任务。他还认为处理全连接层的有效方法可以被扩展到其它更广泛的领域。

这种专用芯片可以让哪些设想成为可能?

Ambrogio 表示主要有两种方向的应用:将 AI 引入个人设备,以及提高数据中心的运行效率。其中后者是科技巨头关注的重点——这些公司的服务器运营成本一直居高不下。

在个人设备中直接实现人工智能可以免去将数据传向云端造成的隐私性顾虑,但 Ambrogio 认为其更具吸引力的优势在于创造个性化的 AI。

“在未来,神经网络应用在你的手机和自动驾驶汽车中也可以持续地学习经验,”他说道。“想象一下:你的电话可以和你交谈,并且可以识别你的声音并进行个性化;或者你的汽车可以根据你的驾驶习惯进行个性化调整。”

EETC wechat barcode


关注最前沿的电子设计资讯,请关注“电子工程专辑微信公众号”。

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • EDA三巨头竞逐台积电AI设计流程 AI正稳步改变半导体行业,这一趋势在领先EDA公司和硅片代工厂表现得尤为突出。三大EDA工具制造商(Cadence、Synopsys和西门子EDA)已宣布与台积电合作,致力于为先进芯片制造节点开发AI驱动的设计流程。本文将简要回顾这些合作的现状。
  • 传台积电将在台湾再建两座CoWoS先进封装厂 台积电计划在 3 月前投资超过 2000 亿新台币(约合 61.2 亿美元),扩建其位于台湾南部科学园区三期的CoWoS生产设施。知情人士透露,台积电之所以做出这一决定,是因为人工智能(AI)驱动的先进封装需求比预期更为强劲......
  • 索尼新专利:利用AI技术解决游戏延迟问题 索尼新专利利用人工智能(AI)技术来预测玩家的操作输入,从而显著减少在线游戏中常见的延迟问题。这项创新技术被称为“定时输入/动作释放”,通过智能AI模型提前判断玩家的意图,并在实际操作完成之前执行相应的指令,从而提升游戏的流畅度和响应速度......
  • 将人工智能应用于射频设计 人类的发明,即工程系统,依赖于物理学和数学基本原理,如麦克斯韦方程、量子力学和信息论等,以实现特定目标。然而,随着工程系统复杂性和规模迅速增长,其子组件的功能可能呈现出非线性特性,这使得基于第一原理的设计方法受到限制。
  • 2025年全球将启动18个新的晶圆厂项目建设,中国有5个 半导体行业正迎来一个新的建设高峰期,SEMI预测,2025年,全球范围内将有18个新的晶圆厂项目开始建设,其中15座为12英寸晶圆厂,3座为8英寸晶圆厂,大部分预计将于 2026 年至 2027 年开始运营......
  • TCL正式发布“世界上第一款模块化人工智能伴侣机器人” 这款机器人头上的摄像头可以录制视频或使用人工智能识别物体,虽然该机器人的动作仅限于挥动细小的手臂和眨动动画眼睛,但它可以与一把小型电动椅子配对,自动在家中导航。
  • 摩根士丹利详解全球人形机器人100 全球人形机器人领域上市公司的百强名单将人形机器人产业链区分为大脑、身体以及集成三大核心环节,覆盖全球共计100家上市公司。中国共37家企业上榜(中国大陆32家,台湾5家),其中深圳7家,占中国大陆上榜企业近四分之一,包括比亚迪、腾讯、优必选、速腾聚创、雷赛智能、兆威机电、汇川技术等......
  • DeepSeek的低成本AI模型将催生光通 DeepSeek模型虽降低AI训练成本,但AI模型的低成本化可望扩大应用场景,进而增加全球数据中心建置量。光收发模块作为数据中心互连的关键组件,将受惠于高速数据传输的需求。未来AI服务器之间的数据传输,都需要大量的高速光收发模块......
  • 全球首款骁龙®8至尊版折叠旗舰,OPP 凭借新一代3nm制程工艺与全新架构,骁龙® 8至尊版的单核和GPU 性能提升均超过 40%,使得Find N5在性能上实现质的飞跃……
  • 康佳特重磅推出aReady.IoT 简化物联网连接:应用就绪型软件构建模块
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了