AI、5G、智能边缘被认为是真正实现数据价值的关键技术转折点,而跨这些领域的新用例和应用需要新的范式,需要更快、更节能、更安全和更直观的计算。英特尔研究院此次在五个前沿技术领域发布的颠覆性技术是未来计算发展的放向,融合了AI、5G以及智能边缘技术,将引领未来十年的技术发展方向。
硅光子
在数据中心里,新的以数据为中心的工作负载每天都在增长,随着服务器间的数据移动不断增加,对当今的网络基础架构提出了新的挑战。行业正在迅速接近电气I/O性能的实际极限。随着计算带宽需求不断增长,电气I/O的规模无法保持同步增长,从而形成了“I/O功耗墙”,限制了计算运行的可用能源。通过在服务器和封装中直接引入光互连I/O,我们就能打破这一限制,让数据更有效地移动。
2016年,英特尔推出了一款全新的硅光子产品“100G PSM4”。这款产品结合了硅电子和光学技术,能够在独立的硅芯片上实现近乎光速的数据传输,从而提高数据中心数据传输效率,同时降低成本。截止目前,英特尔已经为客户提供超过400万个100G的硅光子产品。而在今年的研究院开放日活动上,英特尔又提出了“集成光电”愿景,即将光互连I/O直接集成到服务器和封装中,对数据中心进行革新,实现1000倍提升,同时降低成本。
“现在是从电气I/O迁移到光互连I/O的重要拐点”,英特尔首席工程师、英特尔研究院PHY研究实验室主任James Jaussi表示,之所以现在需要迁移到光互连I/O,主要有两个原因,一个是我们正在快速接近电气性能的物理极限,一个是I/O功耗墙,会导致无法计算。
他介绍了英特尔近期在集成光电五大“关键技术模块”方面取得的重大创新,包括:
- 微型环调制器(micro-ring modulators):传统的芯片调制器占用面积太大,并且放置于IC封装的成本很高。英特尔开发的微型环调制器,将调制器尺寸缩小了1000倍以上,从而消除了将硅光子集成到计算封装中的主要障碍。
- 全硅光电检测器(all silicon photo detector):数十年来,业界一直认为硅实际上没有光检测功能,但英特尔展示的研究结果证明事实并非如此。这一突破的一大好处就是让成本更低。
- 集成半导体光学放大器:出于降低总功耗的考虑,集成半导体光学放大器必不可少。该设备通过使用与集成激光器相同的材料实现。
- 集成多波长激光器(Integrated multi-wavelength lasers):使用一种称为波分复用(wavelength division multiplexing)的技术,可以将来自同一激光的不同波长用在同一光束中传输更多数据,这样就能使用单根光缆来传输额外数据,从而增加了带宽密度。
- 集成:使用先进的封装技术将硅光子与CMOS芯片紧密集成,可实现三大优势:更低的功耗、更高的带宽和更少的引脚数。英特尔是唯一一家在与CMOS芯片紧密集成的单一技术平台上,展示了将多波长激光器、半导体光学放大器、全硅光电检测器以及微型环调制器集成到一起的公司,这项研究突破为集成光电技术的扩展奠定了基础。
英特尔此次在“集成光电”上的技术突破,是硅光子技术的一次重要升级。通过高速的光连接为数据中心铺平未来连接的道路,以满足未来快速增长的数据宽带和能效需求,让数据中心的未来值得更多期待。
神经拟态计算
从2015年开始,英特尔就开始了神经拟态计算的研究。2017年英特尔推出了第一款自主学习的神经拟态芯片Loihi;到2019年,英特尔推出了包含64块Loihi的Pohoiki Beach系统,到2020年,英特尔最新推出的Pohoiki Springs包含768块Loihi芯片,拥有1亿个神经元。而英特尔高级首席工程师、英特尔研究院神经拟态计算实验室主任Mike Davies透露称,英特尔下一代神经拟态计算系统预计将达到十亿神经元,并将在多个实际用例中提升性能。
神经拟态技术灵感,来源来自我们目前对大脑结构及其计算能力的了解。大脑的神经网络通过脉冲来传递信息,根据这些脉冲的时间来调节突触强度或突触连接的权重,并把这些变化存储在突触连接处,脑内神经网络及其环境中多个区域之间的协作和竞争性相互作用就产生了智能的行为。
Mike Davies说神经拟态这种计算方式,能够更好地模拟人脑神经元的结构,不仅是多路的输入和强度,同时还有时间先后的延迟顺序。一个脑当中可以同时学习多种任务,包括语音任务、视觉任务、决策任务、操作控制等等,它是多功能的。硬件上也可以具备一边工作一边学习的能力,也就是片上的学习能力,这些都需要突破式的发展才能做到。
Loihi芯片多个实际用例中都证实可以提升性能,在今天的英特尔研究院开放日上,多项基准又得到了更新:
- 语音命令识别:埃森哲测试了在英特尔Loihi芯片上识别语音命令的能力和在标准图形处理单元(GPU)上识别语音命令的能力,发现Loihi不仅达到了和GPU类似的精度,而且能效提高1000倍以上、响应速度快200毫秒。通过英特尔神经拟态研究社区,梅塞德斯-奔驰正在探索如何将这些结果应用到现实用例中,例如在汽车中加入新的语音交互命令。
- 手势识别:传统的AI可以很好地处理大数据并识别成千上万个案例的模式,但它很难识别人与人之间细微的差异——比如我们用于交流的手势。埃森哲和英特尔神经拟态研究社区合作伙伴展示了Loihi在快速学习和识别个性化手势方面取得的切实进展。通过处理来自神经拟态相机的信息,只需几次曝光Loihi即可学习新手势。这可以应用于各种用例,例如与家庭中的智能产品进行交互或在公共场所的非接触式显示。
- 图像检索:零售行业的研究人员评估了Loihi对基于图像的产品搜索应用。他们发现,在保持相同精度水平的情况下,Loihi生成图像特征向量的效率比传统的中央处理单元(CPU)和GPU解决方案提升三倍多。这一结果是对英特尔今年早些时候发布的神经拟态研究系统Pohoiki Springs的相似度搜索结果的补充,表明Loihi在百万幅图像数据库中搜索特征向量的速度比CPU快24倍,且能耗低30倍。
- 优化和搜索:英特尔及其合作伙伴发现,Loihi解决优化和搜索问题的效率比传统CPU高1000倍、速度快100倍。优化问题,如约束满足可以在边缘端提供潜在价值,例如:让无人机能够实时规划并做出复杂的导航决策。同样的问题类型也可以扩展到复杂的数据中心负载,完成协助列车调度和物流优化等任务。
- 机器人技术:罗格斯大学和代尔夫特理工大学的研究人员展示了在Loihi上运行机器人导航以及微型无人机控制应用的演示。代尔夫特理工大学的无人机使用一个包含35个神经元,并且能演进的脉冲网络进行光流着陆(optic flow landing),频率超过250千赫兹。罗格斯大学发现,其Loihi解决方案所需的功耗比传统移动GPU低75倍,而性能却没有任何下降。在11月于2020机器人学习大会上发布的报告中,罗格斯大学的研究人员发现Loihi可以成功学习诸多OpenAI Gym的任务,其精度与深度行动者网络(Deep Actor Network)旗鼓相当,而能耗却比移动GPU解决方案降低了140倍。
此外,英特尔及其合作伙伴在英特尔研究院开放日活动上还展示了两个使用最先进技术的神经拟态机器人演示。与苏黎世联邦理工学院的研究人员合作,英特尔展示了Loihi如何自适应地控制水平跟踪无人机平台,实现最高可达20千赫兹的闭环速度以及200微秒的视觉处理延迟。与传统解决方案相比,这意味着效率和速度都提高了1000倍。为了解决神经拟态软件集成问题,英特尔和意大利理工学院(IIT)的研究人员在IIT的iCub机器人平台上演示了多种认知功能在Loihi上运行,其中包括基于快速、小样本学习(few-shot learning)的物体识别,对学习对象的空间感知,以及对人类互动的实时决策。
成立于2019年的英特尔神经拟态研究社区(INRC)英特尔为神经拟态计算打造的生态系统。在仅仅一年的时间里,INRC的规模就扩大了两倍,目前已经有100多家不同类型的学术机构、政府实验室、企业进行合作,其中有10家来自全球500强企业,如埃森哲、空中客车、通用电气等。今天,英特尔又宣布联想、罗技、梅赛德斯-奔驰和机器视觉传感器公司Prophesee加入英特尔神经拟态研究社区,共同探索神经拟态计算在商业用例上的价值。这表明,英特尔神经拟态计算的特性能够真正为企业带来实际的优势,得到了企业认可,相信未来会有更多的商业应用运用上神经拟态技术。
量子舞蹈
“为什么我们需要量子计算?”在英特尔高级首席工程师、英特尔研究院量子应用与架构总监Anne Matsuura看来,量子计算是用量子比特相互纠缠实现性能的指数级提升,可以实现并行的大量计算,这也让量子计算可以解决很多经典计算机难以解决的问题,例如开发加速制药研发、设计新型材料等,最终造福每一个人。
众所周知,传统的数字计算需要把数据编码为二进制数字,只有0或1两种状态,就像硬币的正面和反面。而量子计算使用量子位,可以同时处于多个状态,就像一枚旋转中的硬币,可以同时是正面和反面!2个纠缠的量子位就可以表示同时混合的4种状态,而n个量子位就可以代表2的n次方种状态——50个纠缠的量子位所获得的状态数量就将超过任何超级计算机。而如果我们有300个纠缠的量子位,那能够同时表示的状态就比宇宙中原子的数量还要多。
然而,量子位非常脆弱,目前仅仅有100个量子位甚至数千个量子位,还没有办法造一台商用级量子计算机。我们需要至少数百万个量子位,并且解决4大挑战:1. 提升量子位的质量和并测试时间—英特尔独特的硅自旋量子位路径具备批量生产高质量量子位的潜力;量子低温探测仪减少了开发者宝贵的测试时间。2. 量子位的控制—英特尔可扩展互连的低温量子位控制芯片技术Horse Ridge解决了这一挑战。3. 纠错—英特尔正在开发抗噪量子算法和错误抑制技术。4. 可扩展的全栈量子计算机,需要量子专用的软件、硬件和应用同时布局—英特尔正在编排这样一支新的“量子舞蹈”。
今天,英特尔推出第二代低温控制芯片Horse Ridge II,使用英特尔22纳米低功耗FinFET技术(22FFL),其功能已在4开尔文温度下得到验证,这标志着英特尔在突破量子计算可扩展性方面取得又一个里程碑,向着量子实用性愿景迈出关键一步。可扩展性是量子计算的最大难点之一。在2019年推出的第一代Horse Ridge控制器的创新基础上,Horse Ridge II支持增强的功能和更高集成度,以实现对量子系统的有效控制。
英特尔第二代低温控制芯片Horse Ridge II
新功能包括:
- 量子位读数(Qubit readout):该功能允许读取当前量子位状态。该读数意义重大,因为它允许进行片上低延迟量子位状态检测,而无需存储大量数据,从而节省了内存和功耗。
- 多栅极脉冲(Multigate Pulsing):能够同时控制多个量子位栅极的电位,这对于有效的量子位读取以及多个量子位的纠缠和操作至关重要,并为打造更具扩展性的系统奠定了基础。
Anne Matsuura认为英特尔量子计算具备以下3个独特点:自旋量子位技术、低温控制技术和全栈创新。“英特尔发展量子计算的方法,就是利用英特尔的优势,特别是利用我们在芯片和电路制造工艺方面的专长,目标是达到量子实用性,构建商用机量子计算机。而这些独特优势将将引领英特尔率先实现这一目标。”她说。
数据不共享,价值仍释放
我们越来越需要从数据中获得洞察,释放数据潜力,同时需要保护数据隐私。当前,加密解决方案主要用于保护在网络中发送以及存储的数据,但数据在使用过程中依然容易遭遇攻击,而保密计算的宗旨就是保护使用中的数据。
(1) 提供数据保密性,以防止机密泄露;
(2) 提供执行完整性,以防止计算被篡改;
(3) 提供认证功能,以验证软硬件的真实性;
这是英特尔研究院安全智能化项目组首席工程师Jason Martin给出的保密计算的三个要点。在最新的英特尔软件保护扩展(Software Guard Extensions )技术中,通过将保密性、完整性和认证功能整合在一起,像数据保险箱一样,确保使用中的数据安全无虞。
在零售、制造、医疗、金融服务等许多行业,最大的数据集往往都被限制在多方手里的数据孤岛中,这阻碍了使用机器学习工具从数据中获得洞察。通过联邦学习,英特尔将计算进行了拆分,这样就可以用各方本地的数据训练本地的算法,然后将获取的信息发送至中央聚合站点。数据不共享,价值仍释放,这就是Jason Martin将其视作解决数据孤岛挑战利器的核心原因。
如何不需要解密数据,就能处理数据?英特尔提出了“完全同态加密”的概念。完全同态加密是一种全新的加密系统,它允许应用在不暴露数据的情况下,直接对加密数据执行计算操作。不过,尽管该技术已逐渐成为委托计算中用于保护数据隐私的主要方法,但由于同态密文的篇幅比纯数据大得多,导致开销增加,使这一技术尚未广泛应用。英特尔希望通过研究新的软硬件方法,并与生态系统和标准机构开展合作,尽快普及这项技术。
让软件自己写软件!
“机器编程”一词在英特尔研究院和麻省理工学院联合发布的《机器编程的三大支柱》论文中首次提出,旨在通过自动化工具提升开发效率。换句话说,通过机器学习和其它自动化方法,设计可以自动编写软件的软件。
之所以有这样的想法,英特尔首席科学家、英特尔研究院机器编程研究主任及创始人Justin Gottschlich解释说,随着异构时代的来临,即由多样化专用处理器组合来管理当今的海量数据,管理这些系统所需的软件变得越来越复杂,使得出现Bug的可能性也越来越高。此外,找到能够为跨架构的硬件正确、高效、安全地写代码的程序员非常困难,这同样也增加了代码中出现难以发现的新错误的可能性。因此,Debug代码工作将给开发者和整个行业带来更高的代价。
意图、创造和适应是机器编程的三大支柱:
- 意图。主要是指让人类向机器表达自己的想法。过去,人们的想法通过代码实现时因为系统级细节存在的一些问题,可能会导致方向错误。这就是意图要解决的问题。
- 创造。是指以用户的意图为基础,然后合成一个高级程序,创造符合用户意图的程序、数据结构和算法。
- 适应。这是一个更高阶的程序,适应系统接下来会对这个更高阶的程序进行转换,以便在所处的软件和硬件生态系统中以最高效率运行,从而化解异构硬件挑战。
Justin Gottschlich表示,英特尔机器编程的最终目标是让每个人都能创建软件。当这一目标完全实现时,每个人都可以通过自己最擅长的方式,如代码、自然语言或其他方式向机器表达自己的设计意图,从而创建软件。软件开发中,枯燥的部分将被自动化,人们得以有更大的自由、灵活度和时间精力去创造。
在2019年NeurIPS大会上,英特尔发表了30多篇会议和专题研讨会论文。其中,《诊断软件性能回归的零正学习方法》提出了一种在高性能计算代码中,自动进行回归测试(由新代码签入引起的错误)的方法AutoPerf。该方法在运行代码时只利用名义训练数据和硬件性能计数器,在应用实践中可以检测到并行编程中一些最复杂的性能bug。
最新系统ControlFlag是英特尔将在下周NeurIPS上展示的最新成果。资料显示,ControlFlag是完全自我监督的机器编程系统,不需要人类对其进行训练,且无需提供任何人工指导,只需要创建系统的架构,再使其读取代码即可。在初步测试中,ControlFlag利用超过10亿行未标记的产品级别的代码进行了训练并学习了新的缺陷。
结语:
英特尔研究院开放日此次在五个前沿技术领域——集成光电、神经拟态计算、量子计算、保密计算、机器编程上发布的技术突破令人印象深刻,代表了未来前沿技术的发展方向,让人振奋。此次发布的技术更新充分证明了英特尔的科研实力和对技术的前瞻性,在前沿计算的实力比拼上,英特尔“更胜一筹”。