首先,确定您是否真的需要。
随着越来越多的公司开始采用机器学习作为其正常业务营运的一部份,无论一开始出于何种原因而投资于硬件的公司,如今正因为这一生态系统开始扩展而面对着如何在各种不同加速器之间作抉择的难题。
在即将上市的各种不同芯片架构之间进行选择时,性能、功耗、灵活度、连接性以及总拥有成本(TCO)当然是判断的标准。除此之外,还有其他值得考虑的因素。
不久前,我有机会针对这个主题采访了英特尔(Intel)人工智能(AI)产品营销资深总监Alexis Crowell。英特尔提供了具有完全不同架构的各种AI加速器产品(包括Movidius、Mobileye、Nervana、Loihi等,但当然不只这些,而且更不用提还CPU产品了)。Crowell很开心地强调,还有一些较不明显的评判标准在选择AI加速器时也应该加以考虑。
你真的需要AI加速器吗?
事实上,一个最不明显但应该是最直接的问题是:您的应用真的需要最新的AI加速器ASIC吗?
Crowell说:“这是一个十分普遍的问题,特别是因为AI如此流行。许多公司真的想做AI,但大多数并不是真的了解它的意义,也不知道要从哪里开始。”
英特尔从指导客户完成整个流程的经验中发现,除了数据中心超大规模业者(hyperscaler)和大型云端服务供货商之外,大部份的客户还没有为AI加速做好准备。大多数的业者都还需要花费大量的时间才能使其数据就绪。
她说:“如果您只想试着整理资料,那就无需投资于昂贵的加速器硬件,只是为了清理数据。我们与客户的许多对话主要都在于弄清楚他们在这一过程中的位置。”
Crowell还说,有些数据中心客户可能也有大量可用的备用CPU周期——在此情况下,为什么还要另外花钱呢?
软件堆栈够成熟吗?
每一种新芯片架构都需要以某种方式进行编程。尽管目前不会有人在缺少相应工具链的情况下发布新芯片,但是这些软件堆栈的成熟度是需要考虑的因素之一。
Crowell说:“当所有的新创公司一下子涌进这一市场时,真正有趣的是:用于AI的软件堆栈十分困难。英特尔拥有25年编写和软件开发工作经验,目前还有数百人在为所有的产品组合执行软件作业。我认为,将其整合于人们已在使用中的架构、编译程序堆栈或任何看起来类似的东西中,对于在进行硬件决策时的理解非常重要。”
英特尔的Movidius Myriad X视觉处理单元(VPU)瞄准了无人机、机器人和智慧相机(来源:Intel)
是否考虑过安全性?
Crowell说:“当今的安全性(security)比以往任何时候都更重要。”他并强调数据的安全性和业务模式的稳定性也同样重要。
她说:“数据本身就应该加入更多的安全性,才能确保它确实是您所期待的数据池或真正的数据量。但是在进行训练之前,如何确保数据安全,从而确定您不至于取得错误的输入?[你怎么知道]会不会有人一直在编造数据的子集,导致其开始影响结果?”
模型的安全性同样重要。一旦在野外(在终端装置中)部署了模型,就需要保护其免于受到攻击者的尝试骇入、更改模型权重以操纵结果,或者即使只是窃取您的IP (也就是您的模型啊!)。
她说:“我们正为推论建构一款芯片,为其内建了RAS [可靠性、可用性和可维护性]功能,专门用于解决此问题。由于我们将安全性和AI视为重要基础,因此不可能先打造了解决方案,之后再为了增加安全性而加以改造。您必须从一开始就这样做。”
芯片是否经过基准检验?
适用于AI加速器的基准检验仍处于早期发展阶段。英特尔是向MLPerf以及百度(Baidu) DeepBench提交结果的少数几家公司之一。尽管Crowell强调,英特尔希望客户能够在不同产品之间进行公平的比较,而基准检验正是一个很好的起点,不过她对于当今基准检验经常使用的模型表感到有些失望。
英特尔的Nervana神经网络处理器提供了训练和推论版本(来源:Intel)
她说:“如今,ResNet和MobileNet是一种入门级的拓扑,无法反映人们在现实世界中实际上如何使用AI。但我认为这是尝试让所有人看法一致的良好基础,因为有了AI就有很多的“变量”——批次大小、延迟需求、准确性要求等等...您必须从某个地方开始。而从ResNet和MobileNet开始并不表示我们无法成长为更现代、更巨大且更贴近实际情况的模型。”
Crowell提到的最后一点是,应该将基准视为未来更广泛发展的一部份,并能将在此讨论的所有问题都纳入考虑。
她说:“我一直提醒客户不要以基准为其整体决策的判断标准。因为还必须考虑到其他的许多因素¬¬——就像生活中发生的所有大小事,这是十分微妙的。”
编译:Susan Hong 责编:Yvonne Geng
(参考原文:How to Choose Between AI Accelerators,bySally Ward-Foxton)