2018开年就上演重磅大戏,谷歌直接和英伟达正面对峙。
就在刚才,谷歌在一篇博客文章中正式宣布,将以“有限数量”向谷歌云客户开放张量处理器(Tensor Processing Unit,简称TPU)测试版服务。
将TPU开放,对于选择在谷歌云平台上运行机器学习模型的客户来说,可谓好事一桩。但谷歌这次开放的TPU数量有限,而且按时收费,每小时成本为6.50美元。
点击查看谷歌官方的云端TPU使用指南:https://cloudplatform.googleblog.com/2018/02/Cloud-TPU-machine-learning-accelerators-now-available-in-beta.html
TPU是谷歌为机器学习而设计的人工智能定制芯片,是一种ASIC(专用集成电路)。是谷歌为机器学习而设计的人工智能定制芯片,第一代TPU于2016年低调推出,广泛应用在AlphaGo、搜索、翻译、相册等背后的机器学习模型中。在AlphaGo战胜李世石的系列赛中,TPU能让AlphaGo“思考”更快,“想”到更多棋招、更好地预判局势。
第二代TPU是在2017年5月18日的Google I/O 大会上推出,也称为云TPU。云TPU对推理和训练都进行了优化,每个 Cloud TPU 包含 4 个定制化的 ASIC,每个 Cloud TPU 的计算能力达到每秒 180 万亿次浮点运算(180 teraflops),并提供有 64GB 的高带宽内存。另外,这些电路卡即可以单独使用,也可以通过超高速专用网络连接起来,形成一个多层次的机器学习超级计算器,谷歌将之称为“TPU pod”。谷歌预计今年晚些时候,将会开始供应这种更大的超级计算器,并表示训练的时间-精度比将得到显着提升。
谷歌大神Jeff Dean更是连发10条推特,向外界宣布谷歌TPU首次对外全面开放,这也意味着TPU的商业化正在加速。
“我们对此感到非常兴奋,因为许多研究人员和工程师在进行机器学习时都遇见了计算力不足的问题,而我们认为这(即 Cloud TPU)将是一个很好的解决方案。举例来说,我们一个 Cloud TPU 设备可以在 24 小时内将运行在 resnet-50 上的模型的识别精度训练到 75%。”Jeff Dean 在推特上兴奋地表示。
图中译文:“谷歌已为那些想访问高速加速器来训练机器学习模型的人,推出了Cloud TPU的beta版”
图中译文:“《纽约时报》记者Cade Metz今天对此作了报道:谷歌将其专用AI芯片普及化”
图中译文:“尽管已在内部使用了一段时间,让外部用户也能用上Cloud TPU是谷歌很多人员工作的努力成果”
了解人工智能芯片行业的人都知道,英伟达的GPU在AI时代独占鳌头,红利尽享。其劲敌则是谷歌的TPU。此前TPU并未向第三方用户开放,英伟达的黄仁勋在谈到谷歌TPU时,就曾强硬的表示,对GPU并不构成实质性威胁。当时,老黄还列了列参数:新的TPU可以实现45 teraflop的运算能力,而英伟达最新的Volta GPU则能达到120 teraflop。
当然此前谷歌也并不是 TPU 的唯一使用者,美国出行服务公司 Lyft 在去年底开始参与了谷歌新型芯片的测试。Lyft的软件总监Anantha Kancherla表示,“自从使用Google Cloud TPU以来,我们对其速度印象非常深刻,以前通常需要几天,而现在可能需要几个小时。深度学习正成为使自动驾驶车辆得以运行的软件的中坚力量。”
另外,谷歌方面表示,传统上,为定制 ASIC 和超级计算器编写程序需要专业知识技能。相比之下,谷歌的这款TPU实现了与TensorFlow的无缝融合,几乎无需改动,只需要使用高级 TensorFlow API 就可以对 Cloud TPU 进行编程了,像是:
• ResNet-50 以及其它流行的图片分类模型
• 针对机器翻译和语言建模的 Transformer
• 针对物体追踪的 RetinaNet
芯片提供的是人工智能三要素中的计算力,如今TPU的全面开放,可为中小AI公司在2018年的商业化应用落地提供硬件上的强大支撑。但也有业内人士评论称“TPU只能通过云获取是一大障碍,英伟达在硬件方面还是碾压谷歌”,并且认为“TPU对固定算法还是有要求,目前应用范围最广还是GPU。”
TPU专用于人工智能和机器学习,可为谷歌带来两大好处:
首先,利用自主研发的芯片,谷歌可以在核心的计算基础设施方面更便宜、更有效地减少对英特尔、英伟达等芯片制造商的依赖。拥有自己的硬件使谷歌能够更快地进行实验。
其次,新的TPU也为谷歌的云计算业务带来额外收入,现在,谷歌云平台(GCP)和谷歌的业务应用程序GSuite每季度可超过10亿美元收入。
谷歌目前允许公司租用单个TPU板卡,今年晚些时候,将允许企业租用多个板卡,并连接成名为TPU pod的超级计算机网络。后面谷歌会开源更多的 ML 模型。
此番让TPU和TensorFlow软硬结合,或将让谷歌突破重围。那么一直以来我们的国产AI处理器产品,又将如何面对这一变局?“国产”二字会成为中国AI芯片的优势还是劣势?欢迎大家留言讨论。
本文综合自新浪科技、36kr、雷锋网、知乎报道
关注最前沿的电子设计资讯,请关注“电子工程专辑微信公众号”。