这个标题听起来有点异想天开。
我还没胆量这么想,这是电子工程专辑社区面包板一位网友最初的想法:
Vivado如果能支持到市面上大部分的FPGA(或者至少把Altera的支持了),能让工程师用一个熟悉的工具为不同品牌的FPGA做综合、时序分析、implement、烧录、软硬件支持等,那会不会通过FPGA工具成为和另外几家EDA巨头一般的存在?
很好,我在XDF前夕将这个问题抛给了赛灵思负责软件、IP和AI方案的副总裁Ramine Roane先生,在他很兴奋的讲到Vitis还可以支持不同品牌外部CPU时。
没想到他认真回应了:“Vivado可能支持其他品牌FPGA有点困难,因为它更基于硬件,除非英特尔把自己的硬件架构细节分享出来,否则我们没法支持他们的硬件;但如果英特尔也开发出了类似Vitis的产品,那或许我们可以合作。”
“我们的实验室是开源的,他们实际上也可以用我们的代码。”他补充道。
另外,他还补充强调了一点:如果从营收角度看,赛灵思可能和EDA工具巨头差距很远;但如果从软件授权数量和开发者数量角度来看,那赛灵思其实是超过Synopsys的。
过去三十年里,赛灵思只是为硬件开发者开发工具。而现在推出的Vitis是免费的,不强制要求采用专有的开发环境,而是能插入到通用的软件开发工具中,例如tensorflow,微软的visual studio编写C,而且提供很多开源内容,如赛灵思实验室/深鉴科技的一些AI模型等。
两个月前赛灵思推出了历经五年、投入总计1000个人工/年而打造的Vitis,而在XDF 2019上,Vitis宣布可以正式下载。
Vitis AI来了
AI模型的变化速度很快,尤其是在2012年后AI业界高速发展,这几年当中,AI科学家们在精度几乎没变的情况下,把运算复杂度降低,从而降低了功耗。
“如下图所示,现在,每三个月AI模型就要变一次,工程师想建立一个ASIC或GPU需花要一年半时间设计硅芯片,半导体的设计周期远远大于AI模型更替周期。”Roane指出,如果用硅芯片实现这些AI模型,那么在硅芯片设计好的时候,AI模型早已经更替,这个时候旧的硅芯片虽然能工作,但是效率很低。
所以硅设计需要在硬件上做到可适应,根据模型的变化,在新的模型上也能用一样的模型达到很高的效率。所以自适应计算加速平台的优势明显。
在平台上,如图所示,囊括了:
●红色部分的FPGA结构,可以用于定制的逻辑/内存;
●绿色部分的有矢量处理器,矢量处理器适合高度流水线作业的处理器,做AI加速更有效,擅长做算数、矩阵,主要用于AI运算。“它看起来像FPGA,也是阵列式排布,但里面包含小的DSP处理器,形成DSP和FPGA的混合体,从而实现可配置的数据流。”Ramin指出。
●蓝色部分可以嵌入ARM内核子系统
●黄色部分的片上个网络,用于将不同架构连接起来。
此次在XDF 2019北京站开放下载的Vitis AI开发平台,适用于在 Xilinx 硬件平台(包括边缘设备和 Alveo 卡)上进行人工智能推断。
它包括了优化的 IP、工具、库、模型和示例设计组成。其开源的8个库里包括了400多项功能,听起来像是现在改行做AI工程师还来得及,库里拿些代码出来删删减减就能实现自己需要的功能。
Vitis AI 模型专区包括优化的深度学习模型,可加速工程师部署深度学习推断的进程。如下图所示,这些模型涵盖不同的应用,例如通用的图像分类/目标检查、ADAS/AD、视频分析、机器人和数据中心等。
在Vitis开发套件中,重点想提的是这个AI Quantizer,这个词特意请教了赛灵思机器学习的高级产品经理Andy Luo,他解释中文应该可以翻译做AI量化器或转换器,能将 32 位浮点权值和激活量转换为 INT8 这样的定点。
“这样做的好处是,需要运算的数据量会大大减小,降低计算复杂度,所需的内存带宽也更少。而且这个功能允许开发者多次尝试量化程度,多次测试在不影响预测精度的情况下,实现最佳的转化度。”Luo解释道。
Roane举例了一个面向智慧城市应用的自适用架构案例:
从图中可以看到,从仅在CPU中运行,到用AI加速、再到FPGA加速,再到Vitis数据流水线方案,FPS可以从6增长到80.
“后处理如果需要也可以用vitis数据流水线,只不过一般这部分不是特别占用算力,所以这个案例中没有使用。”Roane指出。
第三方合作厂商
此次XDF 2019两家钻石赞助商,除了安富利就是Silexica了。
这家2014年成立的德国公司主要优化基于Vitis的应用,可能还不为中国工程师所知,在现场,该公司产品和技术营销负责人Loren Hobbs告诉电子工程专辑记者目前公司在中国还没有客户,客户主要在欧美和日本,包括富士通、日本电装等,主要用于图像识别和智能驾驶,以及金融行业等应用。
SLX FPGA能够和Vivdo HLS结合使用,从而解决高层次综合HLS设计流程的挑战,包括识别不可合成的C/C++代码,检测应用程序的并行性,以及在合适的位置插入编译指令。目前该该公司主要业务是针对c++的优化,因为”tensorflow一般已经做到最优化,可以直接写入FPGA了”。
“并非只有复杂的代码需要使用我们的SLX软件,”Hobbs指出,“Silexica的软件分为轻量级和重量级两个版本,轻量级可以针对一些简单应用,而对于重量级客户,不仅在软件本身有功能更齐全的版本供选择,还可以进行深度的定制化合作。”
责编:Yvonne Geng