一般常见的图像/视觉传感器,以帧为单位记录动态影像画面。比如电影每秒记录24帧画面,常见的视频每秒记录30/60帧画面。这些画面连起来就构成了人眼看起来连续的影像。一些相对高端的视频记录方案,已经能够达到120fps甚至480fps的程度。
不过从机器视觉的角度来看,影像画面是要拿来计算的。比如自动驾驶、智慧工厂、智能建筑等领域应用的机器视觉。而传统的记录方案有两个比较大的问题。其一是即便是达到480fps这样的高帧率视频,帧与帧之间仍可能存在重要的未记录信息;其二,对于画面中始终处于静止状态的对象而言,每一帧都可能重复地记录了大量无意义信息——这对后端计算、数据通讯、存储都带来了更大的负担。
Prophesee(普诺飞思)CEO兼联合创始人Luca Verre
2014年,一家叫做Prophesee(普诺飞思)的公司在巴黎成立。这家公司在做一种“基于事件”的神经形态视觉传感器。这种神经形态视觉技术与普通的视觉感知方案存在相当大的差别。Prophesee CEO兼联合创始人Luca Verre在接受电子工程专辑采访时介绍说,这种模拟人眼视觉的神经形态视觉传感器,能够规避传统方案的这两个问题。
这种“基于事件的视觉技术”现在看来,将来在计算视觉领域会画上浓墨重彩的一笔。
什么是基于事件的视觉传感器
大约30年前,加州理工学院Carver Mead教授就提出了“神经形态”这个概念。Prophesee主要在做的就是模拟人眼视觉的“神经形态视觉技术(neuralmorphic vision technology)”。Luca Verre表示,直到最近几年,这种技术才逐渐成熟。
Luca Verre形容,Prophesee开发的视觉传感器又叫“硅视网膜(silicon retinas)”。之所以说模拟人眼视觉,如Prophesee在发布的一份白皮书中提到:人眼中的感光细胞仅在检测到视觉场景中某些特性(如对比度、亮度)的变化时才反馈给大脑。在进化过程里,相较于反复在意场景中的所有细节,专注于其他掠食者的行动更为重要。研究表明,人类能够从每秒1000次变化率的场景中捕获有价值的信息,这是远高于如今动态影像的帧率的。
“我们重新设计像素,就像视网膜的感光细胞,是独立且异步的。”Luca说,“和人眼视觉原理类似,Prohesee开发的传感器只有在感知到场景变化时才会进行记录,不同于传统图像传感器以固定的时序源(帧时钟)记录图像信息。”
图1,传统视觉方案与基于视觉的视觉方案对比
即仅在场景发生变化时,这种基于事件的视觉传感器上的像素才做出反应,场景中静态的部分都不会被捕捉。这应该就是“基于事件”这个词的由来。与此同时,Prophesee在技术介绍中提到:“图像信息不是逐帧发送,而是通过连续的信息流捕获事件信息,并且帧与帧之间没有任何重要信息遗漏。”(图1)
Luca告诉我们,基于事件的传感器,其中的“‘事件’是指,一个像素激活自身并发送事件检测到发生的X、Y坐标和时间戳。”这种基于事件的视觉感知这样的设计,“有三个优势:产生数据量更少;反应速度更快;以及实现更高的动态范围(>120dB)”。这其中的任意一项对于当代机器视觉而言都是相当有价值的,尤其在减少数据量的问题上,对于有限的通信、存储与计算资源显得相当友好。
最终落地到自动驾驶汽车、人工智能、工业自动化、IoT、医疗等领域,这项技术都会成为机器视觉的重要组成部分。
始于80年代的神经形态视觉技术
如Luca所说,神经形态视觉技术是直到最近这些年才逐渐成熟的。早年这项技术之所以始终未能投入应用,是因为“许多受生物启发的视觉设备的早期发明者和开发者都来自神经生物学界,他们主要将其芯片视为证明神经生物学模型和理论的一种手段,而并未将这些设备与实际应用联系起来。”
“许多概念上有趣的像素设计都缺乏技术相关性,例如由于电路复杂、硅面积大、填充系数低或噪点高,妨碍了实际应用。此外,许多早期设计都存在VLSI实现和制造的技术缺陷,例如晶体管不匹配,并且没有生产出实际可用的器件。”Luca说,“直到最近,越来越多努力投入到基于生物学原理的实用的及工业化的视觉传感器的开发中。”
Prophesee首席技术官Christophe Posch也向我们总结了,当前针对工业应用逐渐成熟的基于事件的传感器,已经解决的主要问题。其中部分问题也能够表现出基于事件的视觉技术,相比传统方案的优势。它们主要包括:
(1)传感器大小,当代技术已经能够缩小其尺寸;而且与SoA光学器件、相机模块尺寸、外形尺寸兼容;
(2)数据读取,提高了处理量:像素阵列尺寸的可扩展性,最大可达到百万像素级别;用于高速/低延迟应用程序,提高数据时间精度;
(3)实现片上事件数据准备/预处理,包括数据处理、系统整合、应用/算法性能;
(4)提高动态范围/弱光能力,因此开拓了新的应用领域;
(5)降低功耗,令其可应用于低功耗场景;
(6)单像素尺寸得以缩小——这应该是如今基于事件的视觉传感器最重要的一个进步;
(7)软件,新型的数据输入需要配套软件工作做处理,Prophesee去年推出基于事件的视觉软件套件(Metavision)就是比较典型的例子,其中包括62种算法、54个代码示例和11个现成的应用程序。
以其中的第6、7两点为例:其中单像素尺寸缩小,在基于事件的视觉传感器上也是这些年的重要技术成果。Luca在采访中告诉我们,这类新型传感器的像素结构和一般图像/视觉传感器是不同的,每个像素都独立且异步,每个像素都嵌入模拟和数字电路(约100个晶体管)。所以像素尺寸天然就比传统方案要大。图2,Prophesee第三代与第四代传感器产品的像素尺寸比较
“从早期的128x128像素设计到QVGA,再到HVGA以及VGA,像素尺寸始终限制着传感器的分辨率。借助Cu-Cu互连的更先进的3D堆叠工艺,我们能够大幅减小像素尺寸并最大程度地借助填充因子,首次达到了高清分辨率。其尺寸小到足以嵌入到移动设备中,扩大了产品的应用范围。”
这里所说的“首次达到高清分辨率”的应该是指Prophesee与索尼合作推出的视觉传感器,其分辨率达到了720p。这是Prophesee的第四代产品,在制造方面,这颗传感器用到了索尼BSI(背照式)与3D堆叠工艺——这两项技术此前就是索尼制造传统图像传感器的杀手锏,在此也令基于事件的神经形态视觉传感器像素更小了。(图2)
上述第7点,软件层面实际上也是当代芯片架构创新企业都面临的问题。所以Prophesee除了在传感器产品上花比较大的投入,针对模拟人类大脑的计算机视觉AI算法及软件也投入不小。一个典型的例子是,4月初Prophesee才刚刚发布基于事件视觉的开源软件库OpenEB及开发工具,作为Metavision套件的一部分,针对基于事件的应用(包括光流和物体检测),优化机器学习训练和推理。
应用落地与进驻中国
前文提到Prophesee与索尼合作的第四代传感器产品,是Prophesee最新的产品,“现在正与不少客户做测试,主要是针对工业应用和而物联网应用。预计今年年底能够大规模量产。”Luca说。
Prophesee现已投入使用的传感器还包括:第一代产品为盲人部分视力恢复,法国一家生物电子公司Pixium Vision已经将这款传感器应用到了医疗设备中。此外,第三代产品也已经量产,主要用于工业应用,“尤其在高速机器视觉领域,比如高速计数、激光焊接监控、震动测量等行业应用。”Luca说,“比如日本的Century Arks、德国的Imago已经将第三代传感器集成到了工业级相机系统中,用于工业自动化应用。而且这一代产品,我们已经开始盈利了。”
在机器视觉领域,由于对通讯、计算、存储的资源需求都显著更低,替代传统视觉或图像传感方案显得顺理成章。Luca也谈到,“我相信在机器视觉领域,Prophesee的技术是可以替代传统基于帧的技术的。”
在多代产品问世之际,Prophesee基于对新技术前景的信心,也开启了在全球范围内的业务扩展。除了位于巴黎的总部,Prophesee如今在上海、东京、硅谷都开设了办事处。“虽然目前我们在上海的办事处规模不大,但我们非常期望扩大我们的中国团队及业务。”Luca说。
中国巨大的市场空间、半导体行业强大的生态系统和潜力,以及政府与投资机构提供的机会,都是Prophesee选择进驻中国市场的原因。
“在人工智能快速发展的今天,特别是在图像视觉领域,融合了AI技术的图像视觉处理对数据带宽、存储功率及计算成本等产生了更高的要求。”Luca说,“我们相信,借助Prophesee的技术,受生物启发的神经形态传感器及AI算法,能够让人工智能及计算机视觉未来效率更高。”
责编:Amy Guan
本文为《电子工程专辑》2021年6月刊杂志文章,版权所有,禁止转载。点击申请免费杂志订阅