这两年机器视觉领域的传感器正走向多样化,除了传统的RGB摄像头,ToF、LiDAR、毫米波雷达之类的传感器都出现在了电子产品中,涵盖智能家居、智能楼宇、智慧城市和机器视觉相关应用。
还有一类传感器是我们此前报道过多次的:事件视觉传感器(event-based vision sensor)。这种传感器的特点在于只捕捉画面中动起来的部分,传感器上的像素是异步工作、基于事件触发的,所以又被称作神经拟态视觉传感器——因为其工作方式和传统基于帧的图像传感器差别较大。像是这一领域最具代表性的企业:法国Prophesee所推的事件视觉传感器,宣传中提到记录连续事件、不丢失信息、等效10000fps帧率还是给我们留下了很深刻的印象的。
这种工作方式又决定了,此类传感器具备产生数据量少、反应速度快、动态范围高、功耗低之类的特点。此前Yole Intelligence给出的数据预期,事件视觉传感器2030年大约会拿下CMOS图像传感器市场9%的份额。其可能的应用方向涵盖了汽车智能座舱、ADAS、生物医疗、消费电子、工业制造等。
最近Prophesee发布了新品GenX320,应该是这家公司迄今推出的“第五代Metavision”传感器产品了。Prophesee在新闻稿中特别强调了,GenX320应用目标市场在边缘(edge)领域,典型如AR/VR、可穿戴设备、机器人、笔记本与平板电脑、IoT设备等;可做注视追踪、手势识别、对象检测与追踪、跌倒检测、内向外追踪等特性。
在我们的印象里,此前Prophesee与索尼合作推出的上代产品(IMX636/637/646),已经有面向边缘设备的属性了。在接受我们采访时,Prophesee联合创始人兼首席执行官Luca Verre说,新品与此前发布的第四代传感器并非替代关系,而是“产品组合的扩展”,“有客户需要更小尺寸、更低功耗的传感器”。
在我们看来,GenX320更像是Prophesee在看到市场准备就绪以后,意欲在事件视觉技术上起量的一款产品:因为它尺寸更小、更加轻量、易于部署,且面向市场涵盖了IoT、消费电子这类更容易快速起量的领域。基于对GenX320的解读,大概也有助于我们更进一步地理解事件视觉传感器的发展走向,及可能的未来。
事件视觉传感器的分辨率和尺寸走向
从Prophesee官网数据来看,GenX320相较以往产品两个比较大的物理属性差异,在传感器的分辨率和尺寸方面。这颗传感器标注的光学尺寸为1/5英寸,分辨率320x320(10万像素,单像素尺寸6.3μm)。可形成鲜明对比的是2021年发布的IMX636,1/2.5英寸(单像素尺寸4.86μm),720p分辨率(92万像素)。
单从分辨率的角度来看,在加上GenX320以后,Prophesee就有了QVGA、VGA、HD规格的不同事件视觉传感器。“我们期望从低分辨率到高分辨率构建完整产品线。主要原因还是市场上客户的不同需求。”Luca在谈及分辨率与图像传感器尺寸时说。
对于事件视觉传感器而言,“更高的分辨率意味着,设备具备更远距离、更广范围的感知能力。那些要求较长距离和广视角的应用需要高分辨率。比如说无人机导航、汽车的驾驶辅助;还有即便距离要求没那么高”,但精度要求更高的,“像是工业机器视觉中的某些需要检测小型缺陷的应用”。比如此前索尼在新闻稿中提到过,工业设备预测性维护,感知设备振动细微变化,更早检测使用异常的;或者“有些需要识别小型对象的应用”。
但当事件视觉传感器用于头显、AR/VR、笔记本或平板类的应用,典型如眼睛注视追踪,“还有像是游戏机上提升人机交互体验的手势识别等操作,都只需要较短的感知距离。”Luca说,“更低的分辨率就能适配。”“加上这类设备还有内部空间、功耗方面的限制,GenX320显然是很好的选择。毕竟更高的分辨率意味着更大的芯片尺寸、更大的空间占用和功耗。”
另外比较有趣的是,在谈及同样可用来做存在检测、眼睛注视追踪的毫米波雷达、ToF光学传感器时,Luca提到,“我们的传感器,相比于毫米波雷达、ToF这样低空间分辨率、低检测精度的传感器,还是有着更高的空间分辨率(QVGA)。”这就让事件视觉传感器,作为一种非传统的CMOS图像传感器,显得格外特别,“我们的传感器还是用传统的CIS制造工艺来生产,从硅面积的角度来看,相比毫米波雷达、ToF也有着显著更大的成本优势。”
“和其他类别的传感器一样,我们也追求两个大的方向。其一是提高分辨率,未来最大可能会发展到200、300、400万像素,但不会到传统基于帧的图像传感器那样上到千万像素级别。”“当然到具体的应用上,还是要看需求,就像前面提到的,不少近距离的应用并不需要那么高的分辨率,GenX320就很适合。”
“另一个方向是缩小传感器的尺寸。”“尺寸很重要,因为尺寸和成本是相关的;尺寸还关系到设备可集成芯片的空间。”成本部分,“我们在AR/VR、IoT智能摄像头等应用上都看到了这方面的市场需求。具备成本效益的事件视觉传感器会创造很大的市场价值。”而在占用空间的问题上,“游戏主机、笔记本、平板之类的应用,内部空间都是寸土寸金的。”
1/5英寸(3x4mm)的GenX320应当是在现有技术条件下,寻求传感器小尺寸的重要一步。若Prophesee寻求小尺寸下更高的分辨率,自然就要求更小的单像素尺寸。此前Prophesee借助索尼hybrid bond混合键合3D堆叠,以及BSI背照式工艺,在IMX636/637这代产品上实现4.86μm的像素尺寸,应当就是朝着这个技术方向去走的。
就这个角度来看,Prophesee的第四和第五代Metavision传感器产品,分别去往了Luca眼中事件视觉传感器的两个方向。随产品线的进一步补全,及未来产品的持续迭代,传感器的尺寸和分辨率大概可以被看作是不同应用产品定位的依据了。
低功耗的进一步尝试
“低功耗”这个属性实际是伴随事件视觉传感器诞生而存在的。毕竟通过亮度对比变化来实现像素异步触发的、基于事件的、对于动态画面的感知,其基本原理就已经做到了相比于传统CIS的低功耗。这一点我们在以往的分析文章里也已经反复谈到过。
即便到现在,神经拟态处理器仍然未能占据时代主流,像GenX320这样的神经拟态传感器在获取数据后,还是需要把数据交给传统的处理器做数据处理,整个系统的功耗仍然是相对较低的。“因为事件视觉传感器捕获的数据相比基于帧的传感器要少很多。”Luca解释说,“所谓的等效10000fps实际是在表达事件视觉传感器的时间精度,也就是事件检测是以毫秒计的。”
“我们的传感器只捕捉亮度变化事件,即便时间精度很高,数据总量还是很低的。那么对于后端数据处理而言,也会更加低功耗。”而且Luca还告诉我们,实际从上一代传感器开始,Prophesee就通过一些数字实现方案来“进一步过滤无效事件数据,包括噪声、频闪光源的频闪事件等,另外还有对某些冗余空间与时域事件信息的过滤器;如此一来就进一步降低了事件数据带宽需求,对后端计算平台的功耗自然有好处”。
上面这些都属于Prophesee当代传感器产品的通用属性。而这次GenX320的宣传资料中特别提到了“片上智能电源管理模式,可将功耗降低至36μW”,这一点应该是GenX320目前特有的——毕竟Luca在采访中反复在强调,各类边缘设备对功耗的敏感性。
Prophesee有个客户名为Zinn Labs目前正基于GenX320开发视线跟踪系统。这套系统能够以>1kHz的频率追踪眼睛特征变化,据说整体的系统级功耗就不到20mW。这是怎么做到的?
更小的尺寸和更低的像素,虽然能够带来更低的功耗,但理论上应该还是无法达到这个程度的待机功耗水平的。GenX320的目标市场,令Prophesee在设计这颗芯片时就考虑为其加入电源管理特性,在事件视觉技术的基础上进一步降低功耗。
对于一般的事件视觉传感器而言,“当场景中没有太多动态变化时,功耗在几十毫瓦的水平;有较大变化时,可能最多100mW上下。这相比60fps的传统CIS传感器,功率已经低很多了。”Luca说,“而到了GenX320这款传感器上,我们采用某些always-on模式的特性,但以层级(hierarchical structure)结构来实施唤醒系统。”
“起初就只有3x3像素阵列会处在always-on模式下,这部分像素会去感光;光变化超过特定的活动阈值后,就会唤醒其他的像素。换句话说,传感器并不是始终让所有像素处在always-on状态的,而是在外界有动态变化时,才依次连续唤醒全部像素。当仅有3x3像素阵列处于always-on状态时,传感器的功耗就是36μW。基于层级结构,随着唤醒的像素增多,一直到整个像素阵列,则传感器功耗大约会达到几mW的程度。”
“举个例子,比如智能家居的存在检测——像是需要感知是否有人进入房间,在传感器的一个或多个像素集群(3x3)检测到一定量的动态活动以后,再唤醒全部像素。那么在没有人进入房间的时候,传感器的功耗就是36μW;而在有人进入房间之时,激活全部像素,则功耗可能最多2-3mW。随后事件数据才传往本地处理器,进行人数统计之类的进一步分析操作。”
所以Luca对于GenX320应用于各类电池驱动的功耗敏感型设备非常有信心。另外,Prophesee似乎还在降低功耗的问题上,针对某些应用加入了更多的技术方案。比如说Luca特别提到一种应用于头显设备的名为Foveated Rendering(注视点渲染)的技术——原理上很类似于图形领域的可变速率着色(VRS)。因为人眼看到的整个场景并不需要都以相同的高分辨率呈现,这种技术限定3°视角内以高清分辨率渲染,降低其余像素的渲染负载,也就起到了节电的效果。
“总的来说,我觉得降低功耗是我们这一类传感器的基本价值。”包括前文提到和其他类别传感器相较,“作为一种被动感知器件,功耗优势都是首要的。”
拥抱人工智能
分辨率和功耗这两个话题,实际上是我们这次和Luca探讨的重点,也是在我们看来能够理清事件视觉传感器未来发展思路的两条线索。当然除此之外,GenX320还有其他的一些特性,比如说传感器级别隐私保护(事件视觉传感器的固有属性,因为只记录动态信息,不获取RGB影像,则不涉及诸如画面背景、隐私等无关的敏感数据),集成事件数据预处理、过滤、格式化功能,支持MIPI、CPI数据输出接口等。
这些其实更像是Prophesee发展全系事件视觉传感器的规划体现,而不光是GenX320。值得一提的,是新闻稿中特别提到了传感器的“AI-ready”,“片上直方图输出兼容多个AI加速器”。这一点实际上是事件视觉传感器捕获的异步、高速、稀疏事件数据表达,需要转为后端AI处理器可以理解的传统数据。则Prophesee需要对这部分数据首先做预处理,转为“比如说直方图、矢量或者帧”,“让传统AI处理器也能轻松读取这些数据,并做处理。”
“所以我们首先做到兼容后端平台。”“我们也会自己在这些平台(传统AI芯片平台)上去打造一些AI模型,作为Metavision SDK的一部分,为客户提供这些模型。”——有关AI模型,有个可列举的例子是此前Prophesee就在新闻稿中提过与Cambridge Consultants的合作,构建自动化无菌检测系统,将检测时间从原先几周缩短至微秒级别,其中就借助AI技术来对细胞做检测、追踪和分类。
其实原本我们一直认为,AI技术的发展会消解多传感器在机器视觉中的价值,因为如果普通的图像信息就能解决大部分问题,则不同类别传感器的涌现都只是多余。但从Prophesee对待AI的态度来看,情况好像并不是这样。就像Prophesee官网域名选择的后缀就是.ai。
除了前文我们花了比较多篇幅来探讨事件视觉传感器更低功耗、更高空间精度及更低成本的硬件优势之外,Luca认为AI对于事件视觉传感器而言是很大的助力。“我们看到市场上AI越来越广泛的布局,也看到边缘AI设备的快速增长。”Luca表示,“我认为事件视觉传感器的机会,在于我们这种传感器的特性,在捕获的数据上,相比于传统基于帧的数据,更适用于边缘AI处理。”
“从建立这家公司的第一天起,我就明确了要把感知和处理两方面的能力提供给客户,为客户提供完整的解决方案,或者至少也要给客户提供这样一个平台,以我们的感知方式来构建完整解决方案。”“所以我们会持续在AI方面投入。其实现在我们就已经有很强的AI团队了,包括在法国、中国的团队。我们也会持续投入到更多模型的构建上,也为社区提供更多的数据集,进一步与我们的技术做结合。”
Luca在谈到Metavision生态时也提及了整合不同的嵌入式处理器制造商合作,准备让产品面向不同的垂直市场,也和一些ISV供应商合作,面向终端客户提供应用。“我们会持续在Metavision平台上增加额外的特性、数据集、AI模型。”这些应该能够代表Prophesee领衔的事件视觉传感器市场未来在生态上的发展思路了。
最后回到GenX320:这颗传感器前两周已经进入到规模量产中,Luca介绍说去年就已经将部分工程样品发给了超过30家客户。“我们准备更进一步地发掘这条线的客户和市场机会,也开始给客户大量提供产品”。早期采用者也包括一些中国客户,甚至“现在这条线一半的客户都来自中国,我们也已经与一些生态系统合作伙伴做合作——包括基于AI加速器的参考系统”,“未来几周我们会公布与摄像头模组制造商、SoC供应商、早期客户的合作信息。”
- 分析得很有深度,值得详读。