今年2月份的MWC上,Prophesee就宣布了与高通之间的战略合作,双方准备把基于事件的视觉传感器带到智能手机上。“基于事件的视觉传感器”,电子工程专辑过去两年已经有过比较详细的报道。它和普通基于帧的传统图像传感器不同。其特点在于只记录场景中的变化信息:像素异步检测亮度变化,加上像素位置与事件信息输出数据。这是Prophesee公司的产品。
前年Prophesee在获得C轮融资之时,Prophesee联合创始人兼执行总裁Luca Verre就曾经谈到过这类传感器可以用到手机上。具体用途是和摄像头配合,来消除拍照时的运动模糊(motion blur)。当时我们对这一用途是持怀疑态度的,因为计算摄影领域,运动模糊消除已经有了对应的方案,效果也还不错;没想到转眼Prophesee就开始和高通,就这一应用开始了合作。
为此,我们再度专访了Luca,共同探讨了基于事件的视觉传感器(以下简称“事件视觉传感器”)在智能手机,以及更多消费电子产品方面的发展契机。包括搭载这种传感器的手机可能会在何时上市,就现有抗运动模糊的技术,这类技术究竟做了什么,未来在手机上还可能有哪些应用等等。
Prophesee联合创始人兼执行总裁Luca Verre
当事件视觉传感器用在手机上
首先还是先简单谈一谈,事件视觉传感器用于手机拍照抗运动模糊的原理。本文不再花笔墨去谈事件传感器本身的工作原理,这在我们过去的文章里已有多番提及。
要了解事件视觉传感器是如何抗运动模糊的,首先就需要知道照片的运动模糊是如何产生的。拍照的过程就是图像传感器感光的过程。通常在图像传感器前方,会有一扇门——也就是快门。快门开启,图像传感器感光;关闭则停止感光。按下拍照按钮,快门就会开启,并在一定时间后关闭。
快门一开一关之间的时间间隔,或者说图像传感器感光的时间就是快门时间。当然对于手机这类便携式设备而言,快门未必是实体,也可以是“电子快门”——即通过控制像素的通电和断电,来实现这一过程。
快门时间越久,图像传感器的感光量越大。所以在很多场景,比如暗光拍摄环境下,摄影师总是倾向于采用更长时间的快门。但延长快门时间也存在一个问题,即拍摄画面不稳定时,照片就会模糊——比如说手抖,或者场景中存在运动对象,如跑动中的人。
对于前者而言,还能藉由三脚架、稳定器等手段来缓解;但后者——也就是场景中的运动对象是不可控的。这就是所谓的“运动模糊”(motion blur),也是传统基于帧的图像传感器无法避免的。
而事件视觉传感器只记录场景中的动态部分,理论上捕捉的是动态内容的连续“事件”数据,帧与帧之间没有信息遗漏——Prophesee在宣传中说事件传感器记录信息等效帧率为10000fps,也就是每秒能记录10000帧影像。
Luca说:“基于事件的解决方案,收集的事件数据在时间上具有连续性。借助这些信息来重新构建和修复常规摄像头拍摄的模糊图像”,“就可以恢复到接近人眼视觉看到的状态”。也就是说,将事件视觉传感器与普通图像传感器配合,就能得到一张清晰的影像。
Prophesee在新闻稿中提到和高通之间的合作“面向移动设备开发者,藉由基于事件的连续与异步像素感知方法,利用Prophesee传感器的能力大幅提升摄像头性能,尤其在快速移动的动态场景(如运动场景)和低光照环境下,提供快速和有效的方法”。
高通是智能手机市场上,尤其是高端手机产品之上AP SoC份额最大的企业。与高通合作,自然能够以更快的速度让自家的传感器和算法铺设到智能手机这个庞大的市场上。
消除运动模糊需要事件传感器吗?
其实运动模糊消除在计算摄影(computational photography)领域已经不是什么新鲜事物了,基于多张堆栈的防抖和运动模糊消除在摄影领域也已经有了越来越成熟的方案。融入AI后,运动模糊消除技术也在持续发展。那么事件视觉传感器在这其中又会扮演什么样的角色?
“的确现如今手机拍照,普遍基于计算与AI。”Luca说,“事件视觉传感器对此附加的价值,就在于为这个计算等式添加新的信息源、新的数据。其实我们并不是在和多帧堆栈(multi-frame stacking)或者AI竞争,而是增加了运动、时间信息——这是基于帧的摄像头无法提供的,和多帧堆栈、AI技术是相辅相成的,最终将影像质量提升到新的高度。”
“比如说,在事件信息的加持下,系统就能检测到场景中的运动具体是在哪儿发生的。如此一来,也能够将AI模型的注意力集中在发生运动的部分,实现算法的简化,而不需要对整个画面做计算。”
“比如说我们能够在多帧堆栈的时候,帮助进行帧对齐(alignment)。再比如说,我们也能够对场景中的运动进行更容易的切分——将运动的部分从背景中分离出来。后续就能实现类似‘电影运镜(cinematic pan)’之类的效果,背景是虚化的,而运动中的对象——比如跑步的人,则会是清晰的。”就像电影模式那样——似乎对于现在手机多摄系统算出来的浅景深,也就是背景虚化效果,运动对象的处理的确是更有难度的;事件视觉传感器能够辅助这一过程。
就应用方向来看,无论事件视觉传感器和普通摄像头怎么配合,其中的难点应该都在算法上——这些算法也由Prophesee提供。Luca说Prophesee和高通的合作是从2021年就开始的,“绝大部分根本性的挑战已经在过去2年里解决了。在和高通的合作中,我们尝试解决了这些问题。现在剩下的挑战在画质方面,我们还在尝试做进一步的提升。”
“我们正与手机OEM厂商做紧密合作,了解他们的需求。未来几个月内,对我们来说,主要的工作就是持续与手机OEM厂商以及高通紧密合作,确保我们能够抓住手机OEM厂商对于未来手机产品的需求,并且赢得市场机会。”
手机用上事件传感器的更多情报
Luca告诉我们,面向手机的参考设计已经完成,就如下图这样,从下个月开始就会发往移动OEM厂商。这个双摄像头模组的右边就是Prophesee提供的基于事件的摄像头,左侧则为传统摄像头。“这个模组已经集成到了高通骁龙移动平台上。我们执行模糊消除的软件也跑在这一平台上。”
这其中的合作涉及到了Prophesee、高通、手机OEM厂商三方。对于Prophesee和高通之间的合作,Luca说:“2021年的时候,我们开始在手机计算成像的消除运动模糊方面,做了一些前驱性的工作;并且也开始和手机OEM厂商有所接触;OEM厂商对此很感兴趣,所以高通去年也就决定和我们达成战略性合作,因为他们也看到了未来这项技术的潜力。”
到具体的产品和技术方面,Prophesee提供上述双摄参考设计,加上算法和软件——这些都加入到了高通骁龙平台上。这一参考设计中,Prophesee的视觉传感器尺寸为1/2英寸。“我们也和移动OEM厂商谈过,这个尺寸对于第二颗摄像头来说是合理的。”基于此前Prophesee与索尼之间BSI+堆栈式CMOS工艺合作,规模化量产的成本是可控的("single digit dollars cost")。Luca也在采访中提到了,这类方案目前主要面向高端手机产品。
Luca表示和高通的合作在于技术和商业发展两个层面:“技术层面,高通帮助我们把事件视觉传感器和软件整合到骁龙移动平台上;业务发展层面,高通将会和我们一起,向手机OEM推广这个解决方案。”我们看到高通在Snapdragon Summit 2022上也特别提到了Prophesee事件视觉传感器对于手机摄影摄像的价值。
而在与OEM的合作上,Prophesee副总裁兼大中华区总经理杨雪飞提到,Prophesee“正全面与中国各知名手机OEM厂商展开合作”。Luca说,“我们已经与客户之间开启或者即将开启更多的合作项目。当前的目标是从现在到年末,去执行一些评估项目。”我们猜测应该会有小米,毕竟Prophesee的C轮融资就有小米的参与。
“因为对于手机OEM厂商而言,选择新的摄像头模组、加入新的摄像头特性,和最终手机上市之间需要1年的周期,所以我们的目标是明年结束之前会有首款(搭载事件视觉传感器)的手机问世。”Luca对此很有信心,“换句话说,我们从现在到今年底之间,有个时间窗口;最终要确保明年底之前,会有手机融入我们的技术。”
除此之外,静态照片的运动模糊消除并非事件视觉传感器可应用于手机的唯一特性。Luca表示Prophesee当前正计划将其应用于视频模糊消除、视频慢动作(slow-motion,或高帧率)等特性。“像我们举的网球的例子,基于事件,就能捕捉到所有的动作信息——帧与帧之间所有的动作信息。”
对于视频慢动作特性,“在低功耗的前提下,用户可以选择视频里面感兴趣的部分,以你所期望的任意帧率来产生视频慢动作片段。”从原理上考虑,这一点应当还是挺有趣的。这里Luca的用词是“produce”一段慢动作视频、“re-generate”高帧率画面(以及interpolate between frames)——那么猜测可能是用事件传感器提供的动作信息,加上传统基于帧的传感器提供的普通影像,用AI来进行补帧。其实AI补帧也是现在的热门技术,而事件传感器提供的信息的确非常有利于协助这一过程。
沿着这个方向去想一想,视频拍摄原本就受制于快门速度和帧率之间的权衡——如果事件视觉传感器能够一定程度突破这层束缚,那么视频拍摄技术显然会有更长远的发展。而且相比于传统图像传感器以高帧率来捕捉画面,的确也有了显著更低的功耗。这一过程也是得益于AI技术。
“我们对于更多的特性有对应的路线图。现阶段会开始关注在视频上,去模糊是其一,视频慢动作是另一个。现在已经在开发了。”Luca说,“和高通合作的路线图上,还会有很多我们规划的其他功能和特性。”
消费电子和更多市场机会
前年的融资媒体会上,Prophesee相对较泛地谈到了事件视觉传感器某些市场应用的预期,包括工业、医疗、汽车等等。转眼,消费电子市场就已经为之打开了一扇大门。
“对于Prophesee和我们的技术来说,消费电子是个很关键的市场,其中包括手机——这是图像传感器领域最大的市场方向。”Luca说,“我们已然明确了与高通、索尼合作的价值主张。”手机的确一直都是CIS(CMOS图像传感器)市场价值的主导。Yole Intelligence的数据为手机占到整个CIS市场的大约七成份额。所以对于Prophesee而言,拿下这一市场可说是打通了营收全面增长的通道。
而且虽然以手机为代表的消费电子市场正处在下行期内,但一方面对Prophesee这家公司自身来说,手机是待开发市场;另一方面Luca也提到了事件视觉传感器主要面向高端和旗舰手机,这一局部市场实则并未受到下行期的冲击。“仔细观察高端市场,企业其实还在持续针对新技术做投入。”
与此同时,Prophesee认为除了手机之外,事件视觉传感器在消费电子领域还有其他的一些机会。在高通与Prophesee合作一事上,“我想高通也看到了我们的技术在移动市场之外的潜力。”Luca表示,“其实我们和高通讨论过合作扩展到其他领域。我现在还无法透露细节,我可以透露的是双方还在进行合作的深化。”
Luca在谈论Prophesee潜在市场时列举了“可穿戴设备、AR/VR、IoT,包括智能家居、智能城市等应用场景”。“消费电子产品中出现了越来越多的摄像头,如机器人、智能电视、IoT。摄像头的用途不仅限于纯粹的视频拍摄,还在于让这些设备更加智能,比如用于人机交互,手势识别、眼球追踪,以及各种机器视觉AI。”
比如在AR/VR方向上,事件视觉传感器高采样的眼球和手势追踪,可用于降低延迟和功耗,这也是当前AR/VR体验的痛点。这对Prophesee而言就是个巨大的潜在市场机会。
杨雪飞还透露了今年Prophesee会推出针对3D深度信息捕获的解决方案——不知道这是个什么样的方案,是否与现有ToF方案结合。杨雪飞只是提到,事件视觉传感器的高速特性会大幅提升捕获速度,“能够在更高速的运动过程中进行3D信息的传输”。看起来Prophesee还在探寻更多事件视觉技术潜在可能性。
在市场扩展上,过去一年,我们也看到Prophesee宣布了好几项合作,合作企业包括BrainChip、iCatch、DMP等,主要都是打造前端传感与后端处理之间构成的边缘视觉AI平台,应用方向渐有全面开花之势。Luca表示这些合作对于打开市场很重要,本质上和与高通之间的合作类似。
合作方自然也不乏中国企业,比如说SynSense时识科技——因为事件视觉传感器搭配的最佳后端是神经拟态计算,也就是我们常说的类脑计算;SynSense即是这一赛道的参与者。
就中国市场,杨雪飞说Prophesee还在和包括清华大学在内的30所大学院校、大专院校和研究所单位合作;还有各领域的B端企业,“去年Prophesee在中国也找到了相机合作企业,在中国区落地了事件视觉传感器相机和本地化生产”。
值得一提的是,Luca在采访中透露Prophesee的一名核心创始成员举家从法国来到了中国,准备在中国长期驻扎,担任Prophesee中国CTO。“他是这一领域技术方面真正的先驱。”“我们期望短期内就把技术、know-how带给中国本土团队和客户。中长期则是要在中国从事更多R&D研发方面的工作。”Luca说。
目前Prophesee中国办公室主要的职能,除了销售/市场和业务拓展之外,也包括了应用开发。考虑到全球主要的手机OEM厂商都在中国,Luca所说的未来一年的时间窗口,对Prophesee中国团队而言,应该也会格外忙碌——毕竟与高通之间的合作,只是迈出了占领消费电子市场的第一步。我们也非常期望看到搭载事件视觉传感器的智能手机和更多消费电子产品的问世。