神经形态视觉传感器将重塑计算机视觉的新方向

原创 MEMS 2022-05-24 00:00

TI MCU方案：电动汽车实时控制 【TI资料】基于新型C29内核的MCU技术资料

编译：麦姆斯咨询

计算机视觉将再次重塑？

Prophesee联合创始人、匹兹堡大学眼科教授、卡耐基梅隆大学机器人研究所兼职教授Ryad Bensoman认为，事实确实如此。作为基于事件的视觉技术的开创人之一，Bensoman预计神经形态视觉（基于事件相机的计算机视觉），将成为计算机视觉的下一个发展方向。

“计算机视觉已经经历了了多次重要革新。”他说，“我至少见证了两次相当于从头开始的重塑。”

Bensoman认为首先是20世纪90年代的一次转变，即从涉及一些摄影测量的图像处理转向基于几何学的视觉方案，然后是如今向机器学习的快速转变。尽管经历了这些革新，但现代计算机视觉技术仍然主要基于图像传感器，即生成近似人眼所见图像的可见光成像传感器。

CMOS图像传感器

Bensoman认为，在这种图像传感模式打破之前，它实际阻碍了替代技术的创新。GPU等高性能处理器的开发，推迟了寻找替代解决方案的需要，从而延长了这种影响。

“为什么我们要用图像进行计算机视觉？这是一个非常值得深究的问题。”他说，“我们使用图像，完全是历史原因。”

成像相机

自公元前五世纪针孔成像技术诞生以来，成像相机就一直伴随着我们。到了16世纪，艺术家们建造了房间大小的装置，用于将设备外的人或风景记录到画布上。经过多年的发展，这些画布逐渐被胶片所取代，以记录图像。随后，数码摄影等技术创新，最终使相机成为现代计算机视觉技术的基础。

然而，Bensoman认为，基于成像相机的计算机视觉技术效率极低。他将之类比中世纪城堡的防御系统：利用城墙周围的守卫监视四面八方接近的敌人。鼓手敲击稳定的节拍，每个守卫会在每个鼓点上，大声喊出他们所看到的情况。在众多守卫的呼喊声中，明辨其中一位发现遥远森林中的敌人并非易事。

来到21世纪，鼓声硬件相当于电子时钟信号，而守卫好比每个像素——它们产生了大量数据，并且必须在每个时钟周期捕捉信号，这意味着大量冗余的信息和大量不必要的计算。

Prophesee与索尼（Sony）合作开发的动态视觉传感器（DVS）评估套件（来源：Prophesee）

Bensoman说道：“守卫的监视和汇报相当于城堡的算力。他们需要一直监视没有事情发生的情况，并汇报，相当于一直在搜集大量无用的信息，造成很大的带宽。如果这座城堡还非常庞大且复杂，要捕捉到有用的信息是何其费事且困难。”

来到神经形态视觉，其基本思想受生物系统工作方式的启发，即检测动态场景中的变化，而不是连续分析整个场景。对于刚才的城堡类比，这意味着守卫在没有情况发生时，可以保持静默无需持续汇报，直到他们发现敌人，然后大声喊出他们的位置以发出警报。对于传感器来说，这意味着可以让单个像素决定它们是否看到相关的东西。

“像素可以自己决定应该发送什么信息，它们可以选择捕捉有意义的‘特征’信息，而不是捕捉所有信息，这就是区别所在。”他说。

与固定频率的系统采集相比，这种基于事件的方法可以节省大量能耗，并减少延迟。

他说：“我们需要更具适应性的东西，而这正是基于事件的视觉技术可以提供的，一种自适应的采集频率。当考量振幅变化时，如果某个物体移动得很快，我们就会得到很多样本。如果某个物体没有变化，那么样本量几乎为零。因此，这能够根据场景的动态，调整采集频率。”

Bensoman于2000年进入神经形态视觉领域，他坚持认为过去基于图像的先进计算机视觉不是最好的方案。他说：“最大的转变是，我们可以在没有灰度和图像的情况下进行视觉处理，这个概念的提出在2000年前后可以说是‘无稽之谈’。”

Benosman提出的技术成为当今事件传感的基础，它是如此具有开创性，以至于当时提交给最重要的IEEE计算机视觉期刊的论文未经审查就被拒绝了。事实上，直到2008年开发出动态视觉传感器（DVS），这种方案才开始获得广泛关注。

动态视觉传感器

Prophesee的部分客户应用展示了常规相机和DVS传感器输出的差异（来源：Prophesee）

神经科学的启示

神经形态技术源自生物系统的启发，包括终极计算机，大脑及其计算元素，神经元。问题是我们还没有完全理解神经元是如何工作的。虽然我们知道神经元是对被称为尖峰的电信号起作用，但直到最近，研究人员对神经元的表征还相当草率，认为只有尖峰的数量才重要。

这一假设持续了几十年。最近的研究已经证明，这些尖峰的时间信息绝对关键，而大脑结构在这些尖峰中产生延迟来编码信息。

如今的尖峰神经网络模拟了大脑中的尖峰信号，是尖峰信号的一种二进制（‘0’或‘1’）表达。“收到一个‘1’信号，唤醒，计算，然后休眠。”Bensoman解释道。但实际要复杂得多。当尖峰信号出现时，神经元开始对尖峰值进行积分；神经元也会有遗漏，这意味着结果是动态的。还有大约50种不同类型的神经元，具有50种不同的整合模式。当前的电子化版本缺少集成的动态路径、神经元之间的连接以及不同的权重和延迟。

Bensoman说：“问题在于要制造一款高效的产品，由于我们还不不够理解它，不能模仿所有的复杂性。如果我们掌握了完善的大脑理论，就可以解决它，但问题是我们理解得不够。”

现在，Bensoman运营着一个独特的实验室，致力于理解大脑皮层计算背后的数学问题，旨在创建新的数学模型，并将其复制到硅基器件。这包括直接监测来自真实视网膜的尖峰信号。

但是，Bensoman反对完全复制生物神经元，他认为这种方法不可取。他表示：“在硅芯片上复制神经元的想法，源自人们在晶体管中看到了类似真实神经元的机制。不过，我们无法制造并利用脑细胞，但我们有硅芯片。我们需要根据硅芯片的特性来因地制宜。如果我们知道在计算什么，利用硅芯片，我们就可以优化这个方程式，并以最低的成本、最低的功耗、最低的延迟运行。”

数据处理能力

认识到没有必要精确复制神经元，再加上DVS传感器的开发，驱动了现在神经形态视觉系统的发展。尽管现在已经有产品上市，但要实现完全类人的视觉传感器商业化，还有一段路要走。

最初的DVS传感器像素“较大”，因为光电二极管周围的组件本身大大降低了填充因子。虽然对这类相机开发的投入加速了这项技术的发展，但Bensoman明确表示，目前的事件相机仍然只是对2000年最初研究的改进。

索尼、三星和豪威最先进的DVS传感器具有更微小的像素，采用3D堆叠等先进技术，降低了噪音。Bensoman考虑的是，目前使用的传感器类型能否成功扩大生产规模。

他说：“问题是，一旦增加像素的数量，就会得到更大量的数据。现在，由于处理速度仍然非常快，可能仍然可以实时处理它，但太多的像素会带来太多的相对变化。现在，再这样下去可能会进入死胡同，因为人们知道它的潜力，但现在还没有合适的处理器来支持它的运行。”

通用神经形态处理器落后于对应的DVS传感器。一些业内最大的厂商（IBM Truenorth、Intel Loihi）仍在努力开发中。Bensoman说，合适的处理器加上正确的传感器，将成为无与伦比的组合。

Bensoman表示：“今天的DVS传感器速度极快，带宽超低，动态范围大，所以可以支持室内和室外的广泛应用。这是确定的未来，市场起飞是可以预见的。”他还补充道：“谁能推出优异的处理器并提供完整的堆栈，就能赢得未来的竞争，因为这必将无可匹敌！”