计算机视觉领域准备迎接剧烈变革-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 海报

 扫一扫

扫码查看更多文章

意识到没有必要精确复制神经元，再加上DVS摄影机的开发，是今日神经形态视觉系统背后的驱动力。不过现在虽然已经有系统问世，在我们拥有可供商用、完全像是人类的计算机视觉技术之前，还有很长的路要走。

计算机视觉是否会再次自我重塑？美国匹兹堡大学(University of Pittsburgh)眼科教授，同时兼任卡内基美隆大学机器人研究所(CMU Robotics Institute)教授的Ryad Benosman认为将会如此。

Ryad Benosman (来源：匹兹堡大学)

身为事件导向(event-based)视觉技术创始人之一，Benosman预期神经形态(neuromorphic)视觉──即事件导向摄影机，会是计算机视觉的下一个发展方向。“计算机视觉已经被重塑了很多很多次；”他表示：“我至少已经看过该技术重塑两次，从无到有，从零开始。”

Benosman指出，在1990年代，计算机视觉从带有一点摄影测量法(photogrammetry)的图像处理，转变为以几何学(geometry)为基础的方法；然后今日则是快速转向机器学习。尽管发生了这些变化，现代计算机视觉技术主要仍以图像传感器为基础——即产生出类似于人眼所见图像的照相机/摄影机(camera)。

根据Benosman的说法，在图像感测技术典范不再有效之前，它会阻碍其他替代技术的创新；然而其效力因为GPU等高性能处理器的发展而延长，也延迟了寻求替代解决方案的需要。“我们为什么让图像(image)成为计算机视觉目标？这是在一开始就很难回答的问题，”他表示：“我们没有理由使用图像，只是因为历史性的推动力；甚至在相机/摄影机发明之前，图像就拥有那样的动力。”

计算机视觉不该是摄影机？

自从针孔相机(pinhole camera)在公元前五世纪问世以来，拍摄图像的相机/摄影机就一直存在。1500年代，艺术家们打造出一个房间大小的装置，好在画布上追踪一个人、或者室外风景的图像。多年之后，那些纪录图像的画布被替换为底片，而像是数码相机(digital photography)等创新技术，最终使得摄影机很轻易成为现代计算机视觉技术的基础。

然而Benosman认为，以摄影机为基础的计算机视觉技术效率极低。他以一个中世纪城堡的防御系统为比喻：围绕着城墙部署一圈卫兵，从四面八方监看是否有敌人接近，并叫一个鼓手稳定地击鼓，每打出一个鼓点就让所有卫兵大声喊出他们所看到的；在所有的呼喊声中，有多容易能听到其中一个卫兵在远方的森林边缘发现敌人？

在21世纪，鼓声就是电子频率信号，卫兵则是像素(pixel)——有大量数据被创造出来，并且必须在每个频率周期被检验，这意味着存在大量冗余信息和需要大量不必要的运算。

“人们正在消耗如此大的能量，用一整个城堡的运算能力来保护自己；”Benosman形容，如果侦测到一个有趣的事件，也就是敌人，“你必须绕一大圈收集无用的信息，到处都有人在呼喊，所以要有很大的带宽…你可以想象有一座复杂的城堡，所有卫兵的声音都必须被听到。”

进入到神经形态视觉时代，该技术的基本想法是受到生物系统运作方式的启发，即侦测周遭场景动态的变化，而不是持续分析整个场景。在前面的城堡比喻中，这意味着让卫兵保持安静，直到看见让他们感兴趣的东西，然后喊出他们的位置以发出警报──在电子版本中，这代表让个别像素决定它们是否看到关系重大的东西。

“像素可以自行决定它们应该发送什么信息，而不是获取系统性信息来寻找有意义的信息-特征(feature)，”他说：“这就是与众不同之处。”相较于与固定频率的系统性信息获取，这种事件导向方法可以大幅节省电力并降低延迟。

“你想要一些更具适应性的东西，这就是事件导向视觉的相对性变化可以提供的，适应性的信息获取频率；”Benosman表示：“当你观察振幅变化(amplitude change)，如果某个东西动得很快，就会得到很多样本；而如果有的东西没有改变，得到的样本几乎为零。所以你是根据场景动态来调整信息获取频率，这就是该技术带来的好处，以及为什么它是好设计。”

Benosman是在2000年进入神经形态视觉领域，深信先进的计算机视觉技术可能永远无法发挥作用，因为使用图像不是正确的方法。他指出：“最大的转变是说我们可以在没有灰阶、没有图像的情况下实现视觉，这在2000年底那时候被视为异端邪说——完全是在胡说八道。”

而因为Benosman所提出的技术——也就是今日事件导向感测的基础——是如此不同，导致他将论文投稿至当时最重要的IEEE计算机视觉期刊，还没经过审查就被拒绝了。实际上，直到2008年动态视觉传感器(DVS)的开发，才让该技术开始取得动力。

一些Prophesee的客户应用，展现摄影机和DVS传感器输出的差异。

(来源：Prophesee)

神经科学的启发

神经形态技术是受到生物系统启发，包括终极计算机──即人脑，以及其操作数件──即神经元(neurons)。但问题是，没有人完全理解神经元是如何运作的，虽然我们知道神经元会对被称为棘波(spikes)的馈入电子信号起作用，但直到最近，研究人员对神经元的特征描述仍相对草率，认为只有棘波数量重要；这种假设持续了几十年，不过近期研究结果证明，棘波出现的时机绝对关键，人脑的架构会在这些棘波中产生延迟，以进行信息编码。

今日的棘波神经网络(spiking neural network)就是仿真人脑中的棘波信号，是真实事物的简化版本——通常是棘波的二进制表示。Benosman解释：“当我收到一个1，我就醒来，我运算，我睡觉；”而现实世界要复杂得多，当棘波到来时，神经元开始对随着时间变化对棘波值计算积分；神经元也会漏电(leakage)，这意味着其结果是动态的。

人脑大约有50种不同类型的神经元，伴随着50种不同的积分组合；今日的电子版本缺少积分的动态途径、神经元之间的连结，还有不同的权重与延迟。“问题在于要打造出有效的产品，你无法模仿所有的复杂性，因为我们不了解它；”他表示：“如果我们有完善的人脑理论，我们可望解决这个问题——可惜我们就是知道的不够多。”

Bensoman目前主持了一个独特的实验室，致力于了解大脑皮质运算背后的数学，目标是打造新的数学模型，并将其复制为硅组件；他的研究包括直接监测来自真实视网膜的棘波。不过就目前来看，他反对尝试如实复制生物神经元，并将之形容为一种过时的方法。

“以硅组件来复制神经元的想法之所以出现，是因为人们看着晶体管也看到了一个看起来像真正神经元的机制，所以在一开始在背后有这样的一些想法；”他表示：“我们没有细胞，我们有硅组件，你需要适应你的运算基板，而不是反过来…如果我知道我要算什么而且我有芯片，我可以优化这个方程式，并且以最低的成本、最低的功耗与最低的延迟来执行。”

处理能力

初期版本的DVS摄影机具备“粗大”的像素，是因为该光电二极管本身周遭的零件，显著地降低了填充因子(fill factor)。虽然对开发这类摄影机的投资加速了该技术的进展，但Benosman也明确表示，今日的事件导向摄影机只是对早在2000年就开发的原始实验装置之改良版。

法國新創公司Prophesee和Sony合作開發的DVS感測器評估套件；Benosman是Prophesee的共同創辦人。 (來源：Prophesee)

由Sony、Samsung与Omnivision开发的尖端DVS摄影机，拥有微小的像素，融合了3D堆栈等先进技术并降低了噪声。Benosman担心的是，今日被使用的传感器类型能否成功地扩大规模；”问题在于一旦增加像素数量，就可以取得大量数据，因为运作的速度仍然非常快，仍然可以实时处理。但是你会从太多的像素中得到太多的相对变化，这现在让所有人都想死，因为他们看到其潜力所在，却没有适当的处理器来支持。”

通用型神经形态处理器远远落后于它们的DVS摄影机同伴，一些大厂的开发工作──如IBM的Truenorth以及Intel的Loihi──仍在进行中。Benosman表示，适当的处理器搭配适当的传感器，就会是无敌的组合；”现在的DVS传感器速度极快，占用带宽超低，且支持高动态范围，因此能看室内、也能看室外；这是未来趋势…它会起飞吗？绝对会！”

他的结论是：”谁能可以开发出适当处理器并提供完整的堆栈，谁就赢了；因为那样的组合将会是天下无敌。”

本文同步刊登于台湾版《电子工程专辑》杂志 2022 年 6 月刊

责编：Judith Cheng

(参考原文：A Shift in Computer Vision is Coming，By Sally Ward-Foxton)

责编：Amy.wu

本文为EET电子工程专辑原创文章，禁止转载。请尊重知识产权，违者本司保留追究责任的权利。