本公开涉及使用摄像机阵列捕捉场景图像的操作、系统和计算机可读媒体,并基于观众的沉浸式增强现实、实时显示墙、头戴显示器、视频会议和类似应用程序的视角处理捕获的图像。在一个实现中,公开的技术方案通过组合相机阵列拍摄的图像向观看者提供了全视点的场景再现。在另一个实现中,公开的技术方案通过实时跟踪观看方视点(POV)的变化实现了观看方视点与相应场景图像的实时同步:一个位置移动到另一个位置时的POV,根据不同的POV显示图像,观众POV的变化包括X、Y和Z维度的运动。
01背景
近年来,沉浸式增强现实,显示墙,头戴式显示器和视频会议的使用频率越来越高。例如视频会议,它是在两方或更多方之间进行的在线会议,整个会议期间,参与各方都可以相互听到语音并且看到彼此的视频图像。在只有两方参与者的视频会议中,每一方都可以通过各自终端参与,这些终端包括台式计算机系统,平板计算机系统,电视屏幕,显示墙或智能电话。这些终端通常包括用于获取音频信号的麦克风,用于拍摄图像的网络摄像头,用于处理这些音频和视频信号的一组硬件和/或软件,用于在各方之间传输数据的网络连接,用于播放语音的扬声器,以及用于显示图像的显示器。在这样的传统设置中,用户只能在固定视点下看到参与各方以及他们所在的场景。简单地说,用户只能看到彼此网络摄像头拍摄到的内容。此外,当观众在会议期间从一个位置移动到另一个位置时,他们的相应视点(POV)可能也会发生改变。然而,由于彼此所在场景中图像拍摄的限制,观看者只能始终以固定的视点进行视频交流。
本公开发明描述了一种涉及也可能直接用于沉浸式增强现实,现场显示墙,头戴式显示器和视频会议应用的图像拍摄和处理技术。在一个实施例中,这里所公开的技术方案通过组合相机阵列拍摄的图像向观看者提供了全视点的场景图像。在另一个实施例中,这里所公开的技术方案通过实时跟踪观看方的位置(POV)变化实现了观看方视点与相应场景图像的同步。这里,观看方的POV变化已经涵盖在整个系统计算空间的X,Y和Z维度内。
根据其中的一个实施例,例如,在视频会议期间,与会各方通过各自的终端参与。这些终端一般都包括显示器,相机阵列,图像处理单元(硬件和/或软件),以及网络连接(例如,通过电缆和/或无线连接)。每个相机阵列又都包括多个相机,可以拍摄各种格式的图像(例如 RGB,YUV,YCC等)。此外,这种相机阵列或者可以直接拍摄得到深度信息,或者基于某些技术(例如,结构光,飞行时间,立体图像等)拍摄到能够计算深度信息的图像,或者通过其他方式计算出一方所在场景的深度信息同时跟踪该方的POV(例如,该方头部和/或眼睛位置所决定的视点)。表征观看方POV的数据会通过他的终端发送并被另一方的终端通过网络接收到。该接收方终端内的图像处理单元会基于上述观看方的POV特征数据处理其所拍摄到的图像。
特别地,这里的图像处理操作可能包括剔除操作,即基于观看方的POV特征数据对拍摄到的图像进行像素修剪和识别。该剔除操作的目的是减少后续图像处理的数据量。由于剔除过后的数据最终会从一方转移到另一方,因此剔除操作可以大幅减少网络间传输的数据量,节省带宽并降低延迟。在剔除之后,图像处理单元会进一步将剩余的三维(3-D)像素映射到一个二维的(2-D)显示空间。接下来,这些映射像素构成的数据包会由一个终端发送并被观看方终端通过网络接收到。
随后,观看方终端内的图像处理单元会混合这些映射的像素并组装成被显示器显示的图像(即一“帧”画面)。单独地理解,观看方的终端可以使用说话方的POV特征数据处理观看方拍摄到的图像。观看方终端内的图像处理操作可以是说话方终端内这些操作的“镜像”处理。如本领域普通技术人员应当理解的,这里使用术语“说话方(Speaker)”和“观看方(Viewer)”来方便我们对所公开概念的解释。
在一个视频会议中,各方对于其他方都可以称作说话方和观看方。因此,上述以观看方和说话方描述的图像拍摄和处理操作会在每一方的终端内同时且持续地进行。这样就为每一方都提供了基于该方POV的他方连续显示的帧图像(即实况视频)。此外,这里的相机阵列可以单独接入整个系统,也可以集成到各方的显示模块中。对于诸如沉浸式增强现实,现场显示墙和头戴式显示器之类的应用,可能始终只有一个观看方,这些终端不对称,可能只在被拍摄方有相机阵列,拍摄的场景信息仅用于在观看方的显示器上显示。观看方的POV可以用一个或多个摄像机或其他设备跟踪,这些相机和前述相机阵列的目的不同而专用于跟踪目的。
美国专利和商标局今天公开了苹果公司新授予的41项专利。在下面这份报告中,我们会特别介绍这些专利中一项:用于增强现实应用的智能眼镜发明。实际上,苹果早在2015年就已经通过收购的方式从Metaio手中获得了该专利。
用于苹果智能眼镜和iPhone的增强现实系统
图1A
苹果刚授予的这项专利涵盖了与头戴式增强现实显示相关的发明。当年收购德国公司Metaio时,该发明专利就一并被苹果继承。此专利的唯一发明人是Metaio 公司当时的负责人Peter Meier,而现在他则是技术开发团队中的算法负责人。
如图1A所示,用户佩戴的是一套头戴式显示系统(“头戴式显示器”,全称为Head Mounted Display,缩写为HMD),具体包括作为这个系统装置(#20)一部分的显示器(#21)。这种显示器可以是现在被广泛使用的半透半反式智能眼镜(也称作“光学透明显示器”),这种半透半反式智能眼镜反射的正是由计算机#23(比如智能手机)提供的虚拟信息。
通过这种现实世界和虚拟世界信息的混合,用户借助上述半透半反智能眼镜最终可以看到融入计算机提供的虚拟对象的真实世界(#40),比如与现实世界相关的兴趣对象(POI,Point of Interest)。以这种方式,该系统装置就构成了多数人理解的增强现实(AR)系统,同时这也是该专利的第一个实施例。
该系统装置中的显示器可以具有一个附加的传感器(#24),例如旋转传感器,以及在该旋转传感器上安装的用于光学跟踪的相机(#22)。这里的显示器可以是半透明的进而允许用户直接看到现实世界,也可以是通过相机拍摄后发送到视野内的现实世界的图像。
上图图示中的1B示意了另一种被智能手机行业设计人员广为应用的示例性系统装置(#30)。该显示装置#31(其形式一般是一种显示屏或显示器),结合计算机(#33),传感器(#4)和照相机(#32)则构成了一个可以放进智能电话壳体内的系统单元。
基本上,本报告介绍的这项发明可以很方便地用于所有形式AR产品的设计。实际上,上述实施例中的系统并不一定需要使用基于半透半反头戴式显示器的透明显示方式,同样也不一定需要使用旋转相机和显示器来获得现实世界的图像作为背景。
从本质上说,本发明还可以与现有的立体显示器(Stereoscopic display)结合使用。在这种应用中,上述“视频透视”的方法(Video see-through approach,即使用相机拍摄现实世界的图像作为另一种方法中直接看到的现实世界)在系统中使用两个相机(效果更佳),每个相机用于记录相应一只眼睛所看到的视频流。通过这种设计,在任何情况下,系统都可以针对每只眼睛单独计算虚拟的3D信息。
苹果的这项授权专利最初于2015年第四季度提交,直至今天由美国专利和商标局发布。
来源:维映、Patentlyapple
编译:山海观、Peter
编辑:Susie,Ann