情境感知设备,如嵌入式智能手机键盘,其实并非新生事物,尽管形式非常有限。通过学习经常使用的名称、地点和短语,它们将能够预测你的下一步行动,也就是预测性文本。同样,但在更高的层次上,下一代智能音频设备将结合用户特定的数据,如位置、偏好和包括音频在内的其他设备传感器数据,更好地为用户服务。
今天的许多声控设备都能听懂、解释并执行指令。然而,它们并不具备情境感知能力。例如,智能音箱可能知道一系列著名艺术家的名字,但如果你经常要求它搜索一个冷门乐队,它就无法理解和学习你的喜好。如果没有情境感知,智能音箱很难提供理想的用户体验。
下一代“始终监听”设备使用机器学习来了解用户。情境感知让自然的声音、大城市的喧嚣、用户的声音等等都变得有意义。设备利用信号处理技术和机器学习技术,建立了一个“声学场景”和“声学事件”库。声学场景可能是繁忙的餐厅、上下班的路上,也可能是在家看你最喜欢的节目。另一方面,声学事件是在任何场景中都能听到的特定声音,比如收银机的鸣响、喇叭声或孩子的哭声。
例如,将情境感知的声学事件识别添加到家庭服务机器人中,已被证明对监控老年人并使他们能够继续独立生活非常有用。通过将某些声学事件归类为“警报”,机器人可以自动呼叫相关的紧急服务机构或家庭成员。典型事件可以是烟雾报警声,也可以更细微,比如悄无声息的厨房场景。
更多有用的语音助手
另一个可以从情境感知中获益的应用是语音助手。例如,亚马逊的Alexa就在其Guard功能中加入了情境感知,以更有效地保护家庭安全。离开家时,用户告诉Alexa“我要走了”。Guard功能会利用这个情境来激活警报监听功能。内置的音频分析技术会自动识别关键的声音事件,例如烟雾或一氧化碳警报和玻璃破碎。当它在用户外出期间接收到玻璃破碎的声音,它就会发出智能警报。
很多其他应用也可以利用音频分析来提高整体的安全性。例如,它可以与视频监控系统结合,加强对智慧城市中的人员或大中小学生的保护。
处理数据
要解读来自多个传感器的所有数据,需要精确的声学场景分类和事件识别。这个过程需要实时发生,同时保证每个传感器的误差或偏差都被考虑在内,避免不断重新校准。传感器融合,或传感器处理,将用户的数据与音频数据结合起来,为语音指令带来上下文,使设备能够更准确地响应。个人数据的使用可能存在隐私问题,但由于处理是在设备内部进行的,因此安全漏洞的风险大大降低。
像CEVA的SenslinQ这样的平台集成了所有必要的硬件和固件,可以自动汇总传感器数据,为智能设备创建上下文感知。它使用过滤技术和信号处理,并应用先进的算法来创建“上下文使能器”。包括活动分类、语音和声音检测以及存在和接近检测。通过将传感器处理的工作负载集中起来,并将上下文使能器融合到芯片上,设备将开始理解并适应周围的环境。
作者:Elia Shenberger,CEVA声音事业部业务拓展总监