苹果(Apple)的Siri开启在移动终端利用语音助理的趋势,接着是Google Now以及微软(Microsoft)的Cortana ,但功能都仅止于模仿原创的有限设计。虽然这些语音助理都能以语音回答你在因特网就能查询到的问题,但美国密歇根大学(安娜堡分校)的研究人员们最近开发出一款免费的开放源码Sirius,不仅功能更胜一筹,能实现一般语音助理无法完成的任务,而且还能让用户客制一些前所未有的新功能。
“我们结合了最佳开放源码算法的最佳功能,再加上Siri、Now和Cortana所没有的新功能,”密歇根大学计算机科学与工程系助理教授兼Clarity Lab(开发 Sirius 的实验室)主任Jason Mars表示。
例如,透过Sirius ,你可以为建筑物、纪念碑与动物等几乎所有的东西拍照,然后提始提问——如(建筑物内餐厅的)开放时间,或(纪念碑)什么时候建造的?或是(某种动物)的天然食物是什么等等。事实上, Siri、Now和Cortana利用的数据库和Sirius一样,只不过在答复一些需要一次利用更多数据的问题时,并未有效地发挥整合的能力。
Jason Mars和Clarity Labs的另一名主任Lingjia Tang,以及博士研究生Johann Hauswald与Yiping Kang,共同致力于开发超越Siri 、Now 与 Cortana 但又不至于与其竞争的新功能。事实上,他们最初的动机在于调查未来云端服务需要什么类型的资源。为了验证其假设,他们需要一种“来自未来”的应用程序。从定义上来看,由于这并非唾手可得,因此必须动手制作。在调查发现开放源码的Unix资源可用后,他们创造出一个更好的Siri ,因此为其命令为 Sirius 。
密歇根大学教授Lingjia Tang与Jason Mars,以及博士研究生Johann Hauswald与Yiping Kang共同分享Sirius计划的成功结果。(来源:Universityn of Michigan)
“这项计划十分成功,现在我们不仅仍在调查未来的服务器需要什么资源——因为 Siri 、 Now 与 Cortana 的服务大多都在云端服务器中执行,此外,我们也研究手持装置中的四核与八核处理器如何有助于卸除侵服器的部分工作量。”
就像《科学怪人》(Frankenstein)一样, Sirius从Unix社群中找到的片段加以拼凑,服务器端则执行于任何基于Unix的设备上 ——从低成本的200美元Linux设备到中等价位的500美元Mac-minis,到昂贵的3,000美元 Apple Mac Pro。由于其接口以网络为基础,因此,任何智能手机都可以从自己的个人云端服务器存取 Sirius (或从专业的云端服务器下载免费的 Sirius 代码)。
就像Google Now一样,Sirius可同时利用文字或语音进行查询。(来源:Universityn of Michigan)
{pagination}
针对语音识别,研究人员在服务器端移植Sirius功能,包括卡内基梅隆大学(Carnegie Mellon University)的 Kaldi 以及德国的亚琛工业大学(RWTH Aachen)的 RASR 等。至于问答引擎,研究人员们在 OpenEphyra (IBM华生的上一代)进行移植。而在图像识别方面,研究人员们则在瑞士Kooaba (最近被高通收购)开发的 SURF 服务器进行。
Sirius还可以回答有关图片或视频的问题,告诉你图中的建筑物为何,以及其历史起源等等。(来源:Universityn of Michigan)
Mars及其研究团队的最终目标在于确保服务器已经准备就绪,透过加强云端服务器与合适的硬件,从有限的可穿戴设备资源中为用户提供快速且丰富的体验,以及更有效地利用未来在智能手机中的8核与16核处理器,从服务器中卸除部分任务。
根据研究人员的估算,利用智能手机将语音翻译成文字,将会使服务器的工作负载增加100倍以上(相较于简单的文本查询),因为服务器必须先了解“语音转文字”查询代表什么意思。但如果让语音成为架构网络搜寻的主要方式,那么数据中心的服务器将必须提升165倍以上。然而,为服务器增加合适的资源,例如GPU,以及更智能地编程智能手机,可大量减轻服务器的负担。根据研究人员计算,利用GPU作为标准服务器设备,可使速度提高10倍,而增加FPGA则可提升16倍以上的速度。
在Mars研究团队的发现中,最酷的结果是:利用 API 与 Sirius ,可为智能手机与可穿戴设备轻松打造出个人化的开放源码数字助理,无论采用任何操作系统。只要在装置中添加算法,每一位用户都能够定制化自已的Sirius ,使其为特定应用进行优化。
Sirius 将在3月14日举行的“国际编程语言与操作系统架构支持大会”上发布,同时,开始开放免费下载可存取 Wikipedia 的语音助理,但也可客制化存取其他数据库。事实上,研究人员正与IBM密切合作,共同为学术咨询建立一个兼容的数据库。
翻译:Susan Hong
本文授权翻译自EE TIMES,谢绝转载