斯坦福大学生成立初创公司Sanas打造实时口音转换AI解决口音问题

IEEE电气电子工程师学会 2021-12-07 21:36 1740浏览 0评论 0点赞

EPC专家实战拆解：电机能效优化技巧 热风险清零！西门子EDA黑科技，让3D IC散热设计稳如泰

点击蓝字关注我们

SUBSCRIBE to US

In 2020, Stanford students Shawn Zhang, Maxim Serebryakov, and Andres Perez Soderi [left to right] founded the AI-powered accent-translation company Sanas. SANAS

斯坦福大学以其国际化的多样性而自豪，表示其现今的大学生来自于70个国家。其中，有这样一个来自中国的计算机科学专业学生、一个来自俄罗斯的以人工智能为重点的管理科学与工程（MSE）专业学生、和来自委内瑞拉的以商业为导向的MSE专业的学生共同打造了这样一个初创公司。

随着疫情的开爆发，开始了后面的“故事”。

Andres Perez Soderi回忆道：“由于疫情，斯坦福的一切都变成了线上（他是来自委内瑞拉的三人成员之一）。我们分散在湾区、旧金山、以及帕洛阿尔托，我们在网上保持联系。”但与此同时，他们产生了一个新想法 —— 这是通过与另一位朋友的对话而受到启发的。这位朋友是计算机科学专业的学生，他回到了位于危地马拉的家，在那里他在一家呼叫中心找到了一份工作，负责技术支持，以支持他的家庭生活。

Soderi表示：“当他得到这份工作时，我们告诉他，他将成为最好的技术支持人员，他是我们见过的最聪明的人，脸上总是挂着微笑。”但可惜的是，这项工作并没有持续多久。他的客户满意度太低，因为打电话的人很难听懂他的口音，会因此大发雷霆。

Soderi说：“于是我们有了一个想法，我们决定帮助世界理解，并且希望被理解。”

“我们围绕过去人们所做的事情做了很多研究。人们对deep fake进行了语音转换，这项技术相当先进。但在口音翻译方面做得很少。所以，比如说，如果我使用现有的系统让我听起来像蝙蝠侠，我会听起来更像一个带中国口音的蝙蝠侠，”Shawn Zhang说 —— 这位成员来自中国。

“我们知道减少口音疗法，并被教导模仿别人说话的方式以便与他们交流。但以我们的经验中可以清楚了解，强迫自己使用不同的口音是不舒服的。我上了一所英国高中，试图强迫自己使用英国口音 —— 这是一种难以消化的经历。我们认为如果我们允许软件翻译口音，那么就可以帮助人们更自然地说话了，”Soderi说。

“我们的第一个方法很幼稚，”Zhang说，“我们建立了一个系统，将语音转换为文本，然后再将文本转换为语音。”这对于他们的最终目标——实时对话来说并不是特别有用。因此，他们开始考虑如何构造数据，用于训练神经网络，将口音直接转换为语音输出。他们向斯坦福大学的教授和业内专家寻求建议。

同时，他们提交了文件，成立了一家名为Sanas的公司。

这个名字来自于对随机音节的搜索，寻找一些听起来不错并且可以使用的东西。之所以是Sanas的原因是因为这是一个回文，它原来是指一些古拉丁语形式的耳语或声音。他们将首席技术官的头衔授予Zhang，首席财务官授予Soderi，首席执行官授予Maxim Serebryakov。

这一切都发生在2020年上半年，事情继续快速发展。Sanas现在有14名全职工程人员，包括创始人，还有三名兼职开发人员，另外还有两名在业务方面工作的员工。现在，所有这些都可以远程工作，并在国际上推广。该公司在五月底完成了一轮550万美元的种子融资，那时候距离Zhang的21岁生日还有几个月，总投资达到了约600万美元。

种子轮融资期间的领导者Human Capital公司总裁兼联合创始人Baris Akis当时表示：“作为一名土耳其移民，我一直认为消除口音障碍是建立一个更加公平和繁荣的世界的关键下一步。”

如今，Sanas拥有一种算法，可以将英语转换成美国、澳大利亚、英国、菲律宾和西班牙口音。他们利用神经网络开发了它，并用专业配音演员录制的大部分录音进行训练。

Zhang说，“需要做的并不仅仅是音频信号处理，改变音高和音调。你必须改变语音。因此，我们确实需要平行数据集，由读者使用相同的源材料创建，这样神经网络就可以学习从一个映射到另一个，检查两者以学习如何转换发音。”

该算法在本地CPU上运行（不在云中），延迟150毫秒，语音质量与电话音频相当，与Zoom、Skype和WhatsApp等通信应用程序协同工作。典型的缩放延迟约为50毫秒，使总延迟约为200毫秒。Soderi指出，一般来说，在音频通信中，低于300到350毫秒的任何东西都是无法察觉的，所以用户不会注意到延迟。该算法在CPU使用率方面是有效的。

但与此同时，Zhang承认，确实还有很大的改进空间，“我们正在努力使声音更清晰、更自然、更悦耳；这将是一个持续的过程。”

该团队计划在英语中添加更多的口音，但也会加入更多其他语言的口音，包括西班牙语和法语。

他们的第一批客户将是外包公司，这些公司被雇佣来提供客户服务和其他电话支持功能。目前有七家这样的公司正在试验这一系统。

“但这只是我们的第一个用例，”Zhang说，“因为这是一个可测量和受控的环境。我们不认为自己是一家呼叫中心公司，我们希望进入医疗、娱乐、教育和其他领域。我们希望将其开发为一种工具，帮助人们进行人与人之间的互动，同时不损害他们的文化身份。”