斯坦福大学生成立初创公司Sanas打造实时口音转换AI解决口音问题

点击蓝字 关注我们

SUBSCRIBE to US


In 2020, Stanford students Shawn Zhang, Maxim Serebryakov, and Andres Perez Soderi [left to right] founded the AI-powered accent-translation company Sanas.     SANAS


斯坦福大学以其国际化的多样性而自豪,表示其现今的大学生来自于70个国家。其中,有这样一个来自中国的计算机科学专业学生、一个来自俄罗斯的以人工智能为重点的管理科学与工程(MSE)专业学生、和来自委内瑞拉的以商业为导向的MSE专业的学生共同打造了这样一个初创公司。


随着疫情的开爆发,开始了后面的“故事”。


Andres Perez Soderi回忆道:“由于疫情,斯坦福的一切都变成了线上(他是来自委内瑞拉的三人成员之一)。我们分散在湾区、旧金山、以及帕洛阿尔托,我们在网上保持联系。”但与此同时,他们产生了一个新想法 —— 这是通过与另一位朋友的对话而受到启发的。这位朋友是计算机科学专业的学生,他回到了位于危地马拉的家,在那里他在一家呼叫中心找到了一份工作,负责技术支持,以支持他的家庭生活。


Soderi表示:“当他得到这份工作时,我们告诉他,他将成为最好的技术支持人员,他是我们见过的最聪明的人,脸上总是挂着微笑。”但可惜的是,这项工作并没有持续多久。他的客户满意度太低,因为打电话的人很难听懂他的口音,会因此大发雷霆。


Soderi说:“于是我们有了一个想法,我们决定帮助世界理解,并且希望被理解。”


“我们围绕过去人们所做的事情做了很多研究。人们对deep fake进行了语音转换,这项技术相当先进。但在口音翻译方面做得很少。所以,比如说,如果我使用现有的系统让我听起来像蝙蝠侠,我会听起来更像一个带中国口音的蝙蝠侠,”Shawn Zhang说 —— 这位成员来自中国。


“我们知道减少口音疗法,并被教导模仿别人说话的方式以便与他们交流。但以我们的经验中可以清楚了解,强迫自己使用不同的口音是不舒服的。我上了一所英国高中,试图强迫自己使用英国口音 —— 这是一种难以消化的经历。我们认为如果我们允许软件翻译口音,那么就可以帮助人们更自然地说话了,”Soderi说。


“我们的第一个方法很幼稚,”Zhang说,“我们建立了一个系统,将语音转换为文本,然后再将文本转换为语音。”这对于他们的最终目标——实时对话来说并不是特别有用。因此,他们开始考虑如何构造数据,用于训练神经网络,将口音直接转换为语音输出。他们向斯坦福大学的教授和业内专家寻求建议。


同时,他们提交了文件,成立了一家名为Sanas的公司。


这个名字来自于对随机音节的搜索,寻找一些听起来不错并且可以使用的东西。之所以是Sanas的原因是因为这是一个回文,它原来是指一些古拉丁语形式的耳语或声音。他们将首席技术官的头衔授予Zhang,首席财务官授予Soderi,首席执行官授予Maxim Serebryakov。


这一切都发生在2020年上半年,事情继续快速发展。Sanas现在有14名全职工程人员,包括创始人,还有三名兼职开发人员,另外还有两名在业务方面工作的员工。现在,所有这些都可以远程工作,并在国际上推广。该公司在五月底完成了一轮550万美元的种子融资,那时候距离Zhang的21岁生日还有几个月,总投资达到了约600万美元。


种子轮融资期间的领导者Human Capital公司总裁兼联合创始人Baris Akis当时表示:“作为一名土耳其移民,我一直认为消除口音障碍是建立一个更加公平和繁荣的世界的关键下一步。”


如今,Sanas拥有一种算法,可以将英语转换成美国、澳大利亚、英国、菲律宾和西班牙口音。他们利用神经网络开发了它,并用专业配音演员录制的大部分录音进行训练。


Zhang说,“需要做的并不仅仅是音频信号处理,改变音高和音调。你必须改变语音。因此,我们确实需要平行数据集,由读者使用相同的源材料创建,这样神经网络就可以学习从一个映射到另一个,检查两者以学习如何转换发音。”


该算法在本地CPU上运行(不在云中),延迟150毫秒,语音质量与电话音频相当,与Zoom、Skype和WhatsApp等通信应用程序协同工作。典型的缩放延迟约为50毫秒,使总延迟约为200毫秒。Soderi指出,一般来说,在音频通信中,低于300到350毫秒的任何东西都是无法察觉的,所以用户不会注意到延迟。该算法在CPU使用率方面是有效的。


但与此同时,Zhang承认,确实还有很大的改进空间,“我们正在努力使声音更清晰、更自然、更悦耳;这将是一个持续的过程。”


该团队计划在英语中添加更多的口音,但也会加入更多其他语言的口音,包括西班牙语和法语。


他们的第一批客户将是外包公司,这些公司被雇佣来提供客户服务和其他电话支持功能。目前有七家这样的公司正在试验这一系统。


“但这只是我们的第一个用例,”Zhang说,“因为这是一个可测量和受控的环境。我们不认为自己是一家呼叫中心公司,我们希望进入医疗、娱乐、教育和其他领域。我们希望将其开发为一种工具,帮助人们进行人与人之间的互动,同时不损害他们的文化身份。”


微信号|IEEE电气电子工程师

新浪微博|IEEE中国

 · IEEE电气电子工程师学会 · 


往期推荐


推荐阅读

IEEE 2022新晋Fellow名单正式公布


11-25 IEEE

新常态:2022年及以后的新常态


12-01 IEEE Transmitter

可持续性的商业必要性


12-06 IEEE Transmitter

澳大利亚初创公司研发新体系电池 或将超越液流电池?


12-03 JOHN BOYD



IEEE电气电子工程师学会 IEEE是全球最大的专业技术协会之一,一直致力于推动电气电子技术在理论方面的发展和应用方面的进步。IEEE在全球160多个国家有超过四十万名会员。
评论
  • 临近春节,各方社交及应酬也变得多起来了,甚至一月份就排满了各式约见。有的是关系好的专业朋友的周末“恳谈会”,基本是关于2025年经济预判的话题,以及如何稳定工作等话题;但更多的预约是来自几个客户老板及副总裁们的见面,他们为今年的经济预判与企业发展焦虑而来。在聊天过程中,我发现今年的聊天有个很有意思的“点”,挺多人尤其关心我到底是怎么成长成现在的多领域风格的,还能掌握一些经济趋势的分析能力,到底学过哪些专业、在企业管过哪些具体事情?单单就这个一个月内,我就重复了数次“为什么”,再辅以我上次写的:《
    牛言喵语 2025-01-22 17:10 41浏览
  • Ubuntu20.04默认情况下为root账号自动登录,本文介绍如何取消root账号自动登录,改为通过输入账号密码登录,使用触觉智能EVB3568鸿蒙开发板演示,搭载瑞芯微RK3568,四核A55处理器,主频2.0Ghz,1T算力NPU;支持OpenHarmony5.0及Linux、Android等操作系统,接口丰富,开发评估快人一步!添加新账号1、使用adduser命令来添加新用户,用户名以industio为例,系统会提示设置密码以及其他信息,您可以根据需要填写或跳过,命令如下:root@id
    Industio_触觉智能 2025-01-17 14:14 121浏览
  • 现在为止,我们已经完成了Purple Pi OH主板的串口调试和部分配件的连接,接下来,让我们趁热打铁,完成剩余配件的连接!注:配件连接前请断开主板所有供电,避免敏感电路损坏!1.1 耳机接口主板有一路OTMP 标准四节耳机座J6,具备进行音频输出及录音功能,接入耳机后声音将优先从耳机输出,如下图所示:1.21.2 相机接口MIPI CSI 接口如上图所示,支持OV5648 和OV8858 摄像头模组。接入摄像头模组后,使用系统相机软件打开相机拍照和录像,如下图所示:1.3 以太网接口主板有一路
    Industio_触觉智能 2025-01-20 11:04 150浏览
  • 随着消费者对汽车驾乘体验的要求不断攀升,汽车照明系统作为确保道路安全、提升驾驶体验以及实现车辆与环境交互的重要组成,日益受到业界的高度重视。近日,2024 DVN(上海)国际汽车照明研讨会圆满落幕。作为照明与传感创新的全球领导者,艾迈斯欧司朗受邀参与主题演讲,并现场展示了其多项前沿技术。本届研讨会汇聚来自全球各地400余名汽车、照明、光源及Tier 2供应商的专业人士及专家共聚一堂。在研讨会第一环节中,艾迈斯欧司朗系统解决方案工程副总裁 Joachim Reill以深厚的专业素养,主持该环节多位
    艾迈斯欧司朗 2025-01-16 20:51 195浏览
  •     IPC-2581是基于ODB++标准、结合PCB行业特点而指定的PCB加工文件规范。    IPC-2581旨在替代CAM350格式,成为PCB加工行业的新的工业规范。    有一些免费软件,可以查看(不可修改)IPC-2581数据文件。这些软件典型用途是工艺校核。    1. Vu2581        出品:Downstream     
    电子知识打边炉 2025-01-22 11:12 49浏览
  • 嘿,咱来聊聊RISC-V MCU技术哈。 这RISC-V MCU技术呢,简单来说就是基于一个叫RISC-V的指令集架构做出的微控制器技术。RISC-V这个啊,2010年的时候,是加州大学伯克利分校的研究团队弄出来的,目的就是想搞个新的、开放的指令集架构,能跟上现代计算的需要。到了2015年,专门成立了个RISC-V基金会,让这个架构更标准,也更好地推广开了。这几年啊,这个RISC-V的生态系统发展得可快了,好多公司和机构都加入了RISC-V International,还推出了不少RISC-V
    丙丁先生 2025-01-21 12:10 112浏览
  • 本文介绍瑞芯微开发板/主板Android配置APK默认开启性能模式方法,开启性能模式后,APK的CPU使用优先级会有所提高。触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。源码修改修改源码根目录下文件device/rockchip/rk3562/package_performance.xml并添加以下内容,注意"+"号为添加内容,"com.tencent.mm"为AP
    Industio_触觉智能 2025-01-17 14:09 164浏览
  • 数字隔离芯片是一种实现电气隔离功能的集成电路,在工业自动化、汽车电子、光伏储能与电力通信等领域的电气系统中发挥着至关重要的作用。其不仅可令高、低压系统之间相互独立,提高低压系统的抗干扰能力,同时还可确保高、低压系统之间的安全交互,使系统稳定工作,并避免操作者遭受来自高压系统的电击伤害。典型数字隔离芯片的简化原理图值得一提的是,数字隔离芯片历经多年发展,其应用范围已十分广泛,凡涉及到在高、低压系统之间进行信号传输的场景中基本都需要应用到此种芯片。那么,电气工程师在进行电路设计时到底该如何评估选择一
    华普微HOPERF 2025-01-20 16:50 73浏览
  • 2024年是很平淡的一年,能保住饭碗就是万幸了,公司业绩不好,跳槽又不敢跳,还有一个原因就是老板对我们这些员工还是很好的,碍于人情也不能在公司困难时去雪上加霜。在工作其间遇到的大问题没有,小问题还是有不少,这里就举一两个来说一下。第一个就是,先看下下面的这个封装,你能猜出它的引脚间距是多少吗?这种排线座比较常规的是0.6mm间距(即排线是0.3mm间距)的,而这个规格也是我们用得最多的,所以我们按惯性思维来看的话,就会认为这个座子就是0.6mm间距的,这样往往就不会去细看规格书了,所以这次的运气
    wuliangu 2025-01-21 00:15 183浏览
  • 日前,商务部等部门办公厅印发《手机、平板、智能手表(手环)购新补贴实施方案》明确,个人消费者购买手机、平板、智能手表(手环)3类数码产品(单件销售价格不超过6000元),可享受购新补贴。每人每类可补贴1件,每件补贴比例为减去生产、流通环节及移动运营商所有优惠后最终销售价格的15%,每件最高不超过500元。目前,京东已经做好了承接手机、平板等数码产品国补优惠的落地准备工作,未来随着各省市关于手机、平板等品类的国补开启,京东将第一时间率先上线,满足消费者的换新升级需求。为保障国补的真实有效发放,基于
    华尔街科技眼 2025-01-17 10:44 221浏览
  •  万万没想到!科幻电影中的人形机器人,正在一步步走进我们人类的日常生活中来了。1月17日,乐聚将第100台全尺寸人形机器人交付北汽越野车,再次吹响了人形机器人疯狂进厂打工的号角。无独有尔,银河通用机器人作为一家成立不到两年时间的创业公司,在短短一年多时间内推出革命性的第一代产品Galbot G1,这是一款轮式、双臂、身体可折叠的人形机器人,得到了美团战投、经纬创投、IDG资本等众多投资方的认可。作为一家成立仅仅只有两年多时间的企业,智元机器人也把机器人从梦想带进了现实。2024年8月1
    刘旷 2025-01-21 11:15 390浏览
  • 高速先生成员--黄刚这不马上就要过年了嘛,高速先生就不打算给大家上难度了,整一篇简单但很实用的文章给大伙瞧瞧好了。相信这个标题一出来,尤其对于PCB设计工程师来说,心就立马凉了半截。他们辛辛苦苦进行PCB的过孔设计,高速先生居然说设计多大的过孔他们不关心!另外估计这时候就跳出很多“挑刺”的粉丝了哈,因为翻看很多以往的文章,高速先生都表达了过孔孔径对高速性能的影响是很大的哦!咋滴,今天居然说孔径不关心了?别,别急哈,听高速先生在这篇文章中娓娓道来。首先还是要对各位设计工程师的设计表示肯定,毕竟像我
    一博科技 2025-01-21 16:17 100浏览
  •  光伏及击穿,都可视之为 复合的逆过程,但是,复合、光伏与击穿,不单是进程的方向相反,偏置状态也不一样,复合的工况,是正偏,光伏是零偏,击穿与漂移则是反偏,光伏的能源是外来的,而击穿消耗的是结区自身和电源的能量,漂移的载流子是 客席载流子,须借外延层才能引入,客席载流子 不受反偏PN结的空乏区阻碍,能漂不能漂,只取决于反偏PN结是否处于外延层的「射程」范围,而穿通的成因,则是因耗尽层的过度扩张,致使跟 端子、外延层或其他空乏区 碰触,当耗尽层融通,耐压 (反向阻断能力) 即告彻底丧失,
    MrCU204 2025-01-17 11:30 182浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦