语言学家面临的挑战是很多的,这些失传的语言中,很多都没有一个经过充分研究的相对语言可以与之相比。有些还缺乏空白和标点符号等分隔符。麻省理工学院计算机科学与人工智能实验室最近在破译失传语言方面取得了突破性进展。
麻省理工学院的研究人员创建了一个新系统,利用机器学习来帮助语言学家破译那些已经消失在时间中的语言。
研究表明,大多数曾经存在过的语言都不再被使用,有几十种死亡的语言被认为是未被破译的。语言学家对语法、词汇和句法的了解不够,无法理解这些失传语言留下的文本。
研究人员创建了一个新的系统,已经能够自动破译一种失传的语言,而不需要它与其他语言关系的高级知识。该系统可以确定语言之间的关系,最近,该系统显示伊比利亚语与巴斯克语没有关系,一些语言学家认为。该项目的科学家们有一个最终目标,就是能够用仅有的几千个词来破译那些让语言学家们感到困惑的语言。
项目负责人Regina Barzilay表示,该系统依靠的是基于历史语言学见解的七项原则。这些原则认为,语言一般只以可预测的方式进化。语言很少增加或删除整个音,而且很可能出现音的替换。例如,一个在母语中带有 "P "的单词在后裔语言中可能会变成 "B",但由于发音的差距,它不太可能变成 "K"。
利用这些语言限制,麻省理工学院的研究人员开发了一种解读算法,能够处理庞大的可能变换空间。该算法可以学习将语言声音嵌入到一个多维空间中,其中发音差异体现在相应向量之间的距离上。该模型旨在分割古代语言中的单词,并将其映射到相关语言中的对应物当中。