MIT&谷歌大脑用AI破解失传的古代文字,被称“现代版罗塞塔石碑”丨ACL 2019

提示您,本文原题为 -- MIT&谷歌大脑用AI破解失传的古代文字 , 被称“现代版罗塞塔石碑”丨ACL 2019

郭一璞 发自 凹非寺

漫漫尘埃下 , 掩藏了许多曾经辉煌灿烂古代文明 , 但我们现在却无法清晰地知道 , 这些地方究竟发生了什么 。

搞懂这些历史的最佳方式 , 就是找到他们的文字记载 。 However , 记载文字的石碑可以被考古学家们挖出来 , 但这些古文字究竟啥意思 , 现代的人们看不懂 , 需要语言学家们耗尽青春来推测 。

现在 , MIT CSAIL和谷歌大脑的研究者出手了 , 他们用机器学习破译了乌加里特文和线性文字B 。


MIT&谷歌大脑用AI破解失传的古代文字,被称“现代版罗塞塔石碑”丨ACL 2019

MIT&谷歌大脑用AI破解失传的古代文字 , 被称“现代版罗塞塔石碑”丨ACL 2019// //

△乌加里特王宫

乌加里特文 , Ugaritic , 是一种楔形文字 , 属于闪米特语族 。 从字面上来看 , 就知道它是一个叫做乌加里特(Ugarit)的文明使用的语言 , 这个文明位于当今地中海沿岸的叙利亚 , 在公元前6000年前后就初现踪迹 , 在公元前1190年前后灭亡 。


MIT&谷歌大脑用AI破解失传的古代文字,被称“现代版罗塞塔石碑”丨ACL 2019

MIT&谷歌大脑用AI破解失传的古代文字 , 被称“现代版罗塞塔石碑”丨ACL 2019// //

△乌加里特文

线性文字B , Linear B , 由一种人类还没有破译出来的线性文字A演化而来 , 主要存活于公元前1500年到公元前1200年的克里特岛和希腊南部 , 是希腊语的一种古代书写形式 。


MIT&谷歌大脑用AI破解失传的古代文字,被称“现代版罗塞塔石碑”丨ACL 2019

MIT&谷歌大脑用AI破解失传的古代文字 , 被称“现代版罗塞塔石碑”丨ACL 2019// //

△线性文字B

研究者们利用同一语族内不同语言之间的联系 , 用机器学习的方法来破译这两种失传的语言 , 这是破译古代语言的新方法 , 也将对罗曼语族的语言学研究有巨大的影响和提升 。


MIT&谷歌大脑用AI破解失传的古代文字,被称“现代版罗塞塔石碑”丨ACL 2019

MIT&谷歌大脑用AI破解失传的古代文字 , 被称“现代版罗塞塔石碑”丨ACL 2019// //

简直是现代版的罗塞塔石碑!

PS , 罗塞塔石碑是一块用3种语言写了同一个内容的石碑 , 帮助语言学家们读懂古文字 。


MIT&谷歌大脑用AI破解失传的古代文字,被称“现代版罗塞塔石碑”丨ACL 2019

MIT&谷歌大脑用AI破解失传的古代文字 , 被称“现代版罗塞塔石碑”丨ACL 2019// //

希望能先把动物和植物的语言破译了 , 可以发现打开新世界的大门 。

人类语言总相通

比如 , 知乎用户@拉队短 在介绍欧洲语言相似性的时候 , 举了这么个栗子:

英语:It was a humid, grey summer day at the end of June.

丹麦语:Det var en fugtig, gr? sommerdag i slutningen af juni.

瑞典语:Det var en fuktig, gr? sommardag i slutet av juni.

挪威语:Det var en fuktig, gr? sommerdag i slutten av juni.

冰岛语:Tae var rakur, grár sumardagur í lok júní.

看 , 长得差不多嘛 , 毕竟同属印欧语系日耳曼语族 , 单词的分布位置、句子的结构都很相似 , 如果你能看懂一种语言 , 就能大致猜测和它“血缘”关系近的另一种语言 。

模型训练

为了破解这两种文字 , 研究者们提出了一个基于字符的seq2seq模型 。


MIT&谷歌大脑用AI破解失传的古代文字,被称“现代版罗塞塔石碑”丨ACL 2019

MIT&谷歌大脑用AI破解失传的古代文字 , 被称“现代版罗塞塔石碑”丨ACL 2019// //

其中 , 线性文字B的字母和希腊文需要进行对应 。


MIT&谷歌大脑用AI破解失传的古代文字,被称“现代版罗塞塔石碑”丨ACL 2019

MIT&谷歌大脑用AI破解失传的古代文字 , 被称“现代版罗塞塔石碑”丨ACL 2019// //

之后 , 借助神经解密算法 , 在具有不同语言特征的多种语言中提供强大的性能 。


MIT&谷歌大脑用AI破解失传的古代文字,被称“现代版罗塞塔石碑”丨ACL 2019

MIT&谷歌大脑用AI破解失传的古代文字 , 被称“现代版罗塞塔石碑”丨ACL 2019// //

在算法模型的基础之下 , 需要的语料库除了待破解的乌加里特文和线性文字B , 还需要一些现在的人类能看懂的语言 。

研究团队选择了罗曼语族的数据库 , 包含意大利语、西班牙语和葡萄牙语三种语言的同源语音转录 , 需要对它们进行同源检测 。


MIT&谷歌大脑用AI破解失传的古代文字,被称“现代版罗塞塔石碑”丨ACL 2019

MIT&谷歌大脑用AI破解失传的古代文字 , 被称“现代版罗塞塔石碑”丨ACL 2019// //

因此 , 数据集就用到上面这些 , Symbols指的是语言中的字符 , Token则是语言学中类似于单词的存在 。

准确率

运行成果还不错 , 乌加里特文在无噪声条件下优于现有方法3.1% , 在有噪声条件下优于现在的贝叶斯方法5.5% 。


MIT&谷歌大脑用AI破解失传的古代文字,被称“现代版罗塞塔石碑”丨ACL 2019

MIT&谷歌大脑用AI破解失传的古代文字 , 被称“现代版罗塞塔石碑”丨ACL 2019// //

而线性文字B , 在无噪声条件下准确率高达84.7% , 在更具挑战性的LinearB名称数据集中达到67.3%的准确度 。


MIT&谷歌大脑用AI破解失传的古代文字,被称“现代版罗塞塔石碑”丨ACL 2019

MIT&谷歌大脑用AI破解失传的古代文字 , 被称“现代版罗塞塔石碑”丨ACL 2019// //

在罗曼语族同源识别任务中 , 西班牙语准确度提升3.4% , 葡萄牙语提升1.6% 。


MIT&谷歌大脑用AI破解失传的古代文字,被称“现代版罗塞塔石碑”丨ACL 2019

MIT&谷歌大脑用AI破解失传的古代文字 , 被称“现代版罗塞塔石碑”丨ACL 2019// //

线性文字B的祖先 , 线性文字A还没有被人类破译 , 它被誉为考古界圣杯 。

作者介绍


MIT&谷歌大脑用AI破解失传的古代文字,被称“现代版罗塞塔石碑”丨ACL 2019

MIT&谷歌大脑用AI破解失传的古代文字 , 被称“现代版罗塞塔石碑”丨ACL 2019// //

这项研究的一作Jiaming Luo , 正在MIT CSAIL读博 , 专注NLP研究 , 此前他也曾在北大从事情绪分析方面的研究 。


MIT&谷歌大脑用AI破解失传的古代文字,被称“现代版罗塞塔石碑”丨ACL 2019

MIT&谷歌大脑用AI破解失传的古代文字 , 被称“现代版罗塞塔石碑”丨ACL 2019// //

Luo同学的导师 , 也是这项研究的第三位作者Regina Barzilay , 她是MIT CSAIL的教授 , 2017曾因NLP方面的研究获得麦克阿瑟奖金 , 除了NLP之外 , 她还研究深度学习在化学和肿瘤学方面的应用 。

传送门

Neural Decipherment via Minimum-Cost Flow: from Ugaritic to Linear B

Jiaming Luo, Yuan Cao, Regina Barzilay

https://arxiv.org/abs/1906.06718

https://github.com/j-luo93/NeuroDecipher