MIT&谷歌大脑用AI破解失传的古代文字,被称“现代版罗塞塔石碑”丨ACL 2019
提示您,本文原题为 -- MIT&谷歌大脑用AI破解失传的古代文字 , 被称“现代版罗塞塔石碑”丨ACL 2019
郭一璞 发自 凹非寺
漫漫尘埃下 , 掩藏了许多曾经辉煌灿烂古代文明 , 但我们现在却无法清晰地知道 , 这些地方究竟发生了什么 。
搞懂这些历史的最佳方式 , 就是找到他们的文字记载 。 However , 记载文字的石碑可以被考古学家们挖出来 , 但这些古文字究竟啥意思 , 现代的人们看不懂 , 需要语言学家们耗尽青春来推测 。
现在 , MIT CSAIL和谷歌大脑的研究者出手了 , 他们用机器学习破译了乌加里特文和线性文字B 。
MIT&谷歌大脑用AI破解失传的古代文字 , 被称“现代版罗塞塔石碑”丨ACL 2019// //
△乌加里特王宫
乌加里特文 , Ugaritic , 是一种楔形文字 , 属于闪米特语族 。 从字面上来看 , 就知道它是一个叫做乌加里特(Ugarit)的文明使用的语言 , 这个文明位于当今地中海沿岸的叙利亚 , 在公元前6000年前后就初现踪迹 , 在公元前1190年前后灭亡 。
MIT&谷歌大脑用AI破解失传的古代文字 , 被称“现代版罗塞塔石碑”丨ACL 2019// //
△乌加里特文
线性文字B , Linear B , 由一种人类还没有破译出来的线性文字A演化而来 , 主要存活于公元前1500年到公元前1200年的克里特岛和希腊南部 , 是希腊语的一种古代书写形式 。
MIT&谷歌大脑用AI破解失传的古代文字 , 被称“现代版罗塞塔石碑”丨ACL 2019// //
△线性文字B
研究者们利用同一语族内不同语言之间的联系 , 用机器学习的方法来破译这两种失传的语言 , 这是破译古代语言的新方法 , 也将对罗曼语族的语言学研究有巨大的影响和提升 。
MIT&谷歌大脑用AI破解失传的古代文字 , 被称“现代版罗塞塔石碑”丨ACL 2019// //
简直是现代版的罗塞塔石碑!
PS , 罗塞塔石碑是一块用3种语言写了同一个内容的石碑 , 帮助语言学家们读懂古文字 。
MIT&谷歌大脑用AI破解失传的古代文字 , 被称“现代版罗塞塔石碑”丨ACL 2019// //
人类语言总相通希望能先把动物和植物的语言破译了 , 可以发现打开新世界的大门 。
比如 , 知乎用户@拉队短 在介绍欧洲语言相似性的时候 , 举了这么个栗子:
英语:It was a humid, grey summer day at the end of June.
丹麦语:Det var en fugtig, gr? sommerdag i slutningen af juni.
瑞典语:Det var en fuktig, gr? sommardag i slutet av juni.
挪威语:Det var en fuktig, gr? sommerdag i slutten av juni.
冰岛语:Tae var rakur, grár sumardagur í lok júní.
看 , 长得差不多嘛 , 毕竟同属印欧语系日耳曼语族 , 单词的分布位置、句子的结构都很相似 , 如果你能看懂一种语言 , 就能大致猜测和它“血缘”关系近的另一种语言 。
模型训练
为了破解这两种文字 , 研究者们提出了一个基于字符的seq2seq模型 。
MIT&谷歌大脑用AI破解失传的古代文字 , 被称“现代版罗塞塔石碑”丨ACL 2019// //
其中 , 线性文字B的字母和希腊文需要进行对应 。
MIT&谷歌大脑用AI破解失传的古代文字 , 被称“现代版罗塞塔石碑”丨ACL 2019// //
之后 , 借助神经解密算法 , 在具有不同语言特征的多种语言中提供强大的性能 。
MIT&谷歌大脑用AI破解失传的古代文字 , 被称“现代版罗塞塔石碑”丨ACL 2019// //
在算法模型的基础之下 , 需要的语料库除了待破解的乌加里特文和线性文字B , 还需要一些现在的人类能看懂的语言 。
研究团队选择了罗曼语族的数据库 , 包含意大利语、西班牙语和葡萄牙语三种语言的同源语音转录 , 需要对它们进行同源检测 。
MIT&谷歌大脑用AI破解失传的古代文字 , 被称“现代版罗塞塔石碑”丨ACL 2019// //
因此 , 数据集就用到上面这些 , Symbols指的是语言中的字符 , Token则是语言学中类似于单词的存在 。
准确率
运行成果还不错 , 乌加里特文在无噪声条件下优于现有方法3.1% , 在有噪声条件下优于现在的贝叶斯方法5.5% 。
MIT&谷歌大脑用AI破解失传的古代文字 , 被称“现代版罗塞塔石碑”丨ACL 2019// //
而线性文字B , 在无噪声条件下准确率高达84.7% , 在更具挑战性的LinearB名称数据集中达到67.3%的准确度 。
MIT&谷歌大脑用AI破解失传的古代文字 , 被称“现代版罗塞塔石碑”丨ACL 2019// //
在罗曼语族同源识别任务中 , 西班牙语准确度提升3.4% , 葡萄牙语提升1.6% 。
MIT&谷歌大脑用AI破解失传的古代文字 , 被称“现代版罗塞塔石碑”丨ACL 2019// //
线性文字B的祖先 , 线性文字A还没有被人类破译 , 它被誉为考古界圣杯 。
作者介绍
MIT&谷歌大脑用AI破解失传的古代文字 , 被称“现代版罗塞塔石碑”丨ACL 2019// //
这项研究的一作Jiaming Luo , 正在MIT CSAIL读博 , 专注NLP研究 , 此前他也曾在北大从事情绪分析方面的研究 。
MIT&谷歌大脑用AI破解失传的古代文字 , 被称“现代版罗塞塔石碑”丨ACL 2019// //
Luo同学的导师 , 也是这项研究的第三位作者Regina Barzilay , 她是MIT CSAIL的教授 , 2017曾因NLP方面的研究获得麦克阿瑟奖金 , 除了NLP之外 , 她还研究深度学习在化学和肿瘤学方面的应用 。
传送门
Neural Decipherment via Minimum-Cost Flow: from Ugaritic to Linear B
Jiaming Luo, Yuan Cao, Regina Barzilay
https://arxiv.org/abs/1906.06718
https://github.com/j-luo93/NeuroDecipher
- "当年他们与希特勒串通,如今又拆红军纪念碑"
- 前谷歌资深架构师:真正搞懂spring底层到底有什么好处?
- "今日冬至",北方人为什么爱吃饺子?
- "金屋藏娇"藏不住了!汉武帝时期冷宫首次被发现
- 阳廷安班:用生命叫响"一不怕苦、二不怕死"战斗口号
- 雍正加笔篡改"传位遗诏"?破案了
- "狼牙山五壮士"的悲壮背后,还有一位浴血抗日的"硬核道长"
- 模玩资讯:SD三国创杰传系列 徐晃&典韦
- 南宋那么多武将,为何只有韩世忠能入选"昭勋阁"
- 酸雨战争 | 1:18 沙蚁车 & 沙地炮手来袭!