【笔记】机器破译古文能否找回逝去的人类文明？

本文主要是介绍【笔记】机器破译古文能否找回逝去的人类文明？，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

 案例来源：机器之心 

 案例地址： https://www.jiqizhixin.com/articles/2017-02-03-9 

 （以下为案例的简要概述，便于之后能快速检索到相关内容。部分文字与图片可能直接来自原文，如有侵权请告知，谢谢） 

 1. 问题：公元前2600到前1900年，印度河流域文明的规模超过埃及文明和美索不达米亚文明。发现的印度河流域的印章上有许多符号，这些符号是文字么？ 

 过去的解决思路是人工找到文字中的语言结构、测试总结的规律、不断地测试错误，弄清语言如何标记一个短语的开始和结束等。 

 但印度河流域的符号至今未得到破解，因为其长度短，平均一个印章只有5个符号，最长的也仅有17个。 

 2. 条件熵：2009年研究者Rao计算了一个符号按照特定顺序和跟随另一个符号的可能性。他认为，“如果能发现统计规律，那么说明这些符号并不是简单的并列排置。” 

 Rao将古印度语的条件熵与已知的语言系统（如吠陀梵语）及已知的非语言系统（如人类 DNA 序列）进行了比较，发现古印度语与语言系统非常相似。虽然还不能证明这是语言，但可以排除符号的随机排列。 

 3. 马尔科夫模型：Rao采用马尔科夫模型的统计技术【我猜可能是用CRF】，训练模型，找出哪些符号可能开始一个文本、哪些可能是结束。Yadav采用类似的分析，利用n-gram分析不同类型的马尔科夫模型，研究某一个符号下一个符号出现的概率，以及某两个符号下一个符号出现的概率。 

 以上两种方法都用来填充印章中缺损的符号。 

 研究中还发现，伊拉克境内发现的印章和印度境内发现的印章，它们所遵循的序列模式不同。说明也许不同地区的人用相同的符号编码当地语言。 

 4. 对印章起源地的分析： 

 许多印章在挖掘后被用在了各种场合，因此它们的起源地已经不清楚了。如果知道各个印章的起源地，那么对于其语法的分析会有益。 

 在之前的认知科学研究中，可以通过在书面中同时提到不同城市的频率来估算城市间的距离。这一观点是真实可行的，对于美国城市，依据的是两城市在全国性报纸上同时出现的频率，对于中东和中国的城市，依据的是相应的阿拉伯语和汉语文本，甚至对《指环王》中的城市也适用。 

 如果印章是语言，那么它们也应该遵循该模式。因此用“已知起源地”的印章驯良，找到可能的地域符号，然后用这些符号来预测“未知起源地”的印章的起源地。 

 5. 随想：属于数字人文的研究领域，还蛮有趣的。 

这篇关于【笔记】机器破译古文能否找回逝去的人类文明？的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！