▲2016年在西班牙进行质量控制的伏尼契手稿的临摹。图片来源:GettyImages
如果你正在编制一份世界上最奇怪的100件物品的清单(人类几千年文明以来最怪异的东西),那么你就得为伏尼契手稿留出空间了。它有600年的历史,用一种没人能读懂的语言写成。这是一个真正的世界级的秘密。这大概就是为什么本周世界各地的新闻编辑室都争先报道“人工智能破译伏尼契手稿”的故事,他们抓住了这个机会。
当然,人工智能并没有破译。根据专家的说法,伏尼契手稿保持着一如既往的神秘莫测。但是,弄清楚为什么人工智能不能“解码”这篇手稿,以及它究竟在什么程度上增加了伏尼契时代的历史,倒是有自身的价值。它还强调(如果需要进一步强调的话),这份手稿是一个极其古怪的东西。
引发这些报道的研究是一篇名为“解码用未知语言和文字写的回文构词法文本(Decoding Anagrammed Texts Written in an UnknownLanguage and Script)”的论文。它是在2016年出版的,但它是在去年的一次会议上被提及的,在本月早些时候被一些记者发现。在这篇文章中,计算机科学教授Greg Kondrak和研究生Bradley Hauer描述了一种找到密码文本源语言的方法,然后将该方法转化为手稿本身,并认为它最初是用希伯来语写成的,然后在缩写为现在的形式。
这是一种说法,如果属实,那就真的是揭开世界未解之谜的神秘面纱了。这篇240页的伏尼契手稿是用一种未知的字母写成的,这是从未见过的。这个手稿由大约25到30个不同的人物组成(解释不同),全文从左到右,用一种优雅的方式书写。这本书共有130多幅精美的奇异植物插图,都是无法辨认的植物,还有一些占星图、城堡和龙的涂鸦,还有一个特别奇怪的部分,那就是裸体女人沐浴在由流动管道连接的水池中。它看起来像一个古代水上公园的地图,但学者们认为它可能有医学或炼金术方面的意图。
▲在所谓的“balneological”一节的众多插图中,有一幅描绘了许多裸体女人沐浴在一种未知的液体中。图片来源:creative common
大多数人认为手稿是用替代密码写成的。这是最简单也是最古老的一种编码方式,在这类代码中,字母表中的字母被替换为虚构的字母。问题是,几百年来的研究一直无法找出伏尼契手稿最初是用哪一种语言书写的。
“从来没有人对(伏尼契手稿属于)任何一种特定的语言提出过令人信服的理由,我看到了一些建议,比如阿拉伯语、阿兹特克语、罗马语、拉丁语、意大利语。美国中世纪学院的执行理事、专于伏尼契的Lisa Fagin Davis说。Davis认为人们倾向于研究“古地理、法医和艺术相关的证据”,来找到来源于那一个国家,使用哪一种源语言,但她补充说人们也使用了计算分析。
计算分析是Kondrak和Hauer试图解构手稿的工具。他们认为,就像之前的许多密码学家一样,通过计算文本的某些特性 -- 比如,每封信的频率和字母组合的出现频率 -- 他们可以创造出一种统计指纹,可以与其他语言进行比较。
每一种语言都可以基于这样的统计数字“指纹”
因此,他们训练了大量的算法来挑选这些指标,并将《世界人权宣言》(使用了多达380种语言)作为他们的样本。尽管有些报道指出,这一过程并不涉及神经网络或深度学习,仅仅是老式的统计分析,即大量的计数和百分比。但它成功了!根据伊利诺斯理工学院的计算语言学家Shlomo Argamon教授的说法,初步的测试结果“也许有点值得怀疑,但比在科学文献中经常发表的许多其他结果更好一些。”因此,凭借他们的算法模式对应的训练和测试,Kondrak和Hauer转向了伏尼契手稿。专家们说,这有很多漏洞。
问题并不是任何一个单一的错误,而是一系列的假设和遗漏,使Kondrak和Hauer在解释他们的结果时更落后了一些。
第一个很简单:他们的算法接受了现代语言的训练,但手稿的碳含量可追溯至15世纪。所以,如果它最初是用希伯来语写成的,它应该是用15世纪的希伯来语写成的。“语法、拼写和词汇会有很大的不同,特别是对于像伏尼契手稿(与圣经或礼拜仪式不同)这样的科学的手稿。”Davis说。
第二,尽管Kondrak和Hauer的算法可以为密码文本的源语言提出建议,但它不能评估这些匹配的可能性。所以当他们说希伯来语是手稿中得分最高的,而没有对可能性进行评级时,这是一种毫无意义的吹嘘。“总得有人得到最高的分数,他们提到了其他一些排名很高的语言。我记得,一个是马来语,这是一种非常不同于希伯来语的语言。” Argamon说。
第三个假设可能是问题最大的:Kondrak和Hauer声称,除了作为替代密码,伏尼契手稿也存在字母颠倒的写法,所以每个单词的字母都是乱写的。这并不是伏尼契学的一个新建议,但它远非一个既定事实。它也完美地建立了Kondrak和Hauer的研究的最终“成功”:将伏尼契手稿的开头句翻译成英语。
▲一页的伏尼契临摹,手稿中许多植物插图。图片来源:Getty Images
这句话的意思是:“她向神父、众议院的人、我和人民提出了建议。Kondrak说:“一份手稿最开始的一句话是一种奇怪的句子,但它确实是有意义的。”但即使是在论文中,他和Hauer也描述了他们是如何编造翻译来产生这个结果的。他们的第一次尝试“不太连贯”,一位现代希伯来语的发言人说,他们必须在把这些字符输入谷歌翻译之前做出“几个拼写纠正”来产生上述结果。(“任何时候你不得不求助于谷歌,而不是那些真正研究过这种语言的人,所以你会失去一些可信度,” Fagin说。)
但是,用字谜写出的手稿变得更加重要。Argamon指出,希伯来语是一种“abjad”,意思是没有元音的脚本。如果你假设手稿是用希伯来语写成的,并且手稿是用字谜写的,那么它就会变得更容易“翻译”。你不仅可以重新排列单词中的所有字符,以找到有意义的东西,还可以添加自己的元音。这意味着“大量随机的字母组合形成了连贯的单词,”Argamon说。再加上Kondrak和Hauer做了拼写纠正,并依赖谷歌翻译(这是一款看起来对内容没有什么意义的软件,它经常会把胡言乱语变成连贯的句子),你就能明白为什么专家们对此持怀疑态度了。
Argamon说。“关键是他们的方法…给他们很大的自由度来做这种印象派的解释,”Nick Pelling,一个在这个问题上写过大量文章的伏尼契专家,更加直接的表示“他们把这个被解码的句子,用厚厚的眼镜斜视着,然后告诉我们这对我们来说已经够好了。”当The Verge问到他认为论文的结论正确可能性时,他说:“基本上接近于0%”
那么,“人工智能可以解码神秘的600年前的手稿”?并非如此。
对于Kondrak和Hauer这件事上(这些故事经常是这样的),媒体当然应该为这种夸张的行为承担大量的责任。Kondrak和Hauer承认他们的研究只是一个“起点”,我们采访的专家们也承认可以认识到他们潜在算法的效用。专家们只是说,有太多错漏的步骤,以至于不能对手稿本身提出结论。
在很多方面,用“人工智能”来破解伏尼契手稿的尝试是有意义的。The New Yorker的一篇关于手稿历史的文章将其描述为“一幅完美的画布,用来表达我们对困难、恐惧和神秘的担忧”,同样这也可以用来形容人工智能。在当代的媒体环境中,这些多样化和复杂的技术团队经常被用来作为对自动化和无法控制的机器智能的恐惧的代替者。AI解码伏尼契手稿就像是观看哥斯拉与摩特拉的战斗:这一场面太有趣了,我们根本不关心,也不在乎细节。
尽管如此,对于专家来说,手稿仍然无法被解析的事实可能是一种解脱。毕竟,如果你花了数年的时间试图破解一份神秘的文件,而某个不流血的机器在一夜之间就能破解它,那将对你是一种打击。
正如Pelling在最后一封电子邮件中所说:“通过我的书…和我的博客,我可能写比任何一个在世人更多关于伏尼契的实际历史研究:我为此做了演讲,在广播和电视纪录片中做过很多次采访…但懂我仍然不能读它。:-)”
神秘还在继续,未解之谜仍未解开。