▲在所谓的“balneological”一节的众多插图中,有一幅描绘了许多裸体女人沐浴在一种未知的液体中。图片来源:creative common
大多数人认为手稿是用替代密码写成的。这是最简单也是最古老的一种编码方式,在这类代码中,字母表中的字母被替换为虚构的字母。问题是,几百年来的研究一直无法找出伏尼契手稿最初是用哪一种语言书写的。
“从来没有人对(伏尼契手稿属于)任何一种特定的语言提出过令人信服的理由,我看到了一些建议,比如阿拉伯语、阿兹特克语、罗马语、拉丁语、意大利语。美国中世纪学院的执行理事、专于伏尼契的Lisa Fagin Davis说。Davis认为人们倾向于研究“古地理、法医和艺术相关的证据”,来找到来源于那一个国家,使用哪一种源语言,但她补充说人们也使用了计算分析。
计算分析是Kondrak和Hauer试图解构手稿的工具。他们认为,就像之前的许多密码学家一样,通过计算文本的某些特性 -- 比如,每封信的频率和字母组合的出现频率 -- 他们可以创造出一种统计指纹,可以与其他语言进行比较。
每一种语言都可以基于这样的统计数字“指纹”
因此,他们训练了大量的算法来挑选这些指标,并将《世界人权宣言》(使用了多达380种语言)作为他们的样本。尽管有些报道指出,这一过程并不涉及神经网络或深度学习,仅仅是老式的统计分析,即大量的计数和百分比。但它成功了!根据伊利诺斯理工学院的计算语言学家Shlomo Argamon教授的说法,初步的测试结果“也许有点值得怀疑,但比在科学文献中经常发表的许多其他结果更好一些。”因此,凭借他们的算法模式对应的训练和测试,Kondrak和Hauer转向了伏尼契手稿。专家们说,这有很多漏洞。