AI时代遇见古典学:探索未来的交汇点

发表时间: 2024-11-03 21:15

在公元79年的维苏威火山爆发中,一处私人宅邸的纸草卷被火山灰掩盖,并因高温而碳化。不过,这反倒阴差阳错地避免了它们的腐败。1752年,这批纸草卷和其他大量的罗马文物一起重见天日。然而近三百年来,识读纸草文字困难重重。今天,人工智能模型被应用于此。

“维苏威挑战赛”

2023年3月,古典学界的一桩重要新闻无疑是“维苏威挑战赛”(Vesuvius Challenge,网址scrollprize.org)的举行,比赛内容是读取赫库兰尼姆发现的两个碳化纸草卷上的内容。比赛使用的是1802年那不勒斯国王费迪南四世赠送给当时的法兰西共和国第一执政官拿破仑的六卷纸草中的两卷(编号PHerc. Paris 3和4,另有两卷已分别在1986和1987年被打开,编号为PHerc. Paris 1和2),现藏于法兰西金石与美文学院。

赫库兰尼姆纸草数量可能有800—1000卷,来自一处私人宅邸(主人可能是恺撒的岳父卡尔普尔尼乌斯·皮索·凯索尼努斯,那里因此被称为“纸草别墅”),在公元79年的维苏威火山爆发中被火山灰掩盖,纸草卷因为高温而碳化。不过,这反倒阴差阳错地避免了它们的腐败。1752年,这批纸草卷和其他大量的罗马文物一起重见天日。从已经打开的来看,大部分为公元前1世纪的伊壁鸠鲁派哲人、在赫库兰尼姆当地生活过的加达拉人斐洛德摩斯(Philodemus of Gadara)的作品。研究者面对的最大问题是如何复原纸草上的文字,因为碳化后的纸草卷极其脆弱,稍一展开就会变成碎片。当时采用的方法包括灌注水银、硫磺蒸熏、水浸等等。事实证明这些方法都是破坏性的,许多纸草卷就此被毁掉了。效果最好的方法之一是将纸草卷纵向切成两半,露出最内层,而后读一层刮掉一层,以此类推。后来,梵蒂冈图书馆的安东尼奥·皮亚乔神父改进了这种方法,只需纵向切开两条深1—2厘米的口子,就可以把纸草卷分成内芯和两瓣外皮,对内芯重复这一程序,直到获得的内芯保存情况足够好,可以用皮亚乔发明的悬吊装置轻轻地展开,外皮则依然刮层读取。

纸草卷上的文字分成不同的列。以PHerc. Paris 4为例,从读取的结果来看,每列宽大约62毫米,列与列间距17毫米,每行有14到17个希腊字母,平均为16个字母。参赛者需要在不打开它的情况下,根据主办方提供的部分CT扫描图读取纸草卷内部的内容。挑战赛设置了多个奖项,包括分层算法、辨识出第一个字母、第一个单词等等,而第一个识别出至少4列文字的参赛者将获得大奖。

“虚拟展开”的难点

近年来,新的扫描和图像处理技术的发展令研究者得以进行所谓的“虚拟展开”,即通过CT对纸草卷的内部结构进行三维扫描,密度较低的部分颜色较深,密度较高的部分颜色较浅。通过算法可以“分离”出写有文字的表面,然后将其转化为二维平面,这个过程被称为“分层”。该技术之前已经被用于分析以色列恩戈地发现的碳化摩西五经抄本(除死海古卷之外年代最早的希伯来语抄本),以及一本被烧焦和经过水浸的5或6世纪的埃及科普特语《使徒行传》(MorganLibraryM.910)。就赫库兰尼姆纸草来说,第一个难点便是,经过挤压和高温,纸草卷内部被紧紧压实在一起,形成了复杂的结构。因此,“分层”也就成了维苏威挑战赛参赛者的第一项重要工作。在与该赛事有关的网上社群里,参赛者每天都会更新发布已分层面积。组织方还举办了分层工具比赛,总奖金4.5万美元。

对扫描图像分层后,第二个难点又出现了。与以金属为原料的墨水(前面说的希伯来语和科普特语抄本均是如此)不同,赫库兰尼姆纸草书写文字所用的墨水大部分以碳为原料,与纸张本身成分相同,导致根据扫描结果常常无法分辨纸张和字迹。理论上,可以人工识读字迹。早在2015年的一篇论文中,法国国家科学研究中心的丹尼尔·德拉特尔等人就尝试用X射线相位衬度成像读出纸草卷内部的文字,因为墨迹通常会比表面高出至少100微米,但由于纸草卷扭曲变形严重,人工识读非常困难。肯塔基大学的斯蒂芬·帕森斯在他的博士论文中也提到,在一些纸草卷上,部分字迹与某种高密度的颗粒存在重合,可能是沙子或火山灰。之所以出现这种情况,要么是书写者使用的墨水受到了污染,要么是墨迹在未干时就氤氲在了纸张上。而2023年8月,挑战赛的参赛者凯西·汉德梅尔在扫描图上分辨出纸草表面的多种结构,其中一种像是干裂的土壤,高出纸草表面0.1—0.5毫米,这种结构被证明是墨迹。汉德梅尔借此赢得了辨识出第一个字母的奖项。

由于人工识读纸草文字困难重重,一些研究者开始另辟蹊径。他们假设,字迹和它附近的纸草表面结构之间存在一定的对应关系。根据已经打开的纸草卷残片上的文字,以及未打开纸草卷表面的字迹(可以通过红外线拍摄看到),可以得到对应关系的数据,用它来训练模型,让模型学会分辨出这种关系,那么就可以将模型用于未知结果的纸草扫描图,“推测”哪些区域可能有字迹。为此,研究者需要把得到的平面图分成小块,并描绘每个小块的局部结构(不仅限于表层,也包括表面以下或以上一定范围内的,因为墨水会高出和渗入表面)。为了验证参赛者建拟模型的可行性,维苏威挑战赛的主办方又另外组织了一场墨迹识别比赛,验证的对象是一份已经打开的纸草卷残片(PHerc. Paris 1 fr. 39)。

三名机器学习专业学生的胜利

挑战赛引发了巨大的反响,从2023年开始,有1000多支队伍报名参赛。最后,由三名机器学习与机器人学专业的学生优素福·纳德尔、卢克·法里托尔和尤利安·希利格组成的团队获得大奖,平分70万美元的奖金。他们识别出了PHerc.Paris4最内层的15列文字,相当于整个纸草卷5%的内容,其所用代码也在网上公布。2024年,挑战赛继续进行,今年的大奖将授予第一个识别出1到4号纸草卷中90%内容的参赛者。

维苏威挑战赛的网站上公布了针对PHerc. Paris 4部分已识别出的结果(纸草卷上的作者和作品信息通常出现在卷尾,这部分还没有被识别,因此无法确定是否为斐洛德摩斯的作品)。其中,第8列是:

大意是:……[克塞]诺芬托斯这样[说],这一点在其他人看来也是如此,就像不属于他人而只属于自己的东西要比那些看起来属于大多数人的东西更美好,但正如对于食物,我们不会认为那些异常稀有的要比供应充足的更美味,不是因为……

就像从上面这段复原后的纸草文本中可以看到的,传世文献和碑铭纸草往往残缺不全。事实上,在维苏威挑战赛公布的15列已识别文字中,这已是相对完整和清楚的一部分了。对于结构复杂(有的希腊语句子可能长达12行)、语义微妙的古典语言来说,任何一部分的缺失或误读都会对原文理解产生巨大的影响。传统上,这需要研究者根据自己对上下文、句法结构和背景信息的了解对缺漏之处进行补全。而近年来,人工智能开始在这方面为研究者提供越来越多的帮助。

以古代文本数据库为基础的各种深度学习模型

首先,古代文本电子化的发展为此类应用打下了基础。以碑铭和纸草为例,体量最大的拉丁语铭文数据库是Clauss/Slaby铭文数据库(manfredclauss.de)。它集成了总计45个数据库,可以进行全文检索,并提供了其他一些重要数据库的链接,让使用者能够了解碑铭的更多信息,特别是文本之外的物质和环境信息。帕克德人文学会(PHI)所建的可检索数据库是最重要的希腊语铭文数据库(inscriptions.packhum.org),提供了全文检索或是按照地区和出版物进行查找等功能,但数据更新速度较慢,许多铭文没有收录。纸草方面,目前内容最全的网站是杜克大学推出的payri.info,综合了许多从前相对独立的纸草数据库。

以上述古代文本数据库为基础,研究者开发了各种深度学习模型,朝着尽可能正确地补全文本的目标而努力。其中之一便是谷歌开发的“基于变换器的双向编码表征”模型(BERT)。BERT和现今最热门的ChatGPT都是基于变换器架构,但两者的预训练方式和功能不同。通俗地说,ChatGPT所做的工作类似于接龙,即根据输入的文本判断出统计学上最可能的下一个词是什么,不断重复同样的操作,最终生成“答案”。而BERT做的是完型填空,在训练模型时,会随机掩盖住其中的一些文字,让BERT猜出被盖住的文字是什么。

目前,已经有研究者用拉丁语、希腊语、阿卡德语等古代语言的语料库训练BERT模型。相较于现代语言,这些古代语言的数据总量要小得多。拉丁语BERT模型的开发者、加州大学伯克利分校的大卫·巴曼和德克萨斯大学奥斯丁分校的帕特里克·伯恩斯在论文中提到,他们所用的语料库涵盖了从古典时代到21世纪的拉丁文作品,共计6427万个词,收录了以古典时代文献为主的“珀尔修斯项目”(Perseus Project)、“教父拉丁语文集”(Patrologia Latina)、“托马斯·阿奎那文库”(Corpus Thomisticum)、维基百科拉丁语版,以及“互联网档案馆”(Internet Archive)等数据库上的文本。拉丁语BERT的功能包括词性标注(POS tagging)、文本补全、词意分辨,以及语境下最相近文本的检索,即寻找在类似语境下包含特定词语的段落。

以文本补全为例,拉丁语BERT不仅能够根据上下文猜测缺失的文字最有可能是什么,还会根据概率大小列出所有可能的选择。目前,利用“网络拉丁文图书馆”(thelatinlibrary.com)里的古典文献对BERT文本补全能力的检验结果显示,它与专业古典学家的校勘结果的一致率为33.1%。但有时,仅仅依据上下文和句法结构可能无法做出正确的判断。

巴曼和伯恩斯的论文中举了一个例子,研究者让BERT补全3世纪初拉丁语作家卢基乌斯·安佩利乌斯的《史事备忘》第36节中述及迦太基将军事迹的一个从句:

Hanno et Mago qui [...] punico bello cornelium consulem aput liparas ceperunt(“……布匿战争中,在利帕里岛擒获了执政官科尔内利乌斯的汉诺和玛戈”)

文本在punico bello(“布匿战争”)之前有阙文,模型给出的第一选择是secundo(“第二次”),概率为45.1%;第二选择primo(“第一次”)的概率为38.5%。而在1854年的托伊布纳版中,校勘者爱德华·沃尔夫林根据他所掌握的背景知识给出的选择是primo,因为导致格奈乌斯·科尔内利乌斯·西庇阿(公元前260年的罗马执政官,并非那位赫赫有名的“大西庇阿”)被俘的利帕里战役发生在第一次布匿战争期间。实际上,我们最熟悉的玛戈是汉尼拔的弟弟,其人参加的是第二次布匿战争;而最有名的汉诺则是汉尼拔所在的巴尔卡家族的对头,与汉尼拔在战略问题上存在分歧。古代晚期的简史作者大多依靠摘抄前人作品,安佩利乌斯也不例外,在这里很可能张冠李戴了。模型无法获得额外的历史信息,只能根据主语进行判断,因此得出了错误的结果,这也暴露出了人工智能模型在复原历史文本上的短板。毫无疑问,在补全碑铭文字时,历史背景信息以及铭文发现的时间和地点等文本以外的物质和环境信息往往与上下文及句法结构同样关键。如果没有这些额外信息,仅凭文本就可能无法得出正确的结论。

深度学习用于补全古典文本的另外两个应用是PYTHIA和Ithaca模型。与拉丁语BERT模型不同,两者是专为解析希腊语铭文而设计的。PYTHIA是一种“长短期记忆网络”模型,由希娅·索莫希尔德等人设计。相比传统的递归神经网络,它能够更好地处理长文本序列,实现文本分类、情感分析和机器翻译等功能。训练PYTHIA的数据来自PHI希腊语铭文库。由于铭文中缺失的往往不是单词,而是一部分字母,因此模型不仅在单词层面上,也在字母层面上进行复原。这种模型可以为铭文中需要补全的部分提供多达20种最有可能的选择,复原结果的字符错误率和第一选择的正确率分别为47%和32.6%。相比之下,参与实验的两名碑铭学博士的这两项数据则分别为59.6%和25.3%。Ithaca也由PYTHIA的团队设计,同样依靠PHI数据库进行训练。不同之处在于,它使用了新的变换器模型,大大改善了复原结果的准确性。在Ithaca的帮助下,古代史研究者的复原字符错误率下降到18.3%,第一选择的正确率提高到32.6%。

* * *

以上介绍了人工智能模型被应用于古典学研究的几个例子,这项技术在学校、档案馆、博物馆和文化遗产机构都有着广阔的运用前景。模型最大的作用之一在于凭借强大的计算能力,它能“发现”墨迹和纸草表面结构的对应,或是文本材料内部的隐藏关联,从而让我们看到原先“不可见”的东西。除了对文学史料和文书史料的复原,它还能提供新的研究思路和角度,给研究者带来启发。当然,作为工具,人工智能模型仍然存在可信度和可解释性的问题,它决不能替代研究者。比如,出版过斐洛德摩斯的《论音乐》第四卷和《论死亡》第四卷校勘本的德拉特尔就对机器识读纸草持保留意见。他表示,以此方式呈现在我们眼前的并非纸草上的真实文字,而是人工智能生成的,只是为我们提供了对墨迹的一种解读。进一步分析和处理识读结果是古典学家的工作。研究者与人工智能两者的更深入合作才能推动这门学科的更大发展。

(作者单位:上海师范大学人文学院)