作者:姚百慧(首都师范大学历史学院教授)
据笔者调查,国内主要图书馆购买的以及可免费利用的外文专业数据库资源,已超过千种。这些数据库就文献类型而言,可分为图书、期刊、学位论文与会议论文、报纸、档案、统计资料、报告、书目与文摘、图片、音视频等。就收入内容而言,历史学涉及史学理论、世界通史与断代史、地区国别史(涉及70个左右的国家)、传记、文物考古,其他学科如地理、哲学与宗教、政治与法律、军事、经济、文化、科学、教育、体育、语言与文字、文学、艺术、医药卫生等,也有很多资源可以参考。世界史研究需要利用数据库尤其是外文数据库,这是无须争辩的问题。需要讨论的是,如何对这些数量庞大的数据库进行利用。本文从定名与定性、专题数据库的建立、数据库内容考辨三个角度,谈一些粗浅的看法。
一
所谓定名与定性,是指对数据库的名称、性质和收录范围有清晰的认识。
一般而言,因数据库开发者都会提供数据库名称,定名问题不会有太大的困难,但也有一些特殊情况。其一,数据库开发者有时会改变数据库的名称,从而导致在不同的馆藏地或不同的学者引用中对同一数据库标引不同。如美国档案类数据库“美国解密档案在线”(
U.S.DeclassifiedDocumentsOnline),原名为“解密档案参考系统”(
DeclassifiedDocumentsReferenceSystem);期刊类全文数据库“综合学科学术文献大全”(AcademicSearchComplete),原来的英文名为“AcademicSearchPremier”。在这种情况下,建议标引以最新名称为准,同时了解其历史名称。其二,存在总库、子库的情况。如HeinOnline法律数据库有60余个子库,美国国会图书馆的“数字化收藏”(DigitalCollections)有300多个子库。一些开发商或代理商,还会重组其数据资源,形成新的总库。如Gale公司,它把旗下部分报纸期刊类的库组成GaleNewsVault,又把以档案为主的300余个子库组成“珍稀原始典藏档案”(ArchivesUnbound,简称AU),还把这两个库和它的其他偏重原始档案文献的子库组合起来,形成了GaleScholar超大型数据库。就个人利用而言,清晰的子库名称更重要;但由于一些馆藏只标引了总库,所以也需要了解总库名称。其三,馆藏机构的标引方式,也会造成名称的混乱。比如,有的馆藏只列翻译而无原文名称,各馆藏有时翻译名称不同,以及有的馆藏根据购买情况重新拟定数据库名称。如国家图书馆购买了AU中亚洲的部分专辑,命名为“珍稀原始典藏档案合集:亚洲”(ArchivesUnboundAsia)。
确定性质指确定文献的收录类型。前文已提及,外文数据库的文献类型包括图书、期刊、报纸、档案等。不同类型的文献,在史学研究中所起到的作用是不同的,或作为目录检索路径,或作为前期学术史,或作为史料来源。在开发商或图书馆的数据库介绍中,会说明文献的类型或特征。需要强调的是,上述文献是基于现代的出版类型进行分类的,它很难完全体现人类过去所积累的文献的所有特征,所以只能是相对性的。比如,档案在今天往往指代有密级的、生成之时尚不能为一般公众查看的文献,但对于古代史而言,甲骨、碑铭、纸草文书、木板文书等,不管其当时的利用范围如何,都已是研究那个时代的珍贵“档案”了。
确定收录范围,指弄清数据库收录的内容特征。在数据库的介绍中,一般会对此作出说明,如“早期英文书籍在线”(EarlyEnglishBooksOnline)的介绍,一般会说明其收录的数量(12.5万余种、超过2250万页英文著作)、时段(1473—1700年之间)、类型(名家著作、皇家条例及布告、军事、宗教和其他公共文件、年鉴)、学科范围(历史、语言、音乐、美术、物理学、妇女研究)等。但确定内容特征有时也会有一定的困难,上文提及的总库与子库的情况是其中之一。有的数据库有很多子库,但图书馆一般只会选择部分子库购买,而标引时却用总库名称,这样就很难知道该库在某一具体馆中的子库收录情况。另一种情况是,很多图书馆会选择数据库中与本校教学科研密切的模块来购买,从而导致即便没有子库的数据库,在各馆中收录内容差异也较大。比如Sage期刊库,有的馆(如首都师范大学)购买了500多种现刊,有的馆(如北京大学)则购买了800多种现刊。同名数据库各馆收藏不同,会让同一检索在不同的馆藏出现差异甚至差别较大。此外,有的数据库以模块形式呈现,模块下内容较多,而模块名称却未必能完整展现其收录内容。如ProQuest历史库的一个模块“越南战争和美国外交政策(1960—1975年)”(
VietnamWarandAmericanForeignPolicy,1960—1975)是一个单一的数据库,从其名称来看,只能判断其与越战有关。但这个数据库收录内容广泛,含有104个子辑,内容极其丰富,比如有成系列的美国国家安全委员会文件、国家安全委员会会议记录,从肯尼迪到尼克松时期的国家安全文件等,实际上是战后到20世纪70年代美国外交史研究的重要资源。像这类数据库,不了解其子辑内容就没法深入利用。
二
定名与定性是我们利用外文数据库的起步工作。接下来,就可以大体判断某一数据库与我们所从事研究的关系,从而确定是否要加以搜集和利用。类似于做专题文献书目一样,在从事一项专题性的学术研究时,也要围绕该研究搜集在线资源,做一个专题数据库的列表。需要注意的是,这些专题数据库搜集时面不能过窄,它们不仅要包括与某一研究直接相关的数字资源,也要包括一些宏观性质的及可能相关的其他数据库。如研究两次世界大战期间英国的绥靖外交,首选当然是英国的外交档案以及重要人物的文件集,如收录了60余册《英国外交政策文件,1919—1939年》的“英国海外政策文件”(
DocumentsonBritishPolicyOverseas)数据库、内维尔·张伯伦和奥斯丁·张伯伦的文件集(
ThePapersofNevilleChamberlain;
ThePapersofSirAustenChamberlain)、“丘吉尔档案”(ChurchillArchive),次选是这一时期的内阁文件(CabinetPapers)和国会文件的系列数据库(U.K.ParliamentaryPapers,
HouseofCommonsParliamentaryPapers,Hansard等),最后是反映当时媒体动向的重要报刊,如“大英图书馆报纸”(BritishLibraryNewspapers)、《泰晤士报》《每日电讯报》《伦敦新闻画报》《图画邮报》等。同时,通过“英国外交部机密印刷件:北美,1824—1961年”(ConfidentialPrint:NorthAmerica,1824—1961)、“英国外交部:美国通信”(BritishForeignOffice:
UnitedStatesCorrespondence)、“英国外交部档案:日本,1919—1952年”(
ForeignOfficeFilesforJapan,1919—1952)、“英国外交部档案:中国,1919—1980年”(
ForeignOfficeFilesforChina,1919—1980)等英国档案数据库,以及美国、日本、德国、澳大利亚、加拿大等国家的外交档案数字资源,可了解围绕英国绥靖行动有关国家的互动。以上搜集偏重于两次世界大战期间与英国有关、相对原始的文献,也不能忽略一般的通用数据库,比如图书资源(约50种)、期刊资源(约30种)、学位论文资源(十余种)等。
三
在搜集到相当的电子资源后,还要进行内容考辨的工作。这一考辨,可以从两个角度入手。
一是观察数据库资料来源和开发机构。一般而言,政府机构公布的本机构所掌握文献的权威性,高于其他来源;知名开发商、学术机构开发的专业性数据库,高于一般网络资源。例如,我们要查美国人口数据,最优先利用的是美国人口普查局开发的“美国事实发现者”(AmericanFactFinder),它可以提供美国人口、住房、经济和地理数据的来源;关于美国农业人口,则要参阅农业部的“国家农业统计数据”(
NationalAgriculturalStatisticsService),它提供了自1840年以来美国各州和地区的农业人口普查数据;还可以利用明尼苏达大学的“美国国家历史地理信息系统”(
NationalHistoricalGeographicInformationSystem),它提供了1790年至今的美国人口普查和其他全国性调查统计资料,包括带有地理空间属性信息的人口、农业、经济等方面的数据。
二是注重数据形式和原实体之间的关系。就人文学科的多数数据库而言,其数据往往来自某种实物。利用这种数据库时,除了传统利用实物载体要注意的考辨等工作外,还要考察数据形式同原实体之间的关系。如纸质文献在电子化的过程中,是完整电子化,还是部分电子化?电子化的文献是如何排列的,这种排列同原始文献的排列关系何在?等等。如ProQuest公司开发的“数字化国家安全档案”(
DigitalNationalSecurityArchive),其文献选取和组合模式是围绕某一国家安全问题,抽取来自不同机构的档案,并按时间先后组织在新的子辑中。虽然所抽取的档案是完整扫描,但它并不会完整扫描原档案所在卷宗或系列,研究人员只能通过不同档案的时序排列建立起联系。利用这类数据库时,有时还需使用相关的配套指南、大事年表、人名索引等工具。
定名与定性、建立专题数据库、内容考辨,是利用外文数据库的基础工作。做好这些工作,研究者可以更高效准确地找到自己所需要的电子资源。当然,它们并非利用外文数据库注意事项的全部,如从知识考古学角度,可以讨论数据库开发的知识背景、开发动机、开发人员组成、文献著录方式等;从文献挖掘角度,可以讨论挖掘工具的选用、关键词选取、算法等,这些都是我们在使用数据库时需要考虑的内容。
《光明日报》( 2020年07月20日14版)