把“专题数据库”作为方法:数字人文的重新认识及其在AI时代的发展趋势

2023-10-28 13:40:36肖鹏
图书情报知识 2023年5期
关键词:人文数据库数字

肖鹏

1 引言

在信息资源管理及图书馆学领域,人文社科专题数据库(以下简称“专题数据库”)被认为是一个既新且旧的研究对象。孙建军教授曾指出,“说其‘老’,是因为过去很多机构和领域都有投身过专题数据库建设,如图档博机构、文化机构、高校科研机构等;说其‘新’,是因为在大数据、智慧数据等理念催生下,过去以机构、资源等为导向的专题数据库建设已经不能适应新环境下人文社科‘开放化’、‘计算化’、‘协同化’、‘智能化’等新要求”[1]。只是,即便该议题有焕然新颜的一面,也有若干团队对它保持关注并持续产出高质量成果,但不得不承认,与20世纪90年代相比,专题数据库的研究正在走向学科的边缘区位。

而在具有交叉特质的数字人文领域,专题数据库也是作为基础的存在[2]。多数数字人文项目往往“以有限资源聚焦特定议题”,其产出天然指向了专题化的数字学术产品。对数字人文相关专题数据库的研究并不在少,但主要聚焦于数据库介绍和调查、技术开发和需求分析等,对它的概念化和理论化尝试同样稀缺。可以说,“专题数据库”常常被视为是一项具体实务或一种实践方式,而并非一个具有理论意义的分析切口。

“作为基础”的专题数据库对于洞察数字人文有着独特的优势。专题数据库之所以“既新且旧”,正因为它从20世纪90年代以来,一直在人文社会科学研究中占据显著位置:轰轰烈烈的数字人文浪潮之前,“专题数据库”就是人文学者利用文献资源的基本途径[3]。即便到今天,大多数人文学者与数字人文的直接联系仍来自于专题数据库——作为一个贯穿“传统人文”到“数字人文”转变历程的关键实体,考察专题数据库的内涵演变可以帮助我们理解数字人文对人文社群的切实影响。此外,当前对数字人文的讨论多是从理论转型、范式演变、整体规划这些“自上而下”的视角展开,对设施建设、工程思维等方面的关注还有待加强,而专题数据库作为数字人文项目的实践成果之一,能够有效投射出设计、开发、维护、完善和利用等实务性流程和物质化要素,提供了一种“自下而上”的考察路径,对当下的主流视角具有补充作用。

基于此,本文的核心观点是:专题数据库是接合人文社群与技术脉络的界面,也是承载人文批判与技术转型的基石,要推进对数字人文领域的理解和认知,不仅仅要把“专题数据库”视为具化的实体,厘清其形态与内涵,更要把它作为“方法”,成为捕捉数字人文发展内涵与动向的监测仪。

2 作为方法:一种批判性的研究路径

本文尝试通过“专题数据库”与外部的宏大议题相连接,将其作为窥见数字人文庞杂体系的小切口,这一研究思路在很大程度上借鉴了近年来关注日增的“作为方法”的批判性路径。

“把XX作为方法”(来自日语中的“方法としての”,以下简称“作为方法”)是人文社科领域的一种独特表达或构词。这一构词起源于1960年竹内好“作为方法的亚洲”的演讲,沟口雄三教授在30年后的《作为方法的中国》中将之进一步发扬,旨在通过探寻“亚洲”“中国”等区域话语的主体性构建过程获得具有普遍性的知识[4]。1994年,沟口雄三在与汪晖的对谈中对日本学界“没有中国的中国学”进行了批判。沟口认为,中日有一千多年的交往,但日本本土到20世纪90年代仍然没有真正的中国研究。他以江户之后的日本学界为例,指出当时“日本的学者不关心同时代的中国(清朝),而关心宋明时代或古代的中国文化。为什么呢?这是因为他们是为了自己的统治而吸收中国的儒教,这种关心即使在明治以后也继续存在”[5],否定了这种以自我为中心的、带有想象性的汉学研究路径。解构即酝酿着重构,他据此提出“有中国又超越中国的中国学”的学术愿景。大体来讲,便是要通过走进真实的中国打造出一副“中国眼镜”,发现一个和欧洲原理相对应的“中国原理”,最终用来回望和认识日本自身——这一过程大体便可称为“作为方法的中国”。

在沟口雄三之后,随着陈光兴、孙歌等一批学者的引介,以“某某区域”(如华南、上海等等)作为方法在我国历史学、社会学和区域研究中迅速兴起。最近十年来,“作为方法”的使用语境进一步拓展,从“家”[6]到“民国”[7]、从“记忆”[8]到“平台”[9]等等,直到项飙颇为“出圈”的对话录《把自己作为方法》,“作为方法”几乎覆盖诸种事物及各类概念。恰如周晓虹教授所言,当下“无一不可以‘作为方法’。以致最时髦的反问恐怕倒是,究竟什么不可以‘作为方法’”[10]。

“把XX作为方法”的内核是一种批判性的理论视角。在全球化背景下,尤其在欧美主导的现代性话语体系中,世界各个区域复杂主体性的构建过程被隐匿,难以滋养多元的问题意识和学术立场。故而,“作为方法”最早作为一种对抗和批判的学术工具出现在区域国别研究中,之后又拓展到其他各类批判性研究之中。这一批判性视角的实现需要两个步骤:①跳脱预设和固有的思维框架(如区域研究中“中西”二元思维、“冲击—反应”理论等)与诸多先在性观念预设,认识到作为对象的“XX”在内涵上的多样性。一般来讲,为了还原其复杂内涵,需要系统考察和斟酌“XX”这一事物的发展趋势、内涵演变与相关话语的构建过程。②通过多样性和复杂性的发掘,将“XX”与更宏大层面的学术议题或社会议题联系起来,将其转换为一副眼镜(或谓“视角”),打造区别于预设和固有的理论框架,以支持新的观察、分析与思考。

“作为方法”的迅速扩散,大约可以视为多元主义对全球化以及欧美主导话语的挑战。研究者们旨在通过这一路径,跳脱预设性的学理框架,还原诸种区域、事物、概念的本来面貌,将它们安置到更加多元的理论显微镜之下进行观察——这种“还原”与“跳脱”对于数字人文领域其实同样重要(可详见6.3脚注中关于西蒙教授访谈的引用)。

3 把“专题数据库”作为方法

3.1 作为方法的“专题数据库”

“专题数据库”有时也被称为专题数字平台(门户)、领域数据库、特色数据库、学科/主题数据库等。在传统图书馆学研究中,“专题数据库”一般指的是专门性的资源(或宽泛意义上的“数据”)集合体,它所“库存”的资源/数据主要是围绕特定领域、人物、事件或问题聚集起来的[1,11]。这一定义描绘的专题数据库,其核心特质和内涵就是“资源/数据集合”。

但实际上,专题数据库从来都不可能只是信息资源的简单聚合,因为“资源之上,总有更多”。即便最古老的人文社科专题数据库,都需要为用户提供分类浏览或特定检索等利用途径,这使得这一数据集合体天然就拥有一定的工具特质;又譬如,由人文学者或团队建设的专题数据库多服务于特定研究需求,典型者如“中国近现代思想史研究专业数据库(1830-1930)”就是为“中国现代重要政治术语的形成”课题而专门设计[12],因而它们又往往具备潜在的问题发现属性。

随着时代的发展、技术的迭代和需求的变化,专题数据库呈现出越来越丰富的特质和属性;而随着数字人文成为一股潮流并把专题数据库作为这一潮流的主要成果,专题数据库的可能性被彻底激活了。把“专题数据库”作为方法,从本质上说,就是通过把握“专题数据库”在数字人文语境下的新特质,并基于这种理解探究数字人文领域的深层次内涵。

为了实现以上目的,依据前文“作为方法”的两个步骤,本文的研究进路包括两个阶段。阶段(1):探讨“专题数据库”的概念和内涵演变。通过调研一系列作为数字人文项目成果的专题数据库产品,分析专题数据库的主要形态与发展趋势,发掘数字人文变革在“专题数据库”这一“旧”实体身上留下的“新”痕迹。我们需要的不是对专题数据库的简单定义,而是在“资源/数据集合”的基础上,澄清“专题数据库”这一概念在数字人文实践中已经被广泛认同、却并没有被清晰定义和言明的那部分全新内涵。阶段(2):立足对“专题数据库”新特质和新属性的分析,将其视为一面认识数字人文的透镜,联结数字人文理论研究的关键文献,围绕“数字人文时代的专题数据库如何形成”这一问题,形成重新审视和反思数字人文的框架,深化对作为场域的数字人文的认识。

3.2 研究素材与研究过程

可以说,阶段(1)和阶段(2)贯穿了一系列具体问题:一方面,什么是专题数据库?在数字人文出现之前,它有什么核心特质?当我们把它视为数字人文项目的成果或一个重要部分,它又呈现出什么新特性?另一方面,专题数据库作为贯穿“人文”到“数字人文”转型的关键实体,它可以为我们提供什么样的独特视角和分析框架?透过这一视角/框架,我们如何更新对数字人文的认识,数字人文又如何展现出对传统人文领域的关系变革与结构性调整?以上的新知识,对于推进未来的数字人文研究与实践又有什么启发?

为了回应以上问题,笔者主要采用了带有扎根性质的定性研究路径。定性研究的素材选自《全球代表性数字人文专题数据库目录(暂名)》(以下简称《专题数据库目录》)(见文后“支撑数据1”)。《专题数据库目录》是本团队内部自建的数据集,收录了20世纪90年代至今1700余个专题数据库的基本信息(见表1)。该数据集在此前相关项目的沉淀数据基础上[13],进一步整合了不同信息源的专题数据库信息,主要包括:重要数字人文中心(主要依据centerNet等的数字人文中心名录)、数字人文资助方(如安德鲁·梅隆基金会)、数字人文资源聚集门户(如人文社会资料库名录检索)的项目数据与数据库信息,国内外学术论文的介绍和指引等。一些学者自行搜集和整理的项目/数据库清单也对本数据集起到补充作用,例如下文列举的“炸弹观察计划”数据库便是从DH GIS PROJECT博文中按图索骥而得[14]。

表1 《全球代表性数字人文专题数据库目录》元数据方案(部分)Table 1 "Catalog of Global Representative Digital Humanities Specialized Database" Metadata Scheme(Partial)

笔者按照3个原则从《专题数据库目录》中筛选出定性研究所需的样本专题数据库:(1)该库有与之关联的数字人文项目,并且项目的必备元数据要素相对完备;(2)具有一定的活跃度,例如最近3年有内容更新,或相关的数字人文项目处于活跃期/受资助期;(3)项目主持人或项目主持单位具有一定影响力或代表性。最终挑选出相关专题数据库341个,并于2022年6月到2023年8月期间进行了逐一访问和重新调查,其中可访问的有193个。

在调查过程中,我们基于数据库的内容、特点和建设方描述,对这些数据库在“资源/数据集合”之外的“特质/内涵”进行开放性编码(见文后“支撑数据2”),共形成380个“特质标签”。对这些标签进行剔除(删除出现频次少于19的标签)和归类后,最终筛选“工具箱”“发声筒”“透视镜”“赋能器”“探路仪”“文化库”“交际场”“思想集”8种主要的新特性。每一个样本专题数据库在聚集资源之外,都展现出以上8种新特性中的至少一种。

其后,根据国家社科基金青年项目“技术赋能视阈下人文学者的数字学术需求及其图书馆服务策略研究”对100余名人文社科研究者、数字人文项目参与者、图书馆/档案员的访谈素材[15-16](见文后“支撑数据3”),并结合重要的理论文献、学术报告与行业新闻,将8种新特性归纳为4个关键词,即:工具性(对应“工具箱”)、问题性(对应“探路仪”“思想集”)、体验性(对应“透视镜”“文化库”“交际场”)与社会性(对应“发声筒”“思想集”),又基于访谈加入一个新的关键特性“稳定性”。作为阶段(1)的研究结果,下文第四部分将对这五个特性展开详细讨论。

为了进一步讨论阶段(2)提出的各个问题,通过扎根方式将各个新特性与相应的访谈素材、理论文献等进行归因连接和编码(见文后“支撑数据2”),探讨数字人文的介入如何引致专题数据库在“资源/数据”集合的基础上演化出各种新特性。这一工作发掘出了“工程”“媒介”“物质”和“生态”等四方面要素,它们形塑了数字人文语境下的专题数据库,各自之间也互为牵引,构建起一个从专题数据库出发、诠释数字人文的理论框架,下文第五部分将对此进行介绍。

4 专题数据库的新特性

基于现有研究,我们更新了“专题数据库”的界定:专门性的资源(或宽泛意义上的“数据”)集合体,它所“库存”的资源/数据主要是围绕特定领域、人物、事件或问题聚集起来的;当其作为数字人文项目的研究成果或与相关项目密切关联时,为了更好地发掘专题资源/数据的潜力,还往往展现出工具性、问题性、体验性、社会性、稳定性等特征。

4.1 工具性

诚如上文所言,任何专题数据库都拥有诸如“检索”或“分类”等基本的工具性,否则便无法满足其用户对资源的利用需求。从这个角度来讲,作为“研究工具”的特质是天然嵌入其血液之中的,只不过传统上不会特别强调罢了。在数字人文的视域下,专题数据库的工具化更为显著,人文学者对于数字人文的首要期待便是提供分析工具——学界领袖们一直强调数字人文不仅仅是工具[17]。这些澄清之所以必要,恰恰因为其工具特质过于明显所致。

专题数据库的工具化趋势体现得最为明显的一点便是,多数专题数据库都拥有了相对完备的基础/通用工具功能。在今天,如果用户面对一个只有浏览和基本检索功能的数据库,他们的第一直觉往往是“简陋的”或“不满意的”。得益于模块化、可复用等开发资源的成熟,在数据库中嵌入高级检索、导航栏、可视化、表格化、GIS、OCR等基本工具(功能)的难度和成本持续降低。以Gale Scholar为代表,其多个历史文献/档案类的子库都采用同一套通用的工具模板,检索、可视化、文献分析、原始文本参阅等功能成为这些数据库的标配。此外,开发者往往还会基于数据库的资源特点开发具有针对性的专用工具,比较典型的如“中国哲学书电子化计划”“国学大师”等中小型数字人文站点。这些站点的很多工具如“相似段落资料库”“注音转换”“部首查询”“引得信息”等非常轻量化,却又因切中人文学者的需求而备受好评。

专题数据库的“通用工具”与“专用工具”之间并无明确的界限。一方面,许多曾经只在少数数据库上出现的专用功能,现在逐步呈现通用化、标配化的趋势,如可视化功能最具有代表性。另一方面,不同专题数据库之间经常通过不同方式实现功能的互相借用,例如借道API,专用的分析功能可以嵌入其他数据库之中;类似“引得数字平台”,则对MARKUS(码库思)进行二次开发将其作为平台的功能之一。专题数据库事实上成为了不同数字人文项目之间的媒介,通过工具功能的转换与调用在不同数字人文项目之间建立起隐秘的关联,进而将不同的数字人文社群联系在一起——这种联系方式在传统人文领域是相当罕见的。

4.2 问题性

在专题数据库选择特定专题资源的那一刻起,就埋下了相应的问题意识。对于人文学者来讲,推动数字人文项目的核心动机也在于学术问题的发现和解难。专题数据库作为数字人文项目的实体化成果,在当前的建设实践中,主要通过构建规模化、语义化、深度标注的数据基础支持一些新颖的研究思路,辅助学者社群发现偶然性知识,进而依赖社群的研究素养将其演化为正式的学术问题。

比较具有代表性的是芬兰语义计算研究小组(Sematic Computing Research Group,简称“SeCo小组”)开发的BiographySampo平台,该平台覆盖了13,100条与人物传记相关的数据(类似CBDB),并通过使用CIDOC DRM模型与至少16个外部的数据源进行了对接;基于这一数据,SeCo小组采用机器学习在知识图谱中挖掘出大量“有趣的”关联关系,梳理出整个数据库内人物、职业、地点等诸多数据类型之间的关系网络[18]。研究者可以在该数据库发现很多意料之外的关联,如某类职业的从业人员在某地的相似行为等等,Biography Sampo还为这种“关联”提供了自然语言解释。实际上,这便是通过Biography Sampo平台实现对群体传记学(prosopography)的支持。“上海图书馆古籍联合目录及循证平台”之于古籍循证方法[19],复旦大学“中国历史地理信息系统”之于HGIS(Historical or Humanities GIS,历史GIS)研究[20],均有与之相似之处。

虽然“问题性”是人文学者对数字人文的最大期待,但轰轰烈烈的数字人文革命尚未真正发生:一方面,有学者认为,数字人文尚未能证明其对人文问题具备独特的创新和解难能力,他们指出数字人文更多是利用数据库支撑的新方法和新数据来对已有结论进行扩展解释和重复验证。李点教授在关于数字人文“何作何为、何去何从”的文章中对此已做了系统的阐述[21]。另一方面,当前对加强“问题发现”功能的主要思路是期待专题数据库在提供数据的同时构建“可解释的工具”,以“达到破除算法黑箱、发现文本背后的生产逻辑的目的”[22]。然而,可解释性和透明性恰恰是当前AI环境下人类面临的最主要困难之一[23],这一学术进路似乎并不通畅。

4.3 体验性

传统的人文研究中就有强调“为大众而历史”的“公共史学”路径,在数字人文世界,这种面向公共的特质更为显著了。有相当一部分专题数据库(特别是那些由公共文化机构支持建设的)日益强调通过故事化、虚拟化、沉浸化、可视化的方式来引起公众兴趣——考虑到以上方式都以不同方式增强用户体验为目的,我们姑且将这一特质称为“体验性”。

一个可供讨论的例子便是炸弹观察计划(The Bomb Sight Project)。进入该项目数据库的主界面,迎面而来便是一张触目惊心的红点图(bombsight.org)。该数据库基于英国国家档案收藏的二战时期炸弹普查资料,展现了1940年到1941年“伦敦大轰炸”期间德国空袭英国时投下的炸弹分布和整体数量。通过基于地图的可视化方式,普罗大众可以直观感受到当时轰炸之迅猛、情况之危急[24]。

采用地图、虚拟3D技术、可视化、动画化、互动游戏等诸多方式来加强体验的专题数据库或类似平台还有很多,考虑到古籍活化、遗产活化等属于热门议题,这里无须赘述。有必要一提的是,在众多的案例中,笔者之所以选择炸弹观察计划,原因在于它在资料上是扎实的、在功能上是有效且简单的,这种特质和后文要进一步论述的“稳定性”有着密切关联。

4.4 社会性

如果说工具性和问题性原本便潜伏在传统专题数据库的内核里,那么,“社会性”和“体验性”一样,无疑是专题数据库在数字人文视域下呈现的全新特质。这两种特性的兴起,不仅与数字人文项目的资金来源、建设主体等有关,也受到人文社科研究的社会化倾向影响。“让学术进入公众生活”可能不是数字人文带来的新话题,却在数字化进程中得以更好地实现。

和“体验性”相比,“社会性”强调的是学术社会化的严肃面相。比如和“炸弹观察计划”看似雷同的“知你所在”(Know Your Place)项目,其数据库的主体界面之一也应用了GIS技术与可视化地图。该项目通过招募志愿者,对西英格兰地区8个郡的地图进行标注,发掘当地的遗产数据,强化地方的文化认同。其“社会性”还体现在许多细节之处,例如它特别标注了历史上特殊群体的活动地点,旨在让大众理解他们的生活轨迹和历史处境[25]。

与“知你所在”相比,“撕裂/分离”(Torn Apart/Separados)项目的社会改革意图更为鲜明。此项目发起于特朗普实施“零容忍”移民政策期间,当时,这一政策要求逮捕非法移民并将他们与未成年子女强行分离拘留[26]。项目团队利用来自美国移民和海关执法局(ICE)等多个源头的数据建立专题数据库,通过可视化的方式展现移民拘留状况的地理分布。为了及时、有力地回应“零容忍”政策,“撕裂/分离”项目从起意到发布仅用了几周的时间,最终引发社会热烈反响。这一项目与2011年成立的#transform DH小组有密切关联,该小组滥觞于数字人文大辩论时期,目的是“重新定义数字人文作为进行变革性社会正义学术研究的工具”,旨在通过数字人文的方式将诸多包容性议题带入公众视野[27]。

4.5 稳定性

在基于《专题数据库目录》的调查、分析和编码过程中,笔者并没有提取出“稳定性”这一特性。梳理了相关的访谈素材之后,再回过头考察各类专题数据库,很明显会发现:专题数据库大多采用了非常基础且成熟的建设模式和技术方案。

表面来看,这一特性似乎是反直觉的。毕竟多年来我们把数字人文视为具有颠覆性的领域,呼吁引入各种各样的新技术与新方法,而这些新颖的事物似乎总是前沿、激进且带有不稳定性的。但如果仔细观察:第一,我们讨论的“新技术”或“新方法”往往是相对于人文领域而言,它们在自然科学以及其他领域多有相对成熟的应用。第二,随着人类社会的数字化转型进程日益纵深,数据库建设的人才与技术成本都在迅速降低——这一点与20世纪80年代到新千禧年前后的情况大有不同。当时,专题数据库(有一些被称为“数字图书馆”)的建设常常需要国家或大型机构的专门投入,仅纸本文献的数字化便所费不赀,“建库”是一件专业、艰难、且高成本的事宜。第三,除了部分特别强调体验性的项目,数字人文耗资较大的技术投入主要集中在考古分析、图像监测等需要大型设备投入的领域,有很多还处于“实验室”阶段而没有发布为更大众化的“专题数据库”形态。

中国历代人物传记资料库(CBDB)是可以用来阐述稳定性的案例之一。作为业内最负知名度的数字人文项目和专题数据库,其技术逻辑相当简单,当然,其资料处理和数字化过程是繁复、精细且实用的(而这一点才是关键)。与此同时,我们也可以看到不少数字人文项目在经费上的困境、在人员招募上的乏力以及在技术应用方面的艰难,这又使得“稳定性”成为一种不得已的选择。最早接受笔者采访的一位开发者曾大吐苦水,“这个项目长期以来就只有我一个人进行开发……每年拿到的经费常常连我的工资发不出来”;同时,他也表达了自己对技术问题的看法,“静态网页是我们最好的选择,不必什么花里胡哨……我们也很重视体验,但我觉得吧,学人用户的体验就在内容和功能上,不在视觉层……”从更宏观的层面来看,如果考虑到科研投入额度的整体提高,今天的数字人文项目所获得的平均资助其实很难与早年的专题数据库比肩。

从专题数据库可持续发展方面来看,保持简单、稳定也是一个关键思路。伦敦国王学院的国王数字实验室(King's Digital Lab)在2015年成立后,就对其继承的自20世纪90年代以来的100个数字人文项目成果进行评估、研究并实施数字管护。该机构以有限资源成功维护多个项目的核心经验之一,就是通过将站点去前端化、去可视化、去动态化,保证其核心内容得以留存和迁徙[28]。

5 从专题数据库的视角重新认识数字人文

专题数据库在传统的“资源/数据集合”之外衍生出工具性、问题性、体验性等新特质,无疑与数字人文对传统人文领域的重构有着密切关系。通过归因研究并勾连相关的理论文献和研究进展,笔者发现,这些新特性主要源自数字人文的工程特质、媒介属性、物质维度和生态构成——这四个方面构建起一个从专题数据库出发的理论框架,展现了数字人文领域的权力结构与内在逻辑。

从这一“自下而上”的理论框架来看,其实数字人文领域与传统人文领域的内在逻辑相去甚远:与其说数字人文是对传统人文研究的“升级”,不如说,数字人文在某种程度上重新构建了一个新场域,建立了一套独属自己的规则。

5.1 数字人文的工程特质

从“稳定性”的讨论中,我们就可以明显窥见数字人文的工程特质,而“工具性”“问题性”也在一定程度上受到工程特质的牵引。金伟副教授曾指出,数字人文要“建立工程化思维建设模式”,最为重要的是“将实现相关工程的要素全部进行分析定性,然后根据有效运作的原理以结构化的方式逐步整合集成,最后构建出一个可供实践使用的具有规范化、标准化、模块化、系统化、程序化特征的产品”[29],这种“规范化、标准化、模块化、系统化、程序化”在某些时候是有利的,例如前文所提及的古籍循证与群体传记学,乃至于金观涛教授所言“有助于一种大尺度长程二阶反思意识的形成”[30]。但与此同时,这种程式化模式对人文社科的某些思辨回路是构成挑战的。

数字人文工程特质的另一影响,还在于它改变了人文研究课题的实施重点。2010年前后,后来曾主持知名数字人文基础设施项目“竹子计划”的查德·凯因兹(Chad Kainz)敏锐地指出,“在典型人文技术项目中,至少有三分之二的时间用于开发,而不是专注于学术研究”“许多项目用了很多精力在做‘又一个数据库’或‘又一个网站’”[31]。为了让数字人文重新把“学术研究”作为重点,“竹子计划”等强调“不要重复造轮子”的基础设施计划开始运作,并在一定程度上改变了“重开发轻研究”的模式。值得注意的是,与欧美相比,我国在数字人文基础设施建设方面依然亟待加强,由于相关的讨论很多,这里不再赘述。

5.2 数字人文的媒介属性

作为“资源/数据集合”的专题数据库本就承载了大量具有媒介价值的信息,而“工具性”“体验性”“社会性”等新特质更进一步凸显了“作为媒介”的数字人文。例如,从“工具性”层面来讲,通过专题数据库,数字人文不仅仅向研究者提供封装好的数字工具,更在潜移默化地传达项目构建的方法论框架(这是对“思辨性挑战”的一个绝佳注脚),传递项目开发者的学术认同和价值取向。如果说“工具性”展现的是数字人文作为“学术媒介”的可能,那么,“体验性”则诉说着数字人文成为一种新兴“大众媒介”的潜在威能,那些以可视化、沉浸式体验的数据库或平台正在成为“可感知的桥梁”[32],将特定主题的内容与信息带入民众的日常生活。事实上,当前数字人文日益受到公共文化机构重视的原因,恰在于其能够通过不同的表达方式唤起民众的情感共振。而“社会性”在“大众媒介”基础上又向前一步,体现了更为主动的输出姿态,具有很强的社会话语意识。

随着对数字人文媒介属性的觉察,一个重要的工作便是谨慎地思考其在当前宽阔的媒介谱系中的定位,与此同时,也应当认真考量数字人文作为媒介的立场、职责与伦理问题。

5.3 数字人文的物质维度

在专题数据库的特质考察中,不难觉察数字人文的物质化特征。例如,“稳定性”指向了运营数字人文的经费成本是数据库发展的重要制约,上文“问题性”论述的最后一段更揭露了外部技术环境对数据库建设的局限所在。

“物质性”本就是国际学界比较重视的话题,进入数字时代以后,我们常常惊叹数字信息资源区别于纸质信息资源的独特优势,譬如无成本的传输、无限度的复制、无边界的利用等等。然而,这些特性或特征在很大程度上都是遥远的神话。数字世界当然是有成本的、有边界、有限度的,因为各项功能的实现都需要存储设备、传输网络以及其他各类基础设施的投入和支撑。不少数字人文项目在立项之时主要考虑如何产出丰饶的数字化成果,对软硬件的升级迭代、服务器的承载和存续、技术框架的持续改变等问题常常欠乏关注,而这些工作全部需要实打实地投入,三五年即结项的经费投入模式一般不足以实现长久的可开放性和可维护性。可以说,唤醒当前研究中被屏蔽的物质性维度,有助于引导数字人文学者建立更加务实和具化的行动理念。

“物质性的回归”的意义还不仅止于优化数字人文项目运营管理模式,它还要求我们注意到看似没有边界的数字人文世界背后充满着不平等和不公平,正如Urszula Pawlicka-Deger博士所指出的,“数字人文领域所期望的多样性和包容性根植于基础设施的复杂性,而这些复杂性又深深嵌入于经济、政治和社会文化背景之中”[33]。

5.4 数字人文的生态构成

如果我们仔细考量专题数据库的每一个新特性,会发现它们之间似乎是矛盾的又可以是融洽的。譬如重视学术导向的“工具性”和“问题性”,或多或少与注重公众导向的“体验性”和“社会性”存在冲突;当然,我们也可以把“问题性”理解为“社会性”的基础,视其为一种以学术响应社会、改良社会的路径。退远一步来看,专题数据库在整个数字人文生态中处于相当独特的中介位置,例如,它既是相关机构和团队构筑数字人文项目的主要产出(越来越多国家社科基金项目以“数据库建设”或类似工作作为成果),同时也是人文社科研究者开展学术研究的起点(通过在专题数据库的检索和发现开始特定主题的研究工作)。可以说,专题数据库这些复合的新特质,是由数字人文这个领域生态的复杂性所决定的——不同学科之间的合作与角力、不同行业之间的对话与沟通、不同主体之间天差地别的诉求都在此熔为一炉。

数字人文这种跨学科、跨行业的复杂生态,是它的活力之源,也是它的熵增之始。笔者一直坚持,不要轻易地去划定数字人文的边界、不要轻易地给数字人文下绝对定义,这很容易断绝其持续发展的可能性。可以说,作为场域的数字人文早就脱离“人文研究升级版”的定位束缚。

学界和业界经常用“大帐篷”来描述数字人文生态,相比之下,本文更倾向于采用“大集市”的提法。对比“大帐篷”,“大集市”不仅展现了不同主体的共存,更强调主体之间的交流、互动,同时隐喻了互相竞争的潜在可能与互惠互易的最终结果导向。如果想要保持数字人文的活力,关键点或许就是建立灵活的规则,以打破传统学科范式僵化的话语模式。

6 AI 时代数字人文的发展趋势及其批判性研究

把“专题数据库”作为方法与视角,不仅仅是为了解构和重新认识数字人文,更关键的是帮助我们更好地理解外部要素对数字人文可能带来的影响——而眼下,最大的影响变量可能来自于AI。

在最近接连引爆舆论的各项技术热点中,只有AI足以让我们安之若素地将“时代”二字置于其后。AI的冲击是巨大的,它将进一步推动数字人文对传统学术场域中知识生产、学术传播、项目合作等关系的重构,再次改变权力话语与逻辑规则。下文将基于“工程-媒介-物质-生态”的理论框架做一简要的讨论。同时,这一讨论也是为了展示该框架的通用分析价值。

6.1 工程层面:AI对数字人文工作模式的重构

AI的影响先是在“产品之外”,其后再渗透到“产品之内”的各项要素。所谓“产品之外”,指的是对数字人文工程建设环境的改变,一个很有代表性的例子,便是在ChatGPT出现不久之后,长期参与CBDB项目的王宏甦研究员便提到,在“ChatGPT和AI编程工具Copilot这类人工智能工具已经完全融入日常工作。我们会和 ChatGPT讨论方案设计……在工作中我们会把ChatGPT当作平等的同事来讨论问题”,尽管“在程序设计和规范方面,ChatGPT是一位非常有经验的同事。而在人文的问题上,我们当下很少使用ChatGPT”[34]。在这个案例中,ChatGPT并非直接作为工具或功能嵌入到数据库之中,而是融入到数据库的工作环境和建设流程里。当然,基于笔者的调查,把AI作为同事的协同案例还是少数,更多“产品之外”的实践是将其作为学术生产工具,例如在项目调研中利用了语音转录、在文字录入或图片标注中采用AI视觉分析、在分词的工作里采用了自然语言处理等等。随着AI在数字人文工作环境与流程中的嵌入日深,其对专题数据库等工程“产品”的影响也将逐渐增强,进而真正为“工具性”“问题性”“体验性”等内在特质赋能,3.2提到的SeCo小组及其BiographySampo平台便是一例。

6.2 媒介层面:AI与数字人文的媒介性反思

2023年的ChatGPT备受瞩目,首要原因自然是技术层面的突破,是年7月底,《自然》杂志称ChatGPT正式攻破了图灵测试;但更重要的是,它将所有人都卷入了图灵的“模仿游戏”之中[35],让普罗大众都有机会窥探到通用人工智能(Artificial General Intelligence,即传统概念上具备人类智慧的“强AI”)来临的前兆。比尔·盖茨在同年3月发表名为《AI时代已然开始》的文章,认为ChatGPT的诞生是图形界面之后一个新的分水岭,之所以将其和Windows“图形界面”并列,正由于它们都拥有嵌入几乎所有日常场景的莫大潜力[36]。

显然,AI本身具有很强的媒介属性,足以触及每个人的日常生活,而当这种媒介性与数字人文独有的故事、文化与体验特质相互结合的时候,影响力是互为叠加的。与此同时,AI的诸多缺陷也将通过媒介性更大规模地传播开来。例如AI的算法偏见问题,Andrew Prescott教授就此在新近的论文中列举了从亚马逊到COMPAS的一系列案例,堪称精彩[37]。从这个角度来讲,数字人文对媒介性的反身性和责任式思考将更为迫切。

6.3 物质维度:AI与渐深的数字基础设施鸿沟

从物质性层面来讲,AI对数字人文的影响主要体现在基础设施鸿沟层面。与上文提到的各类技术一样,AI同样不是没有成本、无需代价的。在“AI新基建”的语境下,“算力”与“数据”“算法”一样都是关键的基础支撑,而“算力”完全是“物质性”的,缺乏算力的工程、团队和地区根本无力享用AI的恩赐,甚至可能成为一种诅咒。

值得一提的是,虽然本文把“专题数据库”作为方法主要依循“作为方法”(见1.1)的思想路径1本文最终选择了比“基础设施”更底层、更实体、更具化的“专题数据库”作为中心论述对象,其主要原因在于从我国当前的实践情况来看,许多与数字人文基础设施相关的工作仍处于起步阶段,“接地气”、大众化的专题数据库无疑是一个比“基础设施”更恰当的切入点。,但近来数字人文及相关研究领域也出现了一个与之非常相近的新课题,即是“把‘基础设施’作为方法”(infrastructural approaches),或谓“在数字人文框架下开展关键基础设施研究”[38],这一课题是数字人文直面“渐深的数字基础设施鸿沟”的理论工具。“把基础设施作为方法”的研究受到了STS(科学、技术和社会)领域的深刻影响,它特别强调从基础设施(包括物质性的和非物质性的技术、语言、平台、设备、机构等等)的角度认识数字人文,了解数字实践如何被政治、经济、文化等宏观要素影响,通过发现和解决其不平等、不均衡和不包容问题2西蒙·马奥尼教授在2023年一次访谈中很好地阐述了这种不平等和不包容,他指出“尽管数字人文学科基于开放的国际交流和包容的文化沟通等理念创立,但当前以英语为主的数字人文社区排斥了世界上大部分地区的学术参与……数字人文学科在一个英语化的环境中发展了近70年。学科语言的单一化导致以英文为中心的偏见,扭曲了数字人文学科的评估标准,限制了研究主题。迄今为止,数字人文领域的主要研究中心、协会和门户网站都设立在美国和英国;著名的数字人文期刊侧重于出版、推广、资助英语著作……由于语言障碍,中文和其他非拉丁文的著作版本都无法被列入数字人文目录,也很难被欧美同行引用”。见:刘雨微. 文化包容引领数字人文发展[N]. 中国社会科学报,2023-01-30(003)。,更好地推动全球范围内数字人文的发展[39]。这一议题在国际数字人文界引起了一定反响,成为了最新一卷《数字人文辩论》(Debates in the Digital Humanities)的主题。

6.4 生态层面:构建面向AI的规则迫在眉睫

我们很难简单预测或讨论AI对这一生态造成的影响,这一方面是由于数字人文生态本身就含有极其多元的主体和极其繁杂的变量(见5.4)。另一方面,AI这一概念本身也是复杂的:它不仅仅是技术体系或社会议题,同样有着深刻的历史文化根基。AI的人文根基是人类文明对自动化与机械化的想象,从克里特文明的机械铜人塔罗斯到《列子·汤问》中偃师制造的舞蹈倡优,再到《终结者》《黑客帝国》等知名电影中的反派“天网”和“母体”,这些以想象构筑的图景不仅具有内涵上的一致性,更展现了人类对非人智能日渐扩大的忧虑和畏惧。而在神话传说和流行文化之外,从笛卡尔到狄德罗等一众知识界先驱对“机器能思考吗”的提问展开了深刻且悠长的人文思考(直到图灵把重点转换到技术实现问题之上)[40]。以上堆积已久的复杂情绪和思想资源是和AI技术深刻绑定的,显然,人们在面对其他诸如区块链、云计算等技术概念时断不会带有如此“沉重”的包袱。如果说数字人文领域是“数字”和“人文”的交叉地带,那么AI大概天然就是最具代表性的数字人文议题。因此,我们在讨论AI进入数字人文生态的议题时,也不能只是关注它的技术面向。

如此一来,一个更有效的办法是主动出击,率先构筑在AI背景下数字人文生态的基本理念、协作原则以及社区文化。基于目前与AI相关的报告和研究,笔者认为,一些最核心的规则应该包括:

(1)坚持以“负责任创新”作为基本理念[41],强调AI的创新利用应该以“社会责任”为前提和要件。(2)人文学者必须进入“回路中”。在当前的AI训练与开发中,人与AI循环协作的“人在回路中”(Humans-in-the-Loop)是一种重要模式。这里的“人”不仅仅是“学者”,更应该是“人文学者以及相关研究群体”,通过让人介入机器学习与监督以推动系统的优化和对人文理念的内化[42]。(3)采用恰当的方式,将AI应用于数字人文项目中的隐私与其他方面的诸多风险公开化、透明化。(4)从宏观的基础设施与工程实践层面来说,呼吁和推动包容的全球数字人文社区的创建。

如果说(1)到(4)都需要外部非学术资源的介入,那么作为数字人文研究者,我们更要坚持的就是:(5)发展数字人文的批判性研究,将人文社科的批判性精神带入AI时代。

7 结语:信息资源管理学科的再发现与新发展

本文将“专题数据库”作为方法,不仅试图为重新发现和认知数字人文领域提供一种可能的新视角,还试图指出:信息资源管理学科不仅仅可以为数字人文及其他交叉领域提供技术、资源和方法的支持,更能为它们带去思想与理论层面的贡献。

在一级学科更名的背景下,新生的信息资源管理学科正在涉足日益广泛的跨学科研究,在数字人文之外,从公共文化到人机交互、从数据科学到健康信息……在这些新兴的学术场景之中,我们不能只是实践的行动者、平台的建设者和技术的应用者。我们最重要的学术任务之一,是把内部的学科概念转换并发展为普遍性的理论话语,是把信息资源管理认识世界的那副学术透镜带入到跨学科的对话与交流之中,为AI及更多前沿问题的解难提供理论支撑。

思想资源的传承与理论话语的构建永远是最重要的。毕竟——我们可以用“数字”来行动、也需要聆听“人文”的指导,但我们既然是“我们”,就应该用“信息资源管理”来思考和说话,就应该让“信息资源管理”发出它独有的声响。

支撑数据

支撑数据由作者自存储,E-mail:xiaop25@mail.sysu.edu.cn。

1. 全国科技名词委科研项目“数字人文高频术语及其在国家人文数据基础设施中的应用研究”课题组. Global-dh.xlsx.《全球代表性数字人文专题数据库目录(暂名)》数据集.

2. 肖鹏. coding.xlsx.专题数据库编码表.

3. 国家社科基金青年项目“技术赋能视阈下人文学者的数字学术需求及其图书馆服务策略研究”课题组.访谈.docx. 访谈转录/记录稿.

猜你喜欢
人文数据库数字
人文
北京纪事(2024年1期)2024-01-03 03:16:55
答数字
人文绍兴
中国三峡(2017年3期)2017-06-09 08:14:59
数据库
财经(2017年2期)2017-03-10 14:35:35
数字看G20
南风窗(2016年19期)2016-09-21 16:56:12
人文社科
全国新书目(2016年5期)2016-06-08 08:54:10
数据库
财经(2016年15期)2016-06-03 07:38:02
数据库
财经(2016年3期)2016-03-07 07:44:46
数据库
财经(2016年6期)2016-02-24 07:41:51
让人文光辉照耀未来