大数据:科学的语言,哲学的解读

发表时间: 2024-03-18 11:32

《如何在大数据时代研究生命:从哲学的观点看》 [意]萨宾娜·莱昂内利 著 刘冠帅 译 社会科学文献出版社出版

■ 焦文宁

1931年,在伦敦举办的第二届国际科学技术史代表大会上,出于对当时主流观点的不满,前苏联物理学家赫森提交了论文《牛顿〈原理〉的社会经济根源》。该文以辩证唯物主义为方法,在占有大量物理学细节、经济社会史材料甚至牛顿私人通信的基础上,成功地证明了以下结论:牛顿力学的问世是历史性的,科学的发展不是一般认为的“知识—逻辑”的独立发展,而是以当时经济社会所抛出的问题、提供的经验材料为前提。此文一经发表,立即引起李约瑟、贝尔纳等科学家和科学史家的共鸣,直接开创了“科学外史”的研究进路。回过头来看,1687年出版的牛顿《自然哲学的数学原理》不仅标志着一次科学革命,也标记了一次世界观革命:人类越来越习惯于用数学思维“打开”自然,相竞之下,传统的审美式或神秘式自然理解必然式微。由史可知,自然科学研究不仅依赖于经济社会这一大前提,其具体内容与言说方式往往还将深刻地变革经济社会,改造人类的世界图景。

最近30年来,大数据逐渐成为第四次工业革命的战略性资源,数据驱动型自然科学研究蔚为风潮,各行各业已经或正在接受数据的洗礼。然而,熟知并非真知,可用未必可信。数据及数据基础设施的复杂性和不透明性已经超越了人类的理解。在这种情况下,未经省察的信任是危险的。“要识庐山真面目,须得跳出此山中”,当大数据成为科学甚至时代的语言时,我们想要追问这一变革的深意,就迫切地需要来自哲学的洞见。萨宾娜·莱昂内利专攻科学技术哲学,她的著作《如何在大数据时代研究生命:从哲学的观点看》在2018年荣获科学技术哲学领域大奖——拉卡托斯奖,是该领域中第一个关于数据中心主义的批判性研究。现在,它终于来到了中国读者的面前。

虽然本书的标题汇集了“大数据”“生命”和“哲学”这三个似乎有点深奥晦涩的关键词,但我们不必被它的标题吓到,也不应将本书视为仅供小部分专业人士使用的“特种读物”。标题中的“研究生命”具体指生物学研究,它在这里充当分析对象,用以说明数据在现代科学研究中扮演了怎样复杂的角色,最终服务于探讨这一复杂角色如何重塑科学知识的生成与传播。由于莱昂内利很好地平衡了专业性与可读性,所以实际上,阅读本书并不需要太多专业知识上的准备。

作者首先指出,以生物学研究为代表的自然科学研究从“理论中心主义”(数据是服务理论的工具)转向了“数据中心主义”(数据具有超越其生成语境的独立价值)。通过在线数据交流平台,数据得以在共享中“以多种不可预测的方式对未来的研究做出贡献,这只取决于它们接受何种类型的分析”。打个比方说,数据好比是“脚手架”,在一个理论“建成”后,“脚手架”将在别处继续发挥作用,它不再是一次性辅料,而是学术共同体的固定资产。

共享的前提是流通。作者注意到,现实中的数据流通绝非一帆风顺,“就像人类的旅行一样,它们通常是复杂而零散的,往往需要提前计划,并借助于几种类型的物质基础”,因此,作者用数据迁旅(data travel)来隐喻这一过程。通过阅读莱昂内利对数据迁旅的深度描述,读者将会意识到,迁旅的复杂性以及迁旅所涉及的基础设施,对科学研究产生了虽不起眼但绝非不重要的影响。例如,“欧洲核子研究中心大型强子对撞机的前代机器积累的数据保存在软盘上,因此很少有人查阅”,研究的共时性和历时性就这样被一个微小的细节削弱了;再如,由于数据平台的差异,一些数据可能在一些情况下被视为噪音(试想一个存放在苹果手机里的apk文件);又如,数据平台的设计选择将使某些研究路径更显眼,从而无形中压制了一些不太知名的研究传统。这些例证提示我们,必须厘清与数据迁旅相关的一系列物质、社会和制度条件,否则就无从发挥数据的全部潜力,理解它对整个科学领域的影响。

本书的优点不仅在于创新性的问题意识,也在于它是哲学研究中较为少见的“非书斋”作品。作者参加了大量学术会议,跟踪了不少生物学数据库的筹划、落地与运行,见证了它们的成功抑或不了了之。通过这些长期且细致的调查研究,莱昂内利才能富有洞见地指出那些被遗漏了的事实,而这也正是哲学研究的义务和价值——前提批判与方法反思。如作者所说,本书是一个“实证科学哲学”的成果。但是,作者不只是展示了丰富的经验证据,而是进一步在哲学的高度构思了以下几个根本问题:什么是数据?什么是实验?什么是理论?但比起在一篇书评中深入哲学问题,我更想着重介绍一下,莱昂内利从数据中心主义中见出了怎样的危险与机遇。

作者指出,数据迁旅将面临资金、人才、基础设施和语言隔阂这四个方面的掣肘,由于数据的这种社会嵌入性,数据实践可能会强化某些学术权力关系,放大科学研究中的不平等。但另一方面,由于数据中心主义强调对具体结果的传播,基于这一共识,数据使用者更有可能搁置理论分歧,走向更具开放性与多样性的知识实践。作者举例介绍说,“Synaptic Leap”平台就以促成大规模分布式合作的方式,帮助全球科学家推动了对热带疾病的研究。在这里,数据平台可被视为一个实现科学间对话的政治平台。

上述这些对数据中心主义的洞察表明,莱昂内利具备极强的哲学与科学素养,更难得的是,她还具备社会学的敏感性。本书的获奖则进一步证明,将科学技术哲学、科学研究和社会研究结合在一起可以取得怎样精彩的成就。

总之,《如何在大数据时代研究生命:从哲学的观点看》出色地回应了我们的根本关切:大数据对以生物学为代表的现代科学研究产生了什么影响?这种影响又是如何发生的?主题上的深刻性与广泛性意味着本书能够服务于多类读者。对于哲学领域的读者而言,本书具备工作方法上的示范价值,作者的研究风格很好地诠释了何谓“做哲学”——反思地介入其它领域,用思辨来助益更广阔领域的知识生产。正如莱昂内利所引述的杜威的说法:“当哲学不再是解决哲学家问题的工具,而是成为哲学家培养的解决人类问题的方法时,哲学就会恢复自我。”对于自然科学领域的读者而言,本书将启发他们去反复打量自己和学界的研究过程,从而更有可能发现盲点,进而提升科研质量,促进成果流通;对于政策制定者和更大多数的读者而言,本书充当了一个引子,它激励我们去思考:当数据成为这个时代的语言,这究竟意味着什么?

来源:文汇报