新的数据收集、储存、分析工具的出现,共同构建起大数据科学这门新学科。现代社会生活中产生的呈爆炸性增长的数据,是大数据科学的主要研究对象。大数据科学的出现,又为科学研究与社会发展提供了新的推动力。目前,不少科学研究都在一定程度上依赖于大数据科学。新数据处理方法可以提高科学发现的准确性和预测能力,并有助于确定未来的研究方向。学者们普遍认为,大数据给人类带来了新的数据分析技术与思维方式的变革。不过,有些学者认为大数据只是服务于科学研究的工具,不承认其具有独特的认识论地位。由数据集产生的知识在可靠性、可解释性等方面受到一定质疑,引发了对科学知识现有理解的挑战。探索大数据科学的认识论问题,可以对这一挑战进行回应,还可以推动认识论本身的发展。
变革知识产生方式
大数据科学,又被称为“数据密集型科学”,以显著增长的数据体积(容量)与累计速度为主要特征。人们对大数据的理解,虽然源于天文学、气象学等领域的研究人员处理大型复杂数据集这一历史,但我们并不能简单以数据容量的大小来定义“大数据”。格雷(james nicholas gray)认为,大数据科学是科学研究的第四范式。莱昂内利(sabina leonelli)认为,大数据具有认知力,能够在使用不同方法论工具与理论框架的研究群体间架起桥梁(这些群体往往因为概念分散、社会壁垒和技术难题等问题不能相互交流)。大数据科学要求数学、统计与计算机工程等技能的结合,发展出一种特定的认识论研究。这一认识论强调研究手段(建模、统计、模拟等)是研究目标和产出的重要推动力,也是影响研究结果的主要因素。不过,这种认识论又与只承认数据方法论意义的工具主义有着本质区别。
正如伽利略与牛顿以后自然科学的数学化成为近代科学的研究趋势一般,基于数据的科学逐渐成为当代研究发展的新方向。这一方向与计算科学中“数据驱动”概念研究密切相关,并且可以为统计学概率上的可能性研究结果进行辩护。在数据驱动的研究中,研究人员将数据集作为归纳推理的起点,而不需要依赖理论上的一些“先见”。甚至有研究者认为,这样的方式是“理论的终结”。传统的理论驱动方法需要预设一些“不可动摇”的理论原则,数据仅起到假设检验的作用。选择数据驱动还是理论驱动范式,决定了对数据性知识的不同态度。数据驱动下产生的知识,大多只具有相关联系,要寻找其中更为根本的因果联系,往往是较为困难的——这是一种自下而上的知识产生方式,本质依赖于归纳推理。归纳推理本身存在的问题,导致了一种更深层次的反思——从数据中推理出知识的方式是否有效?这样的知识是否具有普适性?
面临可靠性问题
随着社会生活逐步“数据化”,人类活动正受到越来越多的监控和记录,产生了巨大的数字足迹。“无孔不入”的监控设备似乎把人类所有的行为都记录在数据中,由此产生的海量数据成为研究的宝库。为从这类数据中提取知识,人们开发出越来越复杂的计算工具。大数据科学通过采用新颖、高效的方式来计划、实施、传播和评估研究,革新了知识的产生方式,但同时又引发了知识的可靠性问题。
传统科学知识被逻辑经验主义解释为:得到部分诠释的逻辑公理系统——知识的可靠性被逻辑形式上的可靠性所支撑。科学理论语义观者将科学解释为:与世界同构的模型集——知识的可靠性被模型与表征的可靠性所支撑。在传统认识论中,认识主体对数据的认识是次要的,对数据本体与认识的讨论往往是“细枝末节”。但随着自动化工具越发应用于对复杂数据的处理,是否应把机器当作新认识论的主体成为研究重点。萨普斯(patrick suppes)将统计方法引入哲学研究中,试图用概率与逻辑为数据推论的准确性进行辩护。随后,以统计为切入点(主要表现为相关性概念的引入),成为为大数据推理产生知识的合理性进行辩护的主要方式。范·弗拉森(bas c. van fraassen)也认同总结数据频率以建立数据模型的做法。基于此,可以得出一个结论:数据处理工具越好,从数据中提取的知识就越可靠。但这与对知识的一般性认识发生了冲突——知识不是以好坏而是用真假来评判的(如“知识是得到辩护的真信念”这一传统观点)。因此,将实践上的好坏作为大数据科学中知识可靠性的判断标准,往往是一种不明智的选择。
有研究者认为,数据是一种具有本体实在支撑的客观存在,从数据中获得知识具有客观基础。大数据科学中知识的积累是通过如下方式进行的:通过可靠的方法收集数据,由此产生大量可供分析的“数据型”事实,这些事实与其他数据具有某种意义上的相关性,可以通过深入挖掘这种相关性以获得更多知识。不过,许多研究者意识到,数据具有多种解释方式,如何区分正确与不正确的解释,在一定程度上决定了由此产生知识的真假,而这种区分往往是规范意义与实用意义上的。因此,一种基于数据解释的认识论研究开始进入哲学的视野——将数据作为认识论研究的核心内容,对有关科学知识的传统哲学观点提出了重大挑战。
应对可解释性问题
计算技术、建模工具和统计方法的应用,给我们带来了巨大的便利。但与此同时,大数据成为一个巨大的“混杂奖池”,能得到什么“奖品”,往往需要凭借工具的优劣(比如,监督学习、模型拟合、深度神经网络和搜索技术的应用,使数据分析技术成为“抽奖”的重要工具)。弗丽嘉(roman frigg)与赖斯(julian reiss)认为,计算科学中的模拟方法没有产生新的形而上学、认识论、语义学和方法论,也没有提出任何新的哲学问题。与模拟有关的哲学问题并非特定于模拟领域,而是大多为之前在其他语境中讨论过的问题及其变体。因此,他们主张,计算机模拟没有带来认识论上的新问题。汉弗莱斯(paul humphreys)反对这一观点,他认为,计算科学“没有为科学引入任何实质性的新东西”的观点,实际上忽视了实践可能与原则可能的区别。
纵观大数据科学研究的整个过程,有两个地方是较为模糊的。一方面,人类的认知能力存在局限性,对机器与数据的完全理解是无法实现的。另一方面,机器介入认识过程后,认识主客体不再具有明显界限。这引发了一个无法回避的知识产生过程的不透明性问题,即机器知识的可解释性问题。为分析大数据而开发的数学和计算工具,对于认识主体而言通常是不透明的。那么,由此产生结果的可信度应如何评估?看似牢固的科学大厦如何建立在“摇摇晃晃”的数据知识之上?因此,知识的可解释性问题亟待解决。尤其在人工智能领域看似一片繁荣的景象中,真正意义上的智能进步却尚未出现,而人工意识领域的前景也是模糊的。这意味着,对数据与智能的哲学认识,尤其是对数据的认识论研究,需要走在相关科学研究的前面。
大数据科学的认识论研究,是对哲学视域下科学知识本质问题的推进。鉴于近现代科学的巨大成功,科学界与哲学界往往以较为乐观的态度看待科学发展,而较少反思科学的本质、知识等基础问题,容易对基于数据知识的认识界限问题缺乏足够的重视,这给以计算为特征的新科学研究埋下了隐患。哲学的视野不应仅局限于对计算与数据的表面分析(如对软件与硬件迭代速度的关注、对某类算法优越性的分析等),而应去追问作为科学大厦地基的数据如何可信。大数据科学的认识论研究,需要将知识的可靠性与可解释性问题作为重点,推动认识论的新发展。这既是对传统认识论的延续,又是对当代科技发展给哲学提出新要求的回应,还是对相关科技伦理问题研究的奠基。
(本文系国家社科基金重点项目“大数据个性化知识的本体论意义与认识论价值研究”(18azx008)阶段性成果)
(作者单位:北京师范大学哲学学院)