不同于横截面(cross-sectional)与时间序列(time-series)数据,面板数据(panel data)(或称纵列数据、追踪数据)同时包含多个横截面分析单位与时间序列。基于自身的特性,面板数据不仅提供了更全面的数据信息,而且有利于进行科学的因果分析。本文以面板数据分析为小切口,旨在呼吁:随着大数据时代的来临和各种统计软件的广泛推广,大数据分析对于推进中国政治学研究的科学化和拓展政治学研究的应用性上具有重要的战略意义。
数据驱动的实证政治学研究
不论自然科学还是社会科学,人类对于科学知识的探索均以质疑开始。然而,科学探索的终点不会只停留在质疑上,伟大的社会科学家不仅提出并且成功回答了一个个“为什么a会导致b发生”的经典问题。卡尔·马克思和马克斯·韦伯就成功地回答了“为什么资本主义经济发展会恶化普通工人的生活状态”和“新教伦理如何影响西方资本主义的发展”。当代世界正赶上第四次工业革命,如何利用信息化和智能化技术来回应重大社会问题和挑战自然成为了社会科学研究从业者的时代重任。政治学作为社会科学的支柱学科之一,肩负着同样的责任。
自20世纪中后期开始,深受“行为主义革命”的影响,现代政治学研究的侧重点开始发生转向。学术研究的旨趣和学术训练的模式逐渐从宏观理论建构和制度描述转变为利用科学方法为传统理论和政治实践提供可靠证据。21世纪以降,基于信息和计算机科学技术的革新,获取和利用大数据来推动政治学研究深入发展成为新的风潮。而当下以数据驱动的实证政治学研究的核心则是超越研究变量之间的相关性,寻求建立具有严格因果关系的政治学命题与理论,进而为中国政治学研究积累科学的知识,为国家政策出台提供可靠的实证基础。
科学思维的“因果革命”
因果推理是科学研究的核心。寻求在理论上和经验上都站得住脚的因果关系是政治科学乃至社会科学的核心任务。图灵奖得主、“贝叶斯网络”之父朱迪亚·珀尔(judea pearl)就将“因果推断”称为人类科学思维上的“新革命”,即“因果革命”。具体来说,因果推断旨在将研究假设(假定的变量或者事件之间的关系)从相关性描述推进到因果关系。
确立一项研究假设存在因果关系一般需要满足三个条件。第一,研究假设中的“解释变量”或“自变量”与“结果变量”或“因变量”具有高度的相关性。一个经典的例子就是,冰激凌的销量与遭鲨鱼袭击频率这两个事件在盛夏的海滩上往往呈现高度的相关性。那么,如何证明或者证伪这两个事件之间是存在因果关系的呢?第二,因果关系要求两个事件的出现顺序必须符合原因在前,结果在后。很明显,冰激凌的销量和鲨鱼袭击游人之间不存在这样的前因后果关系。因此,我们可以排除两个事件具有因果关系。第三,因果关系要求两个事件或者变量之间存在真实可靠的因果机制。换言之,遗漏变量或者是其他干扰因素可能共同影响了两个事件或者变量,使得两者之间呈现出一种“共变”关系。比如,高温天气可能是导致冰激凌销量和游人被鲨鱼袭击次数共同升高的幕后黑手。
面板数据因果推理的优势与策略
根据数据特征,观察数据主要分为三种类型:横截面数据、时间序列数据和面板或者纵列数据。横截面数据就是在一个给定时间对个人、集体、企业、城市、国家或一系列其他单位采集的样本数据,比如东亚几个国家在2021年的国内生产总值。时间序列数据是搜集一个或者若干变量在不同时间的观测值,比如中国过去10年国内生产总值的变化情况。面板数据是由数据集中每个横截面单位的一个时间序列组成,比如东亚所有国家过去10年的国内生产总值信息就是一个面板数据。
面板数据对于同一单位进行了多次观测,有利于我们控制不同观测单位的某些观测不到的特征,也可以帮助我们研究和评估行为与结果的滞后性,比如分析政府的经济政策影响东亚国家的经济增长。即便可以控制东亚国家在其他方面的变量,包括人口、资本、教育、年龄等因素,我们仍然无法考察和观测所有可能的干扰因素,尤其是国家之间由于历史、文化等形成的差异。面板数据分析技术可以通过忽略国家之间的差异,只观察一个国家内部政策的差异(一个国家政策在不同时间的变化)来进行因果推断。这种分析方法被称为面板固定效应模型(panel fixed effects model)。因为比较的是某个政策在同一个国家不同时间的政策效应,观察的单位是同质的,因此其他干扰因素,尤其是“不随时间变化”的可观察和不可观察的混淆变量就被控制起来了。
面板数据因果推断的高阶方法包括双重差分方法(difference-in-difference method)和综合控制个案方法(synthetic control method)。双重差分方法通过两个固定效应来估计一个政策在两个不同单位之间跨时间的效果。当两个单位符合反事实假设的时候,这个估值就是政策所具有的效果。经典的例子就是评估最低工资对当地就业率的影响。云南省和贵州省是邻居省,对云南实行提高最低工资政策具有的影响可以通过双重分差法来估计。具体而言,云南省在政策出台前后的差额再减去没有实行新政的贵州在政策出台前后的差额就是这项政策对于就业率的影响值。如果两省在政策出台之前的就业率保持平行(符合反事实假设),这个模型估计就具有因果效应。本质上,这个方法就是模拟实验里面的控制组和实验组来评估政策的效果。
综合控制个案方法可以说是双重差分方法的一个扩展。在社会科学研究中,找到一个可以符合平行假设的控制组往往很困难。综合控制个案方法通过赋予其他对比单位一定的权重,人为构造一个与实验组相似的模拟单位来进行因果推断。除了上面的两种高阶方法之外,面板数据还可以通过嵌套工具变量模型(instrumental variable method)、滞后变量模型(lagged dependent variable method)等来处理因果推断中面临的其他问题。总之,基于数据结构本身的特征与优势,面板数据分析极大地拓展了因果推断在社会科学,包括政治学研究中的应用。
大数据分析推动政治学研究范式变革
大数据时代的到来推动政治学研究范式的变革。大数据分析进一步推动“理论假设驱动”的政治科学研究模式,为政治决策和政策执行提供可靠、坚实的证据。大数据分析助力因果关系成为政治科学研究的强大工具。与机器学习相结合,大数据前沿研究将在重大政治问题的预测和预警上发挥至关重要的作用。大数据分析与因果关系相结合提升政治学学科研究的科学化程度。运用规范的研究设计与科学的数据分析,将政治现象背后的逻辑(机制)展示清楚,进而带来政治知识的创新。科学的知识生产方式所具有的可重复性与操作性将极大地提高政治学知识的科学积累。
诚如习近平总书记所言,“当前,世界百年未有之大变局加速演进,世界之变、时代之变、历史之变的特征更加明显,我国发展面临新的战略机遇、新的战略任务、新的战略阶段、新的战略要求、新的战略环境”。这要求政治学人直面中国面临的诸多国内外挑战。大数据分析在新冠肺炎疫情的科学防治、农村基层治理、社会保障与分配、国家形象构建、中国崛起和“一带一路”建设方面都具有巨大的应用空间。
(作者单位:云南大学政府管理学院政治学系)