随着信息科技的迅速发展,各种能够反映人类活动的数据呈爆炸性增长。人们愈发关注如何从海量数据中挖掘出有价值的信息,对大数据的理解也在不断加深。在大数据兴起之初,人们往往只将其与存储、传输、网络、计算相联系,因此其发展和应用领域颇具局限性。虽然此时计算机、自动化、通信科学等科学技术领域对大数据较为重视,但社会科学领域(如经济学)并未过多涉及大数据的有关研究,而是仍以结构化统计数据为样本,利用传统的计量经济方法进行实证研究。近年来,大数据在社会科学领域的优势愈发凸显。大数据具备样本海量、实时处理能力强、数据非结构化等特征,可以解决某些传统统计调查数据无法解决的问题。经济学研究也不可避免地与大数据愈发紧密地结合,使用大数据方法分析问题逐渐受到追捧。经济学家们利用大数据的实时特征建立预测模型,开展政策影响分析等工作,并运用大数据验证经济理论。因此,对大数据计量经济学研究进行系统性总结具有重要意义。
研究现状
实证经济学的研究以数据为基础,数据在验证经济理论、预测宏观经济走势、制定政策、企业或个人进行经济决策等方面,均具有不可或缺的作用。传统统计数据和计量经济方法对某些问题往往束手无策。此时,发挥大数据所具有的样本海量、更新实时、数据源渠道丰富等优势特征解决以往难以攻克的难题,是学者们使用大数据方法研究经济问题时的基本出发点。总体而言,大数据在经济学中的应用大致可以归为三类:优化传统经济指标或构建其先行指标、构建新的经济预测指标、建立经济变量间的联系。
在优化传统经济指标或构建其先行指标方面,大数据的作用不容小觑。对于某些经济指标(如gdp增长率、失业率、通货膨胀率等)的获取途径,传统的做法是通过大量的统计调查得到这些指标,无论在统计过程还是数据处理时都需要投入巨大成本。并且,由于统计过程需要耗费较长时间,数据发布通常存在滞后期,会导致经济运行实时监测、政策制定、战略决策等出现不同程度的偏误。因此,随着大数据处理能力的不断提升,众多经济学家开始利用大数据对原有经济指标进行优化,或构建具有经济意义的新指标。比如,2008年卡瓦洛(alberto cavallo)等人启动“十亿价格计划”,在网站上抓取900多个零售商所销售的1500多万种商品的在线价格,并由此计算每日实时通货膨胀指数。由于利用在线价格数据计算的通货膨胀指数可以避免传统调查所具有的种种弊端,因此通过该方法构建的通货膨胀指数往往更接近通胀的真实水平。丁焕峰等人找出了夜间灯光强度数据与经济活动之间的关系,认为经济运行情况(特别是gdp)在很大程度上可以由灯光强度反映出来。在一定条件下,灯光亮度甚至可以作为gdp的替代变量。李凤岐等人提出了一个搜索预测算法,可以自动挖掘百度搜索查询指数与经济指标之间的关系,由此筛选出具有代表性的查询数据,并以该数据作为先行指标,预测cpi等宏观经济指标。沈淑等人以消费者行为理论为基础,提出了一种基于kplsr方法和lasso机器学习方法的网络大数据预测模型,并由此对消费者信心指数进行了预测。埃德尔曼(benjamin edelman)利用求职网站上职位供应量和需求量的变化,对失业率进行了预测。
在构建新的经济预测指标方面,由于获取大数据的渠道丰富、所得内容海量、更新高效及时,经济学家借由大数据构建了许多新的具有经济意义的指标。与传统数据相比,由大数据构建的指标具有更强的经济预测能力。崔贤英(hyunyoung choi)认为,google趋势数据对于短期预测的效果较好,通过网络搜索数据可以发掘用户的行为特征,便于及早发现经济变化,从而建立了包含google趋势变量的季节性ar模型,对临近期的经济指标(如旅行目的地行情、汽车销量、消费信心等)进行了预测。经过验证发现,与传统方法相比,该方法的准确度提高了5%—20%。许伟把网络新闻情感与google搜索数据相结合,构建了数据挖掘集成模型,并把房地产价格指数的滞后项加入模型中,继而利用支持向量回归svr模型对房地产价格指数进行了预测。
在建立经济变量间的联系方面,一些看似无关的数据实则隐藏着事物之间的各种联系,而基于大数据方法的相关性分析,往往能够揭示不同事物间的内在联系。这甚至可以颠覆人们的传统认知,从而对已有理论进行适当修正。基于大数据方法建立经济变量间的联系,已成为大数据在经济研究中被关注范围最广也是最为核心的部分。李寅(yin li)等人为研究政府、行业和学界三者间联系的紧密程度对微观层面上中小企业业绩的影响,在相关网站上挖掘了271家美国中小型绿色食品公司的信息数据,并建立了政府、行业和学界三者间联系程度对公司销售增长的面板回归模型,最终验证了政府、行业和学界三者间联系越紧密,企业的销售增长幅度越快。莫特(helen susannah moat)等人研究了google和wikipedia网站上与金融有关的搜索数据和股市运行间存在的关系,并通过在线搜索数据建立了先行指标,从而对股市行情进行了有效的预测。张毓隆(alain yee loong chong)等人为研究在线促销和在线评论两个变量是否可以预测消费者的购买行为,并比较两个变量的预测效果有何差异,基于amazon网站的数据,建立了产品销量、折扣、免运费,以及用户好评、差评等变量间的神经网络预测模型,发现上述变量均能预测消费者的购买行为,但用户评论的预测效果最优。赖怡冰以区域经济学的相关理论为基础,基于大数据及空间计量经济模型理论,对广东省的区域经济发展状况及影响因素进行了实证分析。探索性空间数据分析结果表明,广东省区域经济发展具有显著的空间相关性,纳入空间效应的计量经济模型结果表明第二产业增加值、规模以上工业增加值、技术和政府政策是广东省区域经济发展的主要影响因素。施耐德(matthew j. schneider)等人利用词袋模型(bag-of-words)对用户评论文本进行自动处理,并基于amazon网站的用户评论对笔记本电脑一周后的销售情况进行了预测,经检验发现预测结果比没有考虑用户评论时的模型更加准确。
面临问题
虽然近几年将大数据应用在经济学领域的研究快速兴起,但大数据计量经济分析仍存在一些问题,具体表现如下。
第一,大数据的获取途径仍存在各种障碍。当前,大数据主要为政府、银行及互联网公司等所掌握,不会轻易出售或公开这些数据。因此,很多时候经济学家难以直接获取核心的大数据资源来支撑他们的研究。不仅如此,对于一些涉及个人信息的大数据,由于受到法律和道德等多方面约束,经济学家也难以对其充分利用。这导致在目前的经济研究中,对大数据的获取往往只能通过搜索数据这类渠道。因此,未来需要着力解决大数据获取的相关问题,这也是促进大数据应用于经济研究中最关键的一环。
第二,掌握大数据处理技术并非易事。大数据是源于计算机领域的术语,经济学家们最近十余年才开始真正关注大数据。基于大数据的研究融合了各个学科,其中包括计算机、数学、经济学、心理学等领域的知识。因此,对于不少经济学家来说,机器学习、数据挖掘等方法并非其所长,一些复杂的研究需要计算机和数学方面的专家协助完成,这对大数据应用于经济学研究造成了一定限制。未来,经济学家需要抓紧掌握有关大数据获取和处理的相关技术,并给学者们的跨学科合作提供更多机会,由此凸显大数据在经济领域中的力量。
第三,基于大数据的经济分析方法的相关理论基础尚未夯实。一方面,高维大数据容易使变量间产生相关性。虽然可以通过降维的方式缓解这一问题,但不同于传统计量经济,大数据降维的理论意义目前仍有争议。另一方面,学界对于大数据研究方法的本质仍未达成一致:基于大数据的研究方法是否仍是像传统统计那样的样本分析,还是属于基于总体的分析?对于真正的总体,大数据是否也只能算其中一个大样本,甚至可能是有偏的大样本?目前,基于大数据的经济分析主要是对变量间相关性的探讨,而无法涉及因果关系,因此需要进一步提高基于大数据的经济解释能力。
未来展望
改革开放40余年,我国经济发展迅速、科技水平不断进步。“数字中国”和“智慧社会”是我国的重要发展目标。大数据计量经济学的发展前景广阔,未来可能在以下两个方面实现进一步突破。
第一,学术和学科方面。为培育我国大数据计量经济学领域引领性和原创性学术成果,要加强学术人才培养,积极建设国家智库,开展学术与学科创新,从而形成一批可以服务国家战略需求、以量化分析为核心、基础理论与应用研究相结合的重要成果。
第二,政策应用方面。为发挥大数据计量经济在国家治理与科学决策方面的作用,应从我国实际出发,在具体的经济问题中运用恰当的政策分析与评估方法。为提高新时期我国经济和金融风险的防控能力,应充分利用基于大数据计量建模的预测方法,提供科学有效的政策建议。
(作者单位:中国社会科学院数量经济与技术经济研究所;南开大学经济与社会发展研究院)