周涛 | 计算经济学的代表性方法
2021-09-17 00:01:20
  • 0
  • 0
  • 1


来源:DataCastle数据城堡   作者:周涛


对于社会科学的研究人员而言,一个以前从未出现过的重要机会就是全世界都在经历的数据化浪潮。

经济社会发展的过程数据,人类活动的行为数据,被越来越多的数据采集终端和传感设备记录下来。然而,这些数据往往不是传统社会科学惯常处理的数据,而是卫星遥感、移动通讯、社交媒体等等新型数据。

一方面,理解和分析这类数据,需要前沿的数据挖掘和机器学习方法,这对以统计分析为主要工具的传统社会科学研究者提出了挑战。

另一方面,这些数据规模更大、实时性更强、精度更高,既可以降低小样本数据的稀疏性和偏差度,又可以减少过程中的不可见部分(例如经济普查数据就是典型的非实时数据,两个数据点之间往往跨越几年时间,中间的过程全然不可见),因此从原理上讲可以更好地感知社会经济态势,评价和修正原有理论,启发和孕育新理论,发现可能的异常,预测未来的趋势等等[1]。

大数据与智能技术的深度应用,导致了计算社会科学(ComputationalSocial Science)这一门新学科的涌现[2]。

我们近期的研究聚焦于计算社会经济学(Computational Socioeconomics),它基于大规模的真实数据,用定量化的手段研究社会经济发展中的各种现象,特别是与社会过程有关的经济发展问题,以及与经济发展有关的社会问题[3]。

计算社会经济学是社会科学中一个新兴的、极小的但又充满活力和指向未来的分支。它既可以被看作社会经济学因为方法论的变革所形成的新分支,也可以被看作计算社会科学因为研究对象的聚焦所形成的新分支。

计算社会经济学主要关注三个层面的问题:(1)全球社会经济发展,特别是发展中的不平衡问题[4]以及经济体的竞争力[5]等问题;(2)区域经济发展的状态评估[6]和路径选择[7]等问题;(3)个人社会经济地位,包括就业情况、财务情况、生活水平、身心健康等状况的量化和分析[8][9]。

最近,我将计算社会经济学的方法论(事实上也是计算社会科学的方法论)总结为三个具有代表性的方法[10]。


01、使用自然数据

这里讲的“自然数据”是指这些数据在采集的时候研究对象并不知道这些数据会被采集和分析,因此数据反映的是完全自然的行为,其真实性比所谓的“诚实信号”[11]还要真实。

诚实信号是利用被试长期穿戴的传感器采集的数据,但因为被试知道自己处在实验环境中,因此行为可能会发生变化。

比如我们最近利用微博上的关注网络分析了不同宗教信仰的用户之间的隔离程度[12]——这种宗教隔离方面的研究是很难通过问卷获取有效数据的,因为成本高且容易冒犯被试。


02、大规模互联网实验

从发现因果关系而不仅仅是相关关系的角度看,实验手段还是有得天独厚的优势!但是传统实验成本很高,被试数量往往非常有限,而且有的研究人员图方便(或者图便宜),就在自己学校里面(甚至自己班上)招募志愿者。这类研究结果的普适性甚至真实性都是值得怀疑的——科学家联合体最近分析了100个著名的心理学实验,发现复现率不足40%[13]。

互联网工具可以用于设计和推广大规模实验,从而避免志愿者人数少或者覆盖面不足的局限性(后者也无法完全克服)。

Facebook被怀疑操纵美国大选

Bond等人和Facebook合作在美国国会大选时给不同成年选民看不同的信息,进而观察社会动员,特别是朋友是否投票的行为,会不会对选民投票意愿产生影响[14]。这个实验涉及到了6100万被试,是非互联网手段不可想象的。


03、大数据与传统问卷调查的融合

通过社交媒体和智能手机,我们容易得到覆盖整个人口相当比例的数据,但是这些数据往往与我们直接感兴趣的问题(例如个人的社会地位、经济状况等)无关,我们称其为“容易获得的间接数据”。

与此同时,我们可以通过传统问卷调查(成本很高)或者很少一部分人与研究问题直接相关的数据,我们称其为“较难获得的直接数据”。

如果我们能够建立一个机器学习的模型,基于间接数据预测直接数据,就可以预测占人口相当比例的直接数据。Blumenstock等人[4]就是利用了这个方法,结合150万卢旺达人的手机数据和针对856个志愿者社会经济状况的调查问卷,绘制了整个卢旺达的财富地图。

以上这三方面是“计算”赋予社会经济学方法论的精粹!不管计算社会经济学会成为一个有独立边界的新科学分支,还是会完全融入到社会科学中去,上面讨论的这种由大数据和人工智能发展所驱动的新方法论,毫无疑问会成为未来社会科学主流的方法论,并且将不可逆转而深刻地改变整个社会科学。(完)

参考文献:
[1] A. Buyalskaya, M. Gallo, C. F. Camerer,The golden age of social science, PNAS 118 (2021) e2002923118.
[2] D. Lazer, et al., Computational SocialScience, Science 323 (2009) 721-723.
[3] J. Gao, Y.-C. Zhang, T. Zhou,Computational Socioeconomics, Physics Reports 817 (2019) 1-104.
[4] J. Blumenstock, G. Cadamuro, R. On,Predicting poverty and wealth from mobile phone metadata, Science 350 (2015)1073-1076.
[5] A. Tacchella, D. Mazzilli, L.Pietronero, A dynamical systems approach to gross domestic product forecasting,Nature Physics 14 (2018) 861-865.
[6] J. Gao, T. Zhou, Quantifying China'sregional economic complexity, Physica A 492 (2018) 1591-1603.
[7] J. Gao, B. Jun, A. Pentland, T. Zhou,C. A. Hidalgo, Spillovers across industries and regions in China's regionaleconomic diversification, Regional Studies 55 (2021) 1311-1326.
[8] S. Luo, F. Morone, C. Sarraute, M. Travizano, H. Makse, Inferring personaleconomic status from social network location, Nature Communications 8 (2017)15227.
[9] R. Di Clemente, et al., Sequences ofpurchases in credit card data reveal lifestyles in urban populations, NatureCommunications 9 (2018) 3330.
[10] T. Zhou, Representative methods ofcomputational socioeconomics, Journal of Physics: Complexity 2 (2021) 031002.
[11] A. Pentland, Honest Signals: How TheyShape Our World (MIT Press, 2019).
[12] J. Hu, Q.-M. Zhang, T. Zhou,Segregation in religion networks, EPJ Data Science 8 (2019) 6.
[13] Open Science Collaboration, Estimatingthe reproducability of psychological science, Science 349 (2015) aac4716.
[14] R. M. Bond, et al., A61-million-person experiment in social influence and political mobilization,Nature 489 2012) 295-298.
 
最新文章
相关阅读