首页 >> 国际关系学 >> 头条新闻
21世纪以来中国的大数据国际关系研究 ——董青岭教授访谈
2019年11月06日 09:01 来源:《国际政治研究》2019年第4期 作者:董青岭 王海媚 字号

内容摘要:

关键词:

作者简介:

    内容摘要:进入21世纪以来,大数据及其分析技术迅速崛起,逐渐介入国际关系研究议程并发挥越来越大的作用。那么,应该如何看待大数据国际关系研究的缘起和发展?该研究包含哪些基本原理?我国学者在大数据国际关系研究领域有哪些尝试?这一研究的未来发展前景是怎样的?为此,本刊特约记者王海媚专访对外经济贸易大学国际关系学院董青岭教授,董教授主要从事大数据科学与国际关系的交叉研究,内容涵括大数据海外舆情监测与冲突预警、国际关系自然语言处理与社会情感挖掘、机器学习与国际关系智能分析等,代表作有《复合建构主义:进化合作与进化冲突》《大数据与机器学习:复杂社会的政治分析》《大数据安全态势感知与冲突预测》《新战争伦理:规范和约束致命性自主武器系统》等。

  作者单位:对外经济贸易大学国际关系学院

 

  一、大数据国际关系研究的缘起与发展

  王海媚(以下简称“王”):董教授您好!当前,大数据及其分析技术的崛起正在成为一种新的社会科学范式,您是如何看待大数据介入国际关系研究议程的?

  董青岭(以下简称“董”):当前,大数据及其分析技术的应用已经深入到社会生活的每一个角落。伴随着社会生活的“网络化”和“数字化”趋势的不断发展,数据体量将呈爆炸性增长、数据价值也将得到前所未有的释放,以数据公司和数据科学家为代表的数据精英正在成长为新的政治力量,新的社会结构也正围绕着数据的存储、挖掘和应用而展开。这主要体现在以下三个方面:首先,作为现代政治基础的民主选举活动正在被编程化的舆论“机器人”和各种“算法偏见”所操控,大数据及附着于数据之上的算法对决越来越显现为未来权力角逐的幕后驱动力量;其次,“数据驱动型外交”或依托于数据及其算法的“智慧型外交”正在开启人工智能时代的外交革命,尤其是在跨国政治沟通和冲突预防领域,大数据精准政治营销、大数据海外舆情监测,以及大数据反恐和早期冲突预警都已大显身手;再次,以智能决策和自主杀人为特征的军事机器人研发正在掀起新一轮军备竞赛,人类正在被自我创造的人工智能网络和漫无节制的数据使用所伤害。

  历史从来没有像今天这样,拥有数据便意味着主宰一切,数据即生活、数据即权力,一方面,我们越来越受益于数据革命所带来的种种生活便利、憧憬着一个高度智能化社会的到来;另一方面,我们又深刻恐惧于数据革命所带来的种种社会变革,数据的深度挖掘正使得我们的社会越来越透明化、越来越脆弱、越来越不安全。

  王:您能简单介绍一下大数据与国际关系相结合这一跨学科交叉研究的起源和发展吗?

  董:大数据介入国际关系研究正在受到越来越多研究者的关注,但其兴起和发展需要满足以下两方面条件:其一,有关研究对象的丰裕数据基础。随着社会生活网络化、数据化和智能化趋势的日渐增强,社会实践主体之间的高频互动每天将产生难以计数的数据痕迹,这使得国际关系研究能够获得比以往任何时期都更为丰富的数据信息。迈入大数据时代,国际关系研究存在走向“数据密集型科学研究”的可能;其二,有关数据处理的突破性技术进步。当前,大数据分析技术的进步,特别是非结构化数据库(如MongoDB和HBase)和分布式并行计算系统(如Hahoop和Spark)的出现,不仅解决了大体量混杂数据的采集、存储和计算问题,而且还能够使国际关系研究能够抵近观察微观主体之间的互动细节。正因如此,大数据及其分析技术的介入或将打破传统国际关系研究范式,传统范式强调以群体间政治为核心观察对象、以结构主义为主导分析路径、以小样本归纳为主要知识生产方式、以传统因果律为逻辑基础。大数据或许是我们重塑现行国际关系理论、外交指导思想及冲突预测方法的历史性契机。

  基于上述动因和背景,如果要粗线条地回顾一下大数据与国际关系研究的结合进程,我认为大体可以分为两个阶段:

  第一阶段可称之为“数据模拟阶段”即“计算机仿真实验阶段”。它肇始于1971年哈佛大学教授托马斯·谢林《隔离的动态模型》一文的发表,该文在计算机尚未普及甚至尚未成熟的年代,在学界率先提出未来的学者将兼具社会科学知识和编程技术,借助计算机的强大算力,学者们将就所研究问题生成随机模拟数据、建立博弈规则和形式模型,进而仿真社会互动进程、研究政治的动态演进,后世称之为“谢林模型”。简单来讲,“谢林模型”认为,计算机模拟不仅可以帮助学者解决大体量可观测样本的随机生成问题(如数十亿条电话号码、地理位置和身份信息),而且还可以使研究对象和推理过程通过编程技术动态可视化(如NetLogo软件对各种社会学、政治学和自然科学问题的可视化模拟)。在某种意义上,“谢林模型”不仅启发了后世有关社交网络和博弈论应用的模拟分析,而且还极大影响了学界有关种族、宗教、贫富和党派等对抗问题的理解,开启了计算机模拟与政治分析相结合的学术研究先河。沿着计算模拟这条路径,这一时期最引人注目的成果莫过于美国密歇根大学政治学与公共政策教授阿克塞尔罗德使用计算机模拟来破解“囚徒困境”,并写就《合作的进化》一书。

  第二阶段可称之为“数据分析阶段”,也可冠之以“大数据与机器学习阶段”。20世纪80年代中期后,很多学者对计算机模拟社会问题提出质疑,这些质疑点包括:其一,计算机模拟情景下的人际互动更加接近自然科学过程中的“变量控制实验”,在很大程度上刻意忽视或漠视了真实社会过程中真实数据与模拟数据的差异。在模拟过程中,不仅形式规则是由研究者主观设定,而且变量的挑选也受到研究者严格的条件限定,因为滤掉了某些至关重要的真实信息,有时模拟结果与真实社会情景相去甚远;其二,计算机模拟忽视了真实社会情景中人的相互学习和进化能力,忽略了在反反复复的社会互动中人类个体具有从实践中汲取经验教训并改进、优化行为模式的进化学习本能。就此而言,以“谢林模型”为代表的早期计算机模拟并未真正触及社会系统的开放性与复杂演进性。

  直到最近,由于数据体量的爆炸性增长、数据价值的不断释放和数据处理技术的突飞猛进,有学者开始关注到,大数据及用以处理大数据的机器学习技术要比计算机模拟更适合分析国际关系问题:首先,机器学习是在非过滤、非控制信息的情形下,利用算法程序从嘈杂数据中去归纳、分类和识别模式,而不是像计算机模拟那样利用形式逻辑去演绎规则,它对数据的处理尊重社会系统的开放性、研究变量的非控制性及测量对象的相互扰动性;其次,机器学习具有环境自适应性和学习进化特征,可以根据环境的变化感知数据的细微波动,进而重构模式识别并调整预测输出结果;再次,大数据在结构化数据之外试图容纳并分析各种非结构化数据(如海量的新闻报道、社交网络对话和网页浏览痕迹等),追求数据的多样性、混杂性而非精确性。就此而言,机器学习的优势恰恰在于具有从杂乱、混合数据中寻找可辨别模式的能力,因而,大数据与机器学习较传统研究方法更容易捕捉国际社会的复杂多变性和不确定性。

  王:目前,国内外学界在大数据应用于国际关系研究方面都开展了哪些研究、取得了怎样的成果?

  董:作为一种新兴事物,由于技术门槛的限制,当前大数据在国际关系领域中的应用并不是十分普遍和活跃,现有研究主要集中在以下两个方面:

  其一,面向实时数据自动采集的新型数据库建设,旨在利用大数据技术重构国际关系研究的底层数据基础。与传统的国际关系研究常用数据库,例如,战争相关因素数据库(COW)、乌普萨拉武装冲突数据库(UCDP)和全球恐怖主义数据库(GTD)不同, 新一代数据库的建设将着力应对当下汹涌而来的数据洪流,不仅数据体量巨大、数据产生速度快,而且数据维度和数据颗粒度也远超以前时代所能想象。在此情景下,以自动摘要和自动编码技术为核心的新一代数据库建设正在取代传统人工摘录和人工编码数据库,在这方面目前业已成型并被广泛使用的数据库如谷歌GDELT,这是一个基于谷歌Big Query 、面向全球、免费开放的滚动型即时新闻事件数据库,由美国乔治城大学教授卡里夫·利塔鲁于2013年创建,它不仅对新闻事件中的人物、组织、事件、语气等事件要素进行标签化提取,同时,还通过自动编码技术自动标注新闻事件的地理位置信息(即经纬度坐标),并且每15分钟实时更新一次。目前,该数据库已基本做到对某些国家政治新闻事件的即时监测、即时编码,其所提供的数据资料不仅包括时间序列数据,同时,还涵括地理空间信息,且每条数据都可核查、可验证,堪称真正意义上的“时空大数据”。

  其二,面向特定问题解决的算法模型研发,目的在于将国际关系理论与计算机智能分析相结合改善决策质量。譬如,通过协同过滤算法筛选恐怖嫌疑人、通过K-Means邻近算法进行特征聚类分析、通过PageRank算法进行网络链接分析,以及通过随机森林算法进行分类预测等。概括来说,基于算法的大数据国际关系应用重在规避数据噪音、挖掘数据关联,进而建立特征模式识别和进行分类预测。目前,大数据算法在国际关系中的应用主要集中在以下三个场景:第一,精准外交。通过抓取数据痕迹和聚类分析,精准圈定事件地域、事件人群及人群属性特征,定制化推送政治营销广告和实施精准公共外交战略;第二,冲突预防。通过数据监控和云计算,即时监测、锁定、跟进事态进展并自动生成事件报告和危机预警,动态掌控问题爆点,提前推进基于预测的预防性战略执行;第三,关联预测。通过多源数据收集和数据组合算法,在各种结构化和非结构化数据资源中发掘事件关联关系和节点因素,优化决策、合理配置资源。目前,在国际关系研究中经常用到的算法模型主要分为有监督学习和无监督学习两种,其中,有监督学习最常用的训练方法主要有支持向量机、贝叶斯网络、决策树和马尔科夫链等,而无监督学习则主要包括聚类分析和模式挖掘,另外诸如主成分分析、多元线性回归以及信息熵等数值分析法也经常被用来测度数据关联关系。

作者简介

姓名:董青岭 王海媚 工作单位:

转载请注明来源:中国社会科学网 (责编:陈茜)
W020180116412817190956.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
QQ图片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
内文页广告3(手机版).jpg
新国际.jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们
皇冠手机登录2