第三节——计算社会科学的四大支柱:核心任务、解决的问题与领域特性

计算社会科学作为一个新兴的、充满活力的研究领域,其独特性和核心贡献可以通过它如何系统性地、创新性地执行社会科学研究的四大基本任务来体现。这四大任务——描述、预测、因果推断和模拟——构成了计算社会科学研究实践的四大支柱,它们不仅界定了领域的主要活动范围,也塑造了其方法论特征和知识追求的目标。正是围绕这四大任务,计算社会科学整合了新的数据资源、计算能力和跨学科的理论视角,以应对数字时代提出的新挑战,并深化我们对复杂社会世界的理解。本部分将逐一深入探讨这四大核心任务在计算社会科学框架下的内涵、所解决的关键问题、所依赖的核心方法,以及这些任务共同塑造的计算社会科学的鲜明特征与性质。

任务一:CSS 赋能的描述——绘制数字社会的全景图

任务内涵与目标

描述性研究旨在回答“是什么?”的问题,即对社会现象的特征、分布、结构、模式和随时间的变化进行准确、全面、深入的刻画。它是所有科学探索的基础,为理论构建、假设提出和后续的解释或预测提供经验起点。在计算社会科学的语境下,描述性任务的目标是利用大规模、多样化、高粒度的数字数据和先进的计算分析与可视化技术,超越传统描述方法的局限,揭示出那些在小规模、静态、结构化数据中难以或不可能观察到的复杂社会图景。 其目标是绘制出数字社会更为全面、精细、动态和结构化的“地图”或“画像”。

解决的关键问题

传统的描述性社会科学研究(如基于调查的社会概览、基于官方统计的人口结构分析)虽然重要,但在面对数字时代的复杂社会现象时,往往难以回答以下层次的问题:

  • 在一个拥有数百万甚至数十亿节点和连接的在线社交网络中,真实的社群结构是怎样的?哪些是核心社群,哪些是边缘社群?它们之间如何互动连接?(e.g., Newman & Girvan, 2004)

  • 一场大规模的在线社会运动或信息疫情,其信息传播的实际路径、速度、范围和关键节点是什么?信息是如何跨越不同平台和人群进行扩散的?(e.g., Centola, 2010; Vosoughi et al., 2018)

  • 海量的用户生成内容(如推文、博客、评论)中,公众对于某个特定政策、事件或社会议题的集体情绪状态(如喜悦、愤怒、恐惧)是如何随时间动态演变的?存在哪些主要的意见派别或话语框架?(e.g., Bollen et al., 2011; DiMaggio et al., 2013) 国内学者如汪静莹等(2016)也基于微博数据分析情绪变化。

  • 基于大规模移动定位数据或在线地理标记信息,城市内部的居民活动模式、功能区域划分、通勤流动网络以及社会隔离的空间格局呈现出怎样的细微特征?(e.g., Blumenstock et al., 2015; Shelton et al., 2015)

  • 在庞大的学术引用网络或企业合作网络中,知识传播的核心路径、学科交叉的结构特征、创新产生的关键位置在哪里?(e.g., Uzzi et al., 2013)

  • 大规模的在线行为数据(如购物、浏览、搜索)揭示了哪些消费模式、文化品味或生活方式的群体性差异与集聚?这些模式如何与传统的社会分层因素(如阶级、教育)相关联?(e.g., Goel et al., 2010)。 这些问题都需要能够处理海量、复杂(网络、文本、时空)数据的描述性方法才能有效回答。

核心赋能方法

计算社会科学通过引入一系列计算工具和方法(俞立平,2023;吕鹏,2024),极大地增强了描述能力:

  • 网络分析 (Network Analysis): 利用图论算法和网络科学原理,对大规模关系数据(社交网络、通信网络、引用网络、交易网络等)进行结构分析和可视化。包括计算各种网络度量(中心性、聚类系数、路径长度)、进行社群检测(Community Detection)、识别关键节点和连接(如桥接点、结构洞)、可视化网络布局等,以揭示隐藏的社会结构。

  • 自然语言处理 (Natural Language Processing, NLP): 应用于大规模文本语料(社交媒体帖子、新闻、评论、政治文献、历史档案等)。包括文本预处理、词频统计、关键词提取;更高级的技术如情感分析(Sentiment Analysis)来量化文本中的情绪倾向;主题建模(Topic Modeling, 如 LDA)来发现文本集合中隐藏的主题结构;命名实体识别(NER)和关系抽取(RE)来提取关键信息;词嵌入(Word Embeddings, 如 Word2Vec, GloVe)和句子/文档嵌入(如 BERT, GPT 等大模型)来捕捉词语和文本的语义关系,进而分析话语模式、意识形态差异等。

  • 地理空间分析 (Geospatial Analysis) 与地理可视化: 利用 GIS 技术和空间统计方法,分析带有地理位置信息的数据(如手机信令数据、GPS 轨迹、社交媒体签到数据)。包括绘制热力图(Heatmaps)展示密度分布、计算空间自相关(Spatial Autocorrelation)检验集聚模式、进行空间聚类(Spatial Clustering)识别区域、可视化流动模式(Flow Maps)等,以揭示社会现象的空间维度。

  • 数据可视化 (Data Visualization): 利用先进的计算可视化技术(如图形库 D3.js, Plotly, Gephi 等)将大规模、高维度的数据转化为直观、可交互的图形表示。不仅包括传统的统计图表,更强调对复杂结构(如网络、层次、时空动态)的有效呈现,帮助研究者探索数据、发现模式、交流发现。

  • 大规模数据处理与挖掘 (Large-scale Data Processing and Mining): 利用分布式计算框架(如 Spark)和数据库技术处理海量数据;应用聚类(Clustering)、降维(Dimensionality Reduction, 如 PCA, t-SNE, UMAP)、关联规则挖掘(Association Rule Mining)等数据挖掘算法来发现数据中未知的模式和结构。

通过综合运用这些方法,CSS 能够提供对社会现象前所未有的“全景式”(panoramic)、“细粒度”(granular)和“动态性”(dynamic)描述。 这种描述不再局限于抽样样本的统计推断,而是能够直接呈现大规模系统(有时甚至是全样本,即萨尔加尼克所说的“N=all”的可能性)的复杂性和异质性,为社会科学理论提供了更丰富、更精确的经验基础。

任务二:CSS 赋能的预测——把握社会脉搏与未来轨迹

任务内涵与目标

预测性研究旨在回答“将会怎样?”或“属于哪类?”的问题,即利用历史和当前的数据来预测未来的社会结果、个体行为或对未观测到的案例进行分类。在 CSS 语境下,预测任务的目标是利用大规模、高维度的数字痕迹数据和机器学习等先进算法,显著提升对某些社会现象预测的准确性、时效性和粒度,超越传统预测模型的局限。 其目标不仅在于获得准确的预测本身(这在许多应用场景下具有直接价值),也在于通过预测实践来检验我们对社会过程的理解深度,并为理解预测模型背后的社会逻辑(或偏差)提供契机。国内研究如陈云松等(2020)也强调了基于机器学习的预测作为一种新研究范式的重要性。

解决的关键问题

  • 个体行为预测: 基于用户的历史行为、社交网络、个人属性等信息,预测其未来可能做出的选择,如是否会点击某个广告、购买某件商品、阅读某篇文章、从某个平台流失、参与某项政治活动(如投票、捐款)、甚至出现某些健康风险(如抑郁倾向,de Choudhury et al., 2014;白朔天等,2014)?(e.g., Kleinberg et al., 2015; Backstrom et al., 2010)

  • 群体动态与集体行为预测: 预测某条信息(新闻、谣言、模因)在社交网络上的流行度或传播范围?某个话题的舆论热度会如何演变?金融市场的价格波动趋势如何?某个地区的犯罪率或失业率在下一周期会上升还是下降? (e.g., Preis et al., 2013; Glaeser et al., 1996; Perry, 2013)

  • 宏观社会结果预测: 预测选举结果(候选人得票率、政党获胜概率)?流行病的爆发规模和地理扩散模式?经济衰退或复苏的信号?国际冲突的风险? (e.g., Beauchamp, 2017; Vespignani, 2009; Choi & Varian, 2012; Chadefaux, 2014)

  • 分类与识别: 对个体或内容进行分类,如识别网络水军或机器人账号?判断文本的情感极性或是否为虚假信息?根据消费行为划分用户群体?根据卫星图像识别贫困地区? (e.g., Ferrara et al., 2016; Pang & Lee, 2008; Jean et al., 2016) 这些预测任务往往涉及高维特征、复杂的非线性关系、海量数据以及对实时性的要求,是传统统计模型难以胜任的。

核心赋能方法

CSS 主要借助机器学习(Machine Learning)和数据科学(Data Science)工具箱来执行预测任务:

  • 监督学习 (Supervised Learning): 这是预测任务的核心方法。给定一组带有已知标签(结果)的训练数据,算法学习一个从输入特征到输出标签的映射函数。

  • 分类 (Classification): 预测离散类别标签(如投票给 A 或 B,是/否垃圾邮件)。常用算法包括逻辑回归(Logistic Regression)、支持向量机(Support Vector Machines, SVM)、朴素贝叶斯(Naive Bayes)、决策树(Decision Trees)、随机森林(Random Forests)、梯度提升机(Gradient Boosting Machines, 如 XGBoost, LightGBM)、神经网络(Neural Networks)等。

  • 回归 (Regression): 预测连续数值结果(如信息流行度、股价、得票率)。除了线性回归,还包括岭回归(Ridge)、LASSO、以及上述多种算法的回归版本。

  • 深度学习 (Deep Learning): 作为机器学习的一个分支,利用深层神经网络(如 CNNs, RNNs, LSTMs, Transformers)在处理具有复杂结构的数据(如图像、文本、时间序列、网络)时表现出色,尤其在自然语言处理和计算机视觉相关的预测任务中取得了突破性进展。

  • 特征工程 (Feature Engineering): 从原始数据中提取、构造和选择对预测目标最有用的特征变量。在大数据背景下,这可能涉及处理高维稀疏数据、文本表示(如 TF-IDF, embeddings)、网络特征(如中心性度量)、时空特征等。好的特征工程往往对预测性能至关重要。

  • 模型评估与选择 (Model Evaluation and Selection): 使用恰当的评估指标(如准确率、精确率、召回率、F1 分数、AUC 用于分类;RMSE、MAE、R²用于回归)和交叉验证(Cross-validation)等技术来评估模型在未见数据上的泛化能力,并选择最优模型。

  • 时间序列预测 (Time Series Forecasting): 针对具有时间依赖性的数据(如股价、舆论指数),使用 ARIMA、指数平滑、向量自回归(VAR)、以及基于 RNN/LSTM/Transformer 的深度学习模型进行预测。

CSS 赋能的预测,其优势在于能够处理海量、高维、异构数据,自动发现复杂的非线性模式,并可能达到比传统模型更高的预测精度。 然而,预测任务在 CSS 中也面临诸多挑战:社会系统的内在随机性和复杂性使得精确预测极为困难;模型的预测性能可能随时间推移而衰减;预测结果往往缺乏直观的因果解释(“黑箱”问题);以及前述的公平性、问责性和透明性 (FAT/FAccT) 等伦理问题。因此,CSS 领域的预测研究不仅追求精度提升,也日益关注模型的可解释性 (Explainable AI, XAI) 、稳健性 (Robustness)、公平性 (Fairness)以及预测与理论解释之间的关系。

任务三:CSS 赋能的因果推断——在复杂世界中探寻“为什么”

任务内涵与目标

因果推断旨在回答“为什么?”(探寻原因)和“如果...会怎样?”(评估干预效果)的问题,即识别变量之间的因果关系,并量化原因对结果的影响程度。这是科学研究(尤其是社会科学和政策评估)的核心目标,因为它关乎我们对世界运行机制的理解以及采取有效行动改变世界的能力。在 CSS 语境下,因果推断任务的目标是利用大规模数字数据(包括实验数据和观测数据)以及融合了统计学、计量经济学和机器学习思想的先进方法,在日益复杂的数据环境(高维混淆、非线性关系、异质性效应)中进行更稳健、更可信、更细致的因果效应识别与估计。

解决的关键问题

CSS 致力于在以下方面增强社会科学的因果推断能力,以回答诸如此类的问题:

  • 评估大规模干预的效果: 某项在线教育计划是否真的提高了学生的学习成绩?社交媒体平台上的某种信息干预(如事实核查标签)能否有效减少虚假信息的传播?政府发放的电子消费券对刺激地方经济有多大作用?这些问题可以通过大规模在线实验(A/B测试)或利用数字痕迹数据进行准实验评估来回答。(e.g., Kohavi et al., 2020; Coppock et al., 2021)

  • 处理观测数据中的高维混淆: 在研究社交媒体使用对心理健康(如抑郁、幸福感)的影响时,如何控制大量潜在的混淆因素(如用户的个性特征、线下社交活动、生活压力事件等——这些因素可能部分反映在用户的数字足迹中)?(e.g., Orben & Przybylski, 2019; Braghieri et al., 2022)

  • 识别异质性处理效应 (HTE): 某项就业培训政策对不同背景(如年龄、性别、教育程度、先前工作经历)的失业者效果是否不同?理解HTE有助于设计更具针对性和公平性的政策。大规模数据为估计HTE提供了可能性。(e.g., Athey & Imbens, 2016; Davis & Heller, 2017)。

  • 利用网络数据进行因果推断: 个体的行为(如采纳新技术、参与抗议)是否受到其社交网络邻居的影响(社会传染或同伴效应)?如何区分影响是源于社会互动(因果效应)还是仅仅因为相似的人倾向于连接在一起(同质性混淆)?网络结构本身(如中心性位置)是否对个体的结果(如职业成功)有因果影响?这需要处理网络依赖性(干扰/溢出效应)和网络形成内生性等复杂问题。(e.g., Shalizi & Thomas, 2011; Aronow & Samii, 2017; Ugander et al., 2012)

  • 打开机制的“黑箱”: 不仅要估计处理的总体效果,还要理解效果是通过哪些中介机制(mediating mechanisms)产生的。例如,一项旨在提高投票率的短信提醒,是主要通过提高信息获取度起作用,还是通过激活社会规范?利用丰富的过程数据(process data)可能有助于进行因果中介分析(causal mediation analysis)。(e.g., Imai et al., 2011) 这些问题都要求超越传统的回归分析框架,采用更精密的因果推断设计和方法。

核心赋能方法

CSS 在因果推断方面的发展,体现了对传统因果推断思想(如图模型、潜在结果框架)的继承,以及与新数据类型和机器学习方法的融合:

  • 大规模在线实验 (Large-scale Online Experiments / A/B Testing): 利用互联网平台作为“实验室”,对大量用户进行随机分组,测试不同版本的网页、产品、算法或信息干预的效果。这是在真实世界环境中获得可靠因果证据的强大途径,但需关注其伦理、外部效度(平台效应、样本代表性)和长期效应问题。

  • 准实验设计 (Quasi-experimental Designs) 的深化应用: 利用大规模、细粒度数据,更精确地识别和利用自然发生或政策形成的“准随机性”来源。例如,利用精确的时间戳和地理边界进行更可信的断点回归 (RDD);利用面板数据和事件研究法进行更精细的双重差分 (DiD) 及其扩展;利用丰富的控制变量构建更可比的合成控制组 (SCM);寻找更有效的工具变量 (IV)。

  • 因果图模型 (Causal Graphical Models): 使用有向无环图(DAGs)来清晰地表达关于变量间因果关系的假设,并基于图论准则(如 d-分离)来识别需要控制哪些变量(调整集)以消除混淆偏差,从而指导模型设定。这有助于使因果假设更透明、更系统化。

  • 因果机器学习 (Causal Machine Learning): 这是一个快速发展的交叉领域,旨在将机器学习的灵活性和预测能力用于因果推断任务,以克服传统方法的局限性(如对模型形式的强假设、处理高维数据的困难)。关键方向包括:

    • 使用 ML 估计“干扰参数”(Nuisance Parameters): 如使用机器学习模型(随机森林、梯度提升、神经网络等)来估计倾向得分(Propensity Score)或条件结果期望(Conditional Outcome Expectations),然后将这些估计值代入半参数化的因果效应估计量(如 IPTW、双重稳健估计 Double Robust Estimation、匹配 Matching)中,以获得对平均处理效应(ATE)或条件平均处理效应(CATE)的更稳健估计。Double Machine Learning (DML) 是其中的代表性框架。

    • 使用 ML 估计异质性处理效应 (HTE): 开发专门的机器学习算法(如 Causal Trees, Causal Forests, Bayesian Additive Regression Trees - BART)来直接估计处理效果如何随个体特征变化,并发现哪些子群体对处理反应最强烈或最微弱。

    • 结合因果发现 (Causal Discovery) 与 ML: 探索能否从观测数据中(在一定假设下)自动学习因果结构(如 DAG),但这仍然是一个极具挑战性的前沿领域。

    CSS 赋能的因果推断,其核心追求是在日益复杂的数据世界中,获得更可靠、更细致、更少依赖主观臆断的因果结论。 它强调研究设计的重要性,透明化因果假设,以及利用机器学习的优势来处理数据复杂性(如高维、非线性),同时要警惕机器学习本身可能引入的新问题(如过拟合、可解释性差、算法偏差)。成功的因果推断需要社会科学理论的指导、严谨的方法论思维和娴熟的计算技能的紧密结合。

任务四:CSS 赋能的模拟——人工社会中的涌现与机制

任务内涵与目标

模拟性研究旨在回答“如何发生?”(How does it happen?)或“生成机制是什么?”(What are the generative mechanisms?)的问题,即通过构建运行于计算机上的形式化模型来复现(或“生长”出)我们观察到的社会现象,从而理解其背后的微观基础和动态过程。在 CSS 语境下,模拟任务,特别是基于主体的建模 (Agent-Based Modeling, ABM),被视为理解复杂社会系统(充满互动、异质性、适应性、反馈和涌现)的核心工具。 其目标是超越对变量间相关性或因果效应的静态分析,致力于对社会过程的生成性理解 (Generative Understanding),即理解宏观模式是如何从微观单元的互动规则中内生性地涌现出来的。

解决的关键问题

计算模拟,尤其是 ABM,特别适合探索以下类型的问题,这些问题往往难以用传统的分析模型或实证方法完全解答:

  • 宏观模式的微观基础: 社会规范(如合作、信任、歧视)是如何在个体互动中形成、传播和演变的?城市中的居住隔离模式是如何仅仅基于个体微弱的偏好而自发形成的?金融市场中的泡沫和崩溃是如何从交易者的有限理性和羊群行为中产生的?(e.g., Axelrod, 1997; Schelling, 1971; Lux & Marchesi, 1999)

  • 过程与机制的探索: 信息或疾病在不同类型的社会网络结构中是如何传播的?网络结构本身如何影响传播的效率和结果?社会影响(social influence)和同质性(homophily)这两种机制在塑造群体行为(如意见动态、技术采纳)中各自扮演什么角色?(e.g., Centola & Macy, 2007; Macy & Willer, 2002)

  • 反事实思考与政策实验: 如果我们改变个体的行为规则(如提高利他主义倾向),或者改变环境的结构(如调整网络拓扑、实施某种政策干预),会对系统的宏观行为产生什么影响?ABM可以作为一种进行“虚拟实验”(in silico experiments)的平台,探索不同干预措施的潜在后果,尤其是在真实世界实验不可行或成本过高的情况下。(e.g., Gilbert, 2008)。

  • 理论的形式化与检验: 将模糊的语言性社会理论转化为精确的计算模型,可以检验理论的内部逻辑一致性、假设的充分性,并推导出理论的经验可检验含义。ABM可以作为连接理论与经验数据的桥梁。(e.g., Manzo, 2014)

  • 理解复杂性本身: 探索非线性、反馈、临界点(tipping points)、路径依赖等复杂系统特性在社会过程中的作用。ABM 能够自然地容纳这些特性,帮助我们理解为何社会系统常常表现出难以预测和控制的行为。

核心赋能方法

计算社会科学中的模拟主要依赖于以下方法和实践:

  • 基于主体的建模 (Agent-Based Modeling, ABM): 这是 CSS 中最具代表性的模拟方法。研究者定义构成系统的“智能体”(Agents,可以是人、家庭、公司、国家等),赋予它们内部状态(State)、感知能力(Perception)、行为规则(Rules)和学习/适应机制(Learning/Adaptation)。这些智能体被放置在一个模拟的环境(Environment,可以是空间网格、社会网络、市场等)中进行互动。通过在计算机上运行模拟,观察从大量智能体互动中涌现出的系统级模式。

  • 系统动力学 (System Dynamics, SD): 另一种模拟方法,侧重于使用反馈循环、存量和流量的数学模型来表示系统变量之间的关系,并模拟系统随时间的行为。虽然通常比 ABM 更宏观、更聚合,但在某些问题(如资源管理、组织学习)上也有应用。

  • 网络动力学模拟 (Network Dynamics Simulation): 将 ABM 的思想应用于网络结构上,模拟信息、疾病、行为等在网络中的传播过程(如 SIR/SIS 模型、阈值模型等),或者模拟网络结构本身的演化(如优先连接模型)。

  • 模型设计与规范 (Model Design and Specification): 构建一个好的模拟模型需要仔细思考:模型的目的(KISS 原则 - Keep It Simple, Stupid vs. KIDS 原则 - Keep It Descriptive, Stupid)、智能体的构成和行为规则(基于理论、经验数据还是启发式)、环境的表示、时间步长的设定等。ODD 协议(Overview, Design concepts, Details)提供了一个描述 ABM 的标准框架,以提高模型的透明度和可重复性。

  • 模型校准、验证与确认 (Model Calibration, Validation, and Verification): 如何确保模拟模型是可信的?这涉及到验证 (Verification)(模型是否正确地实现了设计者的意图?代码有无 bug?)、校准 (Calibration)(调整模型参数使其输出能拟合已知的经验数据模式)、确认 (Validation)(模型是否能复现未用于校准的其他经验模式?模型是否对现实世界具有解释力或预测力?)。这是一个复杂且持续的过程,需要结合定量比较和定性判断。

  • 模拟实验设计与分析 (Simulation Experiment Design and Analysis): 如何从模拟运行中获得洞见?这需要系统性地设计模拟实验(如参数扫描 Parameter Sweeping、敏感性分析 Sensitivity Analysis、多因子实验设计),并运用统计方法和可视化工具来分析模拟输出的大量数据,理解参数对结果的影响、模型的稳健性以及涌现模式的特征。

CSS 赋能的模拟,其核心价值在于提供了一种“生成性”的理解途径,帮助我们打开社会过程的“黑箱”,理解微观机制如何“自下而上”地导致宏观现象。 它是一种强大的理论构建和检验工具,也是一种进行虚拟政策实验的“计算实验室”。然而,模拟方法也面临挑战:模型的构建往往需要大量假设,其结果对假设的敏感性可能很高;模型的验证和确认通常很困难;复杂模型的计算成本可能很高;如何将模拟结果与现实世界的复杂性进行有效关联也是一个持续的议题。

四大任务驱动下的计算社会科学核心特征与性质

计算社会科学之所以被视为一个新兴的、具有独特性的研究范式,正是因为它系统性地致力于执行上述四大核心任务,并在这一过程中展现出了一系列鲜明的特征(吕鹏,2024)。这些特征并非孤立存在,而是执行描述、预测、因果推断和模拟这四大任务所必需的条件或自然产生的结果:

  • 深度跨学科性 (Profound Interdisciplinarity): 成功地执行任何一项 CSS 核心任务,都离不开社会科学与计算/数据科学/AI 等领域的知识融合。例如,进行有意义的描述性网络分析,需要社会学关于关系结构的理论指导,也需要计算机科学的图算法和可视化技术。进行有效的预测,需要理解预测目标的社会背景(领域知识),也需要掌握机器学习的建模技能。进行稳健的因果推断,需要社会科学的因果理论框架(如潜在结果模型)和对混淆的敏感性,也可能需要统计学和机器学习的前沿估计方法。构建可信的模拟模型,需要社会理论来设定智能体的行为规则,也需要编程能力来实现模型并进行分析。因此,跨学科合作或具备跨学科素养成为 CSS 研究者的必备条件。

  • 数据密集型与智能驱动范式 (Data-Intensive & AI-Driven Paradigm): CSS 研究在很大程度上是由大规模、多样化的新型数据资源(尤其是数字痕迹)以及日益强大的 AI 算法所驱动和塑造的。这些数据和算法为描述提供了前所未有的细节和广度,为预测提供了丰富的特征信息和模式识别能力,为因果推断(尤其是在观测研究中)提供了处理复杂性的可能性和进行大规模实验的基础,也为模拟模型的校准、验证和行为规则设定提供了经验依据和智能体能力。对数据特性(规模、速度、多样性、关系性)和缺陷(偏差、噪音、代表性)以及算法特性(黑箱、偏见)的深刻理解和审慎处理,贯穿于所有四大任务的实践中。

  • 计算方法与理论的整合 (Integration of Computational Methods and Theory): 先进的计算方法是提升 CSS 执行四大任务能力的关键引擎。然而,CSS 并非仅仅是方法的应用,而是强调计算方法与社会科学理论的深度融合。如周涛等(2022)提出的“三角对话”框架,理论指导数据挖掘和模型构建,而数据和模型的结果又反过来验证、修正或启发理论。苏毓淞(2021)也指出,CSS 并非“理论的终结”,而是为理论发展提供了新机遇。CSS 研究者需要具备计算素养(Computational Literacy),更需要具备在理论指导下运用和批判性评估这些方法的能力。

  • 对复杂性的深刻关注 (Engagement with Complexity): 社会系统本质上的复杂性(非线性、反馈、涌现、异质性、适应性等)是 CSS 研究的核心关切之一。模拟任务直接致力于理解和生成这种复杂性。而在描述任务中,需要能够刻画复杂的网络结构和动态模式。在预测任务中,需要能够捕捉复杂的非线性关系。在因果推断任务中,需要考虑处理效应的异质性以及潜在的网络溢出效应。对复杂性的关注促使 CSS 发展和运用能够处理这些特征的方法论。

  • 跨尺度分析与整合能力 (Cross-Scale Analysis and Integration): CSS 致力于在不同分析层级(个体、群体、组织、网络、社会)之间建立联系。例如,描述可能涉及刻画跨层级的网络结构。预测可能旨在预测个体行为如何汇聚成群体趋势。因果推断可能研究宏观政策对微观个体的影响,或者微观互动如何产生宏观效应。模拟的核心目标就是连接微观机制与宏观涌现。这种跨尺度整合能力是理解复杂社会系统的关键。

  • 模型作为核心认知与实践工具 (Models as Core Epistemic and Practical Tools): 在 CSS 的所有四大任务中,“模型”都扮演着核心角色,无论是用于描述的统计模型或网络模型,用于预测的机器学习模型,用于因果推断的因果模型,还是用于模拟的计算模型。CSS 强调对模型本身的理解——包括其假设、能力、局限性、适用范围以及潜在的偏差。模型不仅是认识世界的工具,也是干预世界(通过预测或政策模拟)的基础。因此,对模型的构建、评估、解释和批判性使用是 CSS 方法论训练的重要组成部分。

  • 强化的伦理关切与治理需求 (Heightened Ethical Concerns and Governance Needs): 由于处理大规模个人数据和利用强大算法进行预测与干预,CSS 面临着比传统研究更严峻的伦理挑战和治理需求。数据隐私保护、算法公平性、透明度、问责制、数据垄断以及潜在的社会操纵等问题,成为 CSS 研究不可回避的议题。建立完善的数据治理框架和伦理规范是其可持续发展的保障。

因此,计算社会科学之所以被视为一个新兴的、具有独特性的研究范式,并不仅仅在于它采用了新颖的技术手段,更深层次的原因在于,它围绕着社会科学研究的四大核心基石性任务——描述、预测、因果推断与模拟——进行了系统性的拓展与革新。正是这种以任务为导向的驱动力,塑造了计算社会科学深度跨学科、数据密集与智能驱动、强调理论与计算方法整合、深刻关注复杂性、致力于跨尺度分析、以模型作为核心认知与实践工具、并内含强烈伦理关切与治理需求的鲜明特征与内在性质。 这四大任务及其伴生的特征,共同构成了计算社会科学的骨架与灵魂。掌握这四大任务的核心理念、方法论脉络、前沿进展以及它们之间错综复杂的内在联系,并理解其背后所蕴含的认识论预设与伦理考量,是深入学习、批判性思考和创造性实践计算社会科学的关键所在,也是应对数字时代社会研究所面临挑战的必然要求。 为了帮助读者系统性地构建这种理解和能力,本书接下来的编排将紧密围绕这些核心要素展开,旨在提供一条从认知基础到任务实践的清晰路径。这并非寻求一种可以包罗万象、一劳永逸的“万能算法”,而是希望通过结构化的指引,赋予读者一种驾驭复杂性的“无算之策”,从而能够在计算社会科学这片充满机遇与挑战的新疆域中,“尽算万事”,洞察社会运行的深层逻辑。


最后更新于

这有帮助吗?