问题回答与补充

观察到许多读者对这个系列存在一定的疑问,在此回答以下各位可能关心的问题。

Q1:为何要做这一系列?

本系列源自我对“如何更有效地学习社会科学研究方法”这一议题的长期求索。我观察到身边许多同学虽有学习之心,却苦于无从下手,常向我咨询进阶路径。坦言之,我对此也仅有一些初步的认知。因此,我希望借此机会系统梳理个人心得,既是自我提升,亦能为同道及读者提供绵薄之力,可谓一举两得。

我曾以为,研究方法不过是“召之即来,用完即弃”的工具。然而,近年来学界“方法内卷”现象日趋激烈,似乎固化了方法应用上的“金字塔结构”:少数顶尖学者(约2%)贡献了绝大多数(约98%)高质量的实证研究,而其余研究成果则质量参差,高下立判。尽管这或许是学术圈的常态,但目睹各类方法教材与课程热销,其知识付费规模与实际成果之间却存在显著落差,不禁令人慨叹其中鸿沟之深、信息壁垒之固。

近期国内心理学界关于“关联、影响与因果”的辨析,以及计量经济学界对DML(双重机器学习)的热议,乃至由此引发的学术论争,都鲜明地揭示了一个事实:研究方法绝非简单的工具箱,它更是一种思维方式,一种应深度融入研究设计、执行与解读全过程的哲学理念。

基于此,我决定重启并拓展一个早期项目(该项目最初仅为一门课程的总结笔记,名为“仓库推介——我的应付考试小教程以及一些量化杂感”)。我致力于将其系统化,清晰阐述计算社会科学所涵盖的认识论基础、核心方法、实用工具,并详述每种方法的历史沿革、适用场景、关键考量及具体操作。这样的内容体系,恰好能满足从质性研究转向或初涉研究方法的“方法新手”的学习路径与认知需求。

或许有人会质疑:市面上方法专著林立,我的系列凭何脱颖而出,臻于系统?坦率地说,我深知个人学识有限,尚不足以“指点迷津”,故此系列不称“指南”,聊作“指北”,希望能为同行者提供一些有益的参考方向。

我曾研读多位学者的计算社会科学力作,如吕鹏、范晓光老师的《计算社会科学导论》,郝龙老师等编著的《计算社会科学:数字时代社会研究的新方法》,以及Claudio Cioffi-Revilla教授的《Introduction to Computational Social Science: Principles and Applications》等。这些著作体系严谨、逻辑清晰、内容翔实,堪称典范。然而,纸质书籍在传播广度、灵活性与内容更新(例如,整合LLM赋能的新方法)方面难免存在局限。

同时,在互联网环境中,碎片化传播使得网络资源往往难以兼顾方法理论的深度阐释、手把手的操作指导以及基础知识的系统梳理,形成所谓的“不可能三角”。这并非创作者学识不周,实乃平台篇幅与流量导向所限,导致国内互联网缺乏孕育系统化、结构化开源知识的理想土壤。而我为何仍愿为此努力?这便引出了我对学科发展的一些思考。

谈及学科定位,借鉴国内多位学者近年来在《社会学研究》等期刊的论述,我深以为计算社会科学的内涵不应局限于复杂科学、网络科学与仿真建模等特定领域。它更应与社会学理论、计量经济学等传统社会科学分支深度融合。唯有如此,方能降低广大研究者的学习门槛,推动“计算社会科学”(以“计算”为方法,“社会科学”为旨归)跳出“小圈子”,迈向更广阔的融通发展之路。其次,在生成式人工智能时代,我更坚信,引导读者理解如何进行研究设计与方法“操作化”远比传授具体软件操作更为关键。此外,也有些个人“私心”:为避免荒废先前学习计量经济学的积累,我决定将两方面内容整合,一并梳理呈现。

综上所述,本系列的核心优势在于:不受篇幅所限,力求将相关知识点尽可能全面、深入地呈现,以满足偏好系统性、逻辑性学习的读者需求。这或许是碎片化时代下,一种“不合时宜”的便利。内容初步计划以GitBook结合Jupyter Notebook等交互形式部署于网页,同时提供PDF版本。

Q2:能否预览一下后面的方法内容都是什么样的结构?

没问题,之后的方法内容基本上还是遵循 E-M-O 框架进行阐述,力争打破篇幅限制,把每一种方法都讲清楚。下面以社会网络分析法(SNA)为例,给各位读者看一看大致的大纲(只是大纲而已,后面还需重构,并且按照任务分离)。

方法源流

+-- 早期社会理论: 结构视角 (19世纪末-20世纪初)
|   |-- 代表人物: G. Simmel, E. Durkheim, M. Weber
|   +-- 核心问题: 如何超越个体属性,从关系模式概念化和分析社会结构及其对个体行为的影响?
+-- 社会计量学 (Sociometry) (20世纪30年代)
|   |-- 代表人物: J. Moreno, H. Jennings (1934, *Who Shall Survive?*)
|   |-- 解决问题:
|   |   |-- 如何系统测量和可视化人际关系与群体结构?(e.g., Sociogram 社会关系图)
|   |   +-- 如何将个体心理状态(如选择、吸引、排斥)与其所处的社会结构相关联?
+-- 方法发展相对沉寂期 ("Dark Age") (约20世纪40年代-60年代)
|   +-- 面临挑战:
|       |-- 缺乏处理复杂关系数据的有效数学工具和理论框架。
|       +-- 计算能力限制了对大规模网络的分析。
+-- 现代社会网络分析兴起与发展 (20世纪60/70年代至今)
    |-- 驱动力: 数学(图论、矩阵代数)与计算科学发展,社会科学内部对结构解释的需求。
    |-- 核心目标: 系统化地分析复杂的关系模式,并解释这些模式如何产生及带来何种后果。
    |-- 主要分支/贡献:
        +-- 数学形式化:
        |   |-- 引入图论 (Graph Theory) 和矩阵代数 (Matrix Algebra)
        |   +-- 解决问题: 为网络结构提供精确的形式化表达、量化测量和数学运算基础。
        +-- 关键概念发展:
        |   |-- 结构对等 (Structural Equivalence) 与块模型 (Blockmodeling) (H. White et al., 1970s)
        |   |   +-- 解决问题: 如何识别网络中功能/角色相似的行动者群体或位置?
        |   |-- 中心性 (Centrality) 概念深化 (L. Freeman, P. Bonacich et al., 1970s+)
        |   |   +-- 解决问题: 如何量化节点在网络结构中的重要性、影响力或资源控制能力?
        |   |-- 弱连接强度 (Strength of Weak Ties) (M. Granovetter, 1973)
        |   |   +-- 解决问题: 解释非冗余信息传播、社会流动、创新扩散中“桥接性”弱关系的关键作用。
        |   |-- 结构洞 (Structural Holes) (R. Burt, 1992)
        |   |   +-- 解决问题: 解释占据网络“空隙”位置(中介者)所带来的信息和控制优势。
        +-- 网络推断模型:
        |   |-- 指数随机图模型 (ERGM / p*) (Holland & Leinhardt, Wasserman, Pattison, Robins, Snijders, Hunter et al.)
        |   |   +-- 解决问题: 如何基于网络微观结构(如边、星、三角)的出现概率来统计建模网络宏观结构,并检验结构形成机制?克服关系数据非独立性问题。
        |   |-- 随机行动者导向模型 (SAOM) (T.A.B. Snijders et al.)
        |   |   +-- 解决问题: 如何建模行动者基于自身目标和网络环境进行关系选择,从而解释网络随时间的动态演化?
        |   |-- 时间性指数随机图模型 (TERGM) (Hanneke, Fu, Xing, Robins, Lusher, Koskinen et al.)
        |   |   +-- 解决问题: 如何在ERGM框架下显式地处理网络面板数据,分析网络结构的时间依赖性和演化机制?
        +-- 网络因果推断 (21世纪初至今)
            |-- 驱动: 对识别网络真实影响(区分选择与影响)的需求增强。
            +-- 解决问题: 如何运用实验设计(RCTs)、准实验或改进的观测数据方法(如结合潜在结果框架)来估计网络干预或网络位置的因果效应?

方法重要学者(节点)

+-- 奠基与早期发展
|   +-- J. Moreno (1934) - 社会计量学创始人, Sociogram
|   +-- H. Jennings (1934) - 社会计量学合作者
|   +-- 早期人类学家 (e.g., Radcliffe-Brown, Barnes) - 应用网络思想于亲属、社区研究
+-- 哈佛大学学派 (Harvard University) - 现代SNA重镇
|   +-- H. White - 结构对等, Blockmodeling, 关键推动者
|   |   +-- P. Bearman
|   |   +-- R. Breiger
|   |   +-- M. Granovetter (1973) - 弱连接强度
|   +-- G. Homans - 影响早期网络思想
|   +-- P. Bonacich - 中心性度量
|   +-- B. Wellman - 社区网络
|   +-- C. Fischer - 个人网络
+-- 密歇根大学学派 (University of Michigan - UMich) - 侧重政策过程、社会分层
|   +-- E. Laumann
|   +-- D. Knoke
|   +-- P. Marsden
|   +-- R. Burt - (1992, 结构洞理论)
|   +-- J. Galaskiewicz
+-- 加州大学尔湾分校学派 (University of California, Irvine - UCI) - 网络研究中心
|   +-- L. Freeman - 中心性概念整合与软件 (UCINET早期)
|   +-- H. White 
|   +-- R. Burt 
|   +-- S. Wasserman - (与Faust 合著 *Social Network Analysis*, 1994)
|   +-- K. Faust
|   +-- S. Borgatti - UCINET软件主要开发者
|   +-- P. Doreian
|   +-- M. Everett
|   +-- T.A.B. Snijders - SAOM模型
+-- 模型开发者
|   +-- P. Holland & S. Leinhardt - p* (ERGM前身) 模型
|   +-- T.A.B. Snijders - SAOM (RSiena软件)
|   +-- `statnet` 开发团队 (UW, Penn State, Oxford, UMass et al.) - ERGM, TERGM (核心成员如 M. Morris, M. Handcock, D. Hunter, C. Butts, S. Goodreau, J. Moody)
+-- 重要理论贡献者
|   +-- J. Coleman (1988) - 社会资本, 科尔曼之舟 (理论连接)
|   +-- P. Bourdieu & J.C. Passeron (1970) - 再生产理论 (结构视角关联)
|   +-- P. Hedström & R. Swedberg (1998) - 社会机制方法论 (理论连接)
|   +-- 赵鼎新 (2020) - 结构/机制叙事与时间/事件叙事 (认识论框架)
+-- 代表性应用研究者
    +-- K. Ingold & P. Leifeld (2016) - ERGM/TERGM应用于政策网络影响力分析
    +-- L. Beaman, A. BenYishay, J. Magruder & A. M. Mobarak (2021) - 网络RCT用于技术扩散研究
    +-- F. Shi et al. (2017) - 共同购书网络揭示政治极化
    +-- G. Xu et al. (2020) - 多层网络刻画创新生态系统

方法的认识论介绍

  • 社会科学的核心解释模式:

    • 事件/时间叙事:侧重具体事件、行动者动机、转折点和时序过程(如新闻报道,个体经历故事)。

    • 结构/机制叙事 (Zhao, 2020):侧重解释现象背后稳定存在的模式、关系、规则或因果机制(如阶级、社区、制度、社会网络)。SNA主要服务于后者。

  • SNA的本体论预设:关系主义 (Relationalism)

    • 社会现实由行动者之间的关系构成,而非仅仅由孤立的个体及其属性构成。

    • 行动者的行为、态度、机会和结果在很大程度上受其所嵌入的关系网络结构的影响。

  • “结构化”思维:SNA的核心视角

    • 强调社会现象(如权力分配、信息流动、社会支持、集体行动、市场形成)的根源在于行动者之间形成的连接模式(结构)。

    • 区分社会科学与理工科对SNA的不同侧重:

      • 社会科学关注结构如何促成社会经济现象

      • 理工科更关注网络自身的数学属性、算法效率和工程应用(如交通优化、推荐系统)。

  • 连接微观与宏观:科尔曼之舟 (Coleman's Boat)

    • 网络结构被视为关键的“中层”机制,能够解释宏观层面的模式(如社会规范、组织绩效)如何通过微观层面的互动(个体间的连接与影响)产生和维持。(Coleman, 1988; Hedström & Swedberg, 1998)

    • SNA提供了分析这种跨层次影响(Macro-to-Micro, Micro-to-Micro, Micro-to-Macro)的工具。

方法的具体原理

  • 基本构成要素与术语:

    • 实体: 节点 (Nodes / Vertices / Actors / Individuals / Members) - 网络中的基本单位(人、组织、国家、词语等)。

    • 连接: 边 (Edges / Ties / Links / Relations / Lines) - 节点间的关系(朋友、合作、交易、引用、共同出现等)。

    • 网络类型属性:

      • 方向性: 有向 (Directed, e.g., 建议、借贷) vs. 无向 (Undirected, e.g., 朋友、共同参会)。

      • 权重性: 加权 (Weighted, e.g., 关系强度、交易额、互动频率) vs. 无权/二元 (Unweighted/Binary, e.g., 是否认识)。

      • 节点类型: 单模图 (Unimodal, 节点类型相同) vs. 二模图 (Bimodal/Bipartite, 包含两类节点及它们之间的连接, e.g., 作者-论文, 成员-事件)。

  • 网络数据表示:

    • 邻接矩阵 (Adjacency Matrix): N x N 矩阵,A[i, j] 表示节点i到节点j的关系(或其权重)。适用于稠密网络和数学运算。

    • 边列表 (Edge List): 两列(或三列,含权重)列表,每行表示一条边。适用于稀疏网络和存储。

    • 关联矩阵 (Incidence Matrix): N x M 矩阵,用于表示节点与事件/群体的关联(常见于二模图)。

  • 网络描述性分析 (Network Description):呈现异质性

    • 基础概念:

      • 游走 (Walk): 顶点和边可重复的顶点序列。

      • 路径 (Path): 顶点和边均不重复的游走(最短路径)。

      • 距离 (Distance): 两节点间最短路径的长度。

      • 连通性 (Connectivity): 网络中节点间可达的程度(连通图, 强/弱连通分量)。

      • 网络密度 (Network Density): 实际存在的边数占可能最大边数的比例,衡量网络的整体紧密程度。

      • 同质性 (Homophily): “物以类聚”,具有相似属性的节点倾向于连接的现象。

    • 节点层面测量 (Node-level Measures):

      • 中心性 (Centrality):

        • 度中心性 (Degree Centrality): 连接的节点数 (入度/出度)。衡量节点的直接活跃度/受欢迎度。

        • 接近中心性 (Closeness Centrality): 到所有其他节点平均距离的倒数。衡量节点到达网络中其他节点的效率。

        • 中介中心性 (Betweenness Centrality): 经过该节点的最短路径数量占所有最短路径的比例。衡量节点的“桥梁”或控制信息流动的能力。

        • 特征向量中心性 (Eigenvector Centrality): 节点的中心性取决于其邻居的中心性。衡量节点在网络中的传递性影响力 (连接到重要节点更重要)。(Bonacich Power Centrality是其扩展)。

    • 子群层面测量 (Subgroup-level Measures):

      • 凝聚子群 (Cohesive Subgroups): 网络中内部连接紧密的节点集合。

        • 紧密团体 (Clique): 子群内所有节点都相互连接(完全子图)。要求非常严格。

        • N-核 (N-core): 移除所有度数小于N的节点后剩余的最大子图,其中所有节点至少有N个内部连接。衡量网络核心区域的稳健性。

        • 连通分量 (Components): 无向图中,内部任意两点都可通过路径连接的最大子图。有向图中对应强/弱连通分量。识别网络的分割情况。

      • 社区发现 (Community Detection): 识别网络中内部连接密集、外部连接稀疏的节点群组(社区结构)。

        • 常用算法:

          • 模块度优化 (Modularity Optimization): 如 Louvain 算法 (高效、常用), Fast Greedy。目标是最大化社区内部边比例与随机期望的差值。

          • 层次聚类 (Hierarchical Clustering): 基于相似性/距离逐步合并或分裂节点/社区。

          • 基于随机游走 (Random Walks): 如 Walktrap, InfoMap。利用随机游走在社区内停留时间长的特性。

          • 谱聚类 (Spectral Clustering): 基于网络拉普拉斯矩阵的特征向量。

    • 结构洞与关系强度 (Structural Holes & Tie Strength):

      • 结构洞 (Structural Holes) (Burt, 1992): 网络中两个(或多组)未直接连接的节点/群体之间的“空隙”。

      • 中介者 (Broker): 占据结构洞位置、连接不同群体/信息的节点。

      • 约束 (Constraint): Burt 提出的度量指标,衡量一个节点的投入(时间和精力)在多大程度上集中于少数几个连接紧密的邻居。低约束意味着拥有更多结构洞。

      • 弱连接强度 (Strength of Weak Ties) (Granovetter, 1973):

        • 桥 (Bridge): 连接两个原本无连接的网络部分的边。

        • 核心论点: “桥”通常是弱连接(强连接倾向于形成内部紧密的小圈子),弱连接在传递新颖信息、连接不同社会圈、促进社会流动等方面至关重要。

    • 三元组分析 (Triad Analysis):

      • 分析由三个节点组成的子图模式(e.g., 平衡理论, 传递性)。

      • 三元组普查 (Triadic Census): 统计网络中所有16种可能的有向三元组类型。

    • 结构对等 (Structural Equivalence): 如果两个节点连接到完全相同的其他节点,则它们结构对等。用于识别功能相似的节点。

  • 网络推断性分析 (Network Inference): 从描述到解释与预测

    • 核心挑战:

      • 依赖性: 网络数据中观测单元(边或节点对)通常不是独立的,违反标准统计模型(如OLS回归)的独立性假设。

      • 内生性: 网络结构本身可能受到其试图解释的结果变量的影响(反向因果),或者两者都受共同的未观测因素影响(混淆)。例如,同质性(相似的人成为朋友)vs. 社会影响(朋友使人变得相似)。

    • QAP (Quadratic Assignment Procedure):

      • 定位: 一种非参数的置换检验方法,用于评估两个(或多个)N×N矩阵之间的相关性或回归关系。

      • 适用场景: 检验一个网络(因变量矩阵 Y)是否与另一个网络或节点/关系属性矩阵(自变量矩阵 X)相关,同时可控制其他矩阵(控制变量 Z)。

      • 基本原理:

        1. 计算观测数据中 Y 和 X 之间的统计量(如相关系数、回归系数)。

        2. 通过随机置换 Y(或 X)矩阵的行和列多次(保持网络结构不变但打乱节点对应关系),生成零假设(Y与X无关)下的统计量分布。

        3. 比较观测统计量与置换分布,计算p值(观测值大于等于置换值的比例)。

      • 处理多变量: 双半偏置换检验 (Double Semi-Partialing Permutation) - 先用 Z 预测 Y 和 X,然后对残差进行置换检验,以控制 Z 的影响。

      • 优点: 处理非独立性,对数据分布假设少。

      • 局限: 主要用于检验关系是否存在,难以精确建模网络结构的生成机制(特别是内生结构依赖,如传递性)。

    • ERGM (Exponential Random Graph Models / p Models):*

      • 定位: 一种用于分析网络横截面数据的统计模型,旨在解释观测到的网络结构是如何由一组局部网络结构模式(网络统计量/图基元)和节点/边属性共同生成的。

      • 核心思想: 将整个网络视为单一观测,假设网络的出现概率与网络中特定结构模式(如边、星形、三角形、同质性等)的加权和(由参数向量 θ 定义)成指数关系。

      • 概率公式: $P(Y=y | θ) = (1/κ(θ)) * exp( Σ θ_k * g_k(y) )$

        • $y$: 观测到的网络邻接矩阵。

        • $θ_k$: 与第k个网络统计量 g_k(y) 相关的模型参数。

        • $g_k(y)$: 第k个网络统计量(如边的数量、特定类型三元组的数量、基于属性的连接数等),反映了网络结构特征。

        • $κ(θ)$: 归一化常数(所有可能网络的概率之和),计算通常困难。

      • 模型项 (Terms / Statistics):

        • 结构项(内生): edges (密度), kstar(2/3) (二/三星结构,反映度数分布), triangle (传递性), gwesp (几何加权边共享伙伴,更复杂的传递性), mutual (互惠性) 等。

        • 节点属性效应(外生): nodefactor('attr') (节点属性主效应), nodematch('attr') (同质性), nodecov('attr') (节点协变量效应)。

        • 边属性效应(外生): edgecov(matrix) (边协变量)。

      • 估计方法: MCMC MLE (马尔可夫链蒙特卡洛最大似然估计) 或贝叶斯方法。

      • 优点: 能够同时建模和检验复杂的内生结构依赖(如传递性、互惠性)和外生协变量的影响。

      • 局限: 模型设定和收敛性可能存在挑战,通常用于横截面数据。

    • TERGM (Temporal Exponential Random Graph Models):

      • 定位: ERGM 的动态扩展,用于分析网络面板数据(多个时间点的网络观测)。

      • 核心思想: 当前时间点 $t$ 的网络结构 $Y_t$,不仅取决于 $t$ 时刻的结构模式和属性,还可能依赖于过去的网络状态 $Y_{t-1}, Y_{t-2}, ...$。

      • 模型项扩展: 引入跨时间的“记忆项”(Memory Terms) 或 动态依赖项。

        • 稳定性/惯性: 衡量 $t-1$ 时刻存在的边在 t 时刻继续存在的倾向 (e.g., memory, stability).

        • 形成 (Formation): 驱动新边形成的因素。

        • 溶解 (Dissolution): 导致现有边消失的因素。

        • 滞后效应: 过去的网络结构特征(如节点的度数、中心性)对当前关系形成/维持的影响。

      • 估计方法: 通常使用 STERGM (Separable Temporal ERGM) 框架,将形成和溶解过程分开建模和估计。

    • SAOM (Stochastic Actor-Oriented Models):

      • 定位: 另一种主流的网络动态模型,侧重于从行动者决策的角度解释网络演化。

      • 核心假设: 网络变化是离散时间点上,被选中的行动者基于其“目标函数”(Objective Function) 对其出边进行调整(增加、删除或维持连接)的结果。目标函数通常包含网络结构项(如寻求传递闭包、互惠)、个体属性项(如同质性偏好)等。

      • 建模过程: 模拟在微小时间步(ministeps)内,行动者选择和关系改变的概率。

      • 估计方法: Method of Moments (MoM), MCMC MLE, Bayesian methods (使用 RSiena 软件包)。

      • 与TERGM的比较:

        • 理论视角: SAOM 是行动者中心 (actor-centric),TERGM 是网络/关系中心 (network/tie-centric)。

        • 模型假设: SAOM 假设行动者有明确的优化目标,TERGM 更侧重于描述结构依赖模式。

        • 应用选择: 取决于研究问题和理论假设(Block et al., 2019 认为应基于理论选择;Leifeld & Cranmer, 2019 认为两者经验上相似,应比较预测性能)。

    • 网络中的因果推断 (Causal Inference in Networks):

      • 核心挑战:

        • 干扰 (Interference): 一个个体的处理状态可能影响另一个体的结果(违反SUTVA假设)。

        • 溢出效应 (Spillover Effects): 处理效应可能扩散到控制组。

        • 内生性/混淆: 如前所述,选择效应 vs. 影响效应难以分离。

      • 随机试验 (Randomized Experiments / RCTs):

        • 设计思路: 在网络环境中进行随机化分配(如随机选择种子节点、随机分配信息/干预)。

        • 目标: 估计处理(如信息、技术)通过网络扩散的因果效应,或网络位置本身的因果效应(较难)。

        • 关键考量: 随机化单位(个体、群体、网络),测量溢出效应,理解扩散机制(简单 vs. 复杂传染)。

        • 理论基础: 扩散模型 (Diffusion Models),如 SIR 模型(流行病学)、阈值模型 (Threshold Models - Granovetter, 1978; Watts, 2002)。

方法的常用工具

  • 数据收集方法与途径:

    • 问卷调查 (Survey Methods):

      • 整体网络 (Whole Network / Sociocentric): 对一个边界清晰的群体(如班级、组织、社区)内所有成员间的关系进行调查。

        • 花名册法 (Roster Method): 提供成员名单让被访者勾选关系。

      • 个人中心网络 (Egocentric Network): 调查个体(ego)及其直接联系人(alters)以及直接联系人之间的关系。

        • 提名生成法 (Name Generator): 通过问题(如“过去半年和谁讨论过重要事情?”)让个体提名直接联系人。

        • 地位生成法 (Position Generator): 询问个体是否认识处于特定社会地位/职业的人。

        • 资源生成法 (Resource Generator): 询问个体能否通过其网络获取特定资源(如信息、帮助)。

      • 特殊策略:

        • 位置式 (Positional Approach): 关注占据特定正式位置的行动者及其关系。

        • 声誉式 (Reputational Approach): 通过询问“谁最有影响力/最关键?”来识别核心行动者(常用于边界模糊的网络,可结合滚雪球抽样 Snowball Sampling)。

    • 档案与观察数据 (Archival & Observational Data):

      • 事件追踪法 (Event-Based Approach): 通过记录共同参与事件(如会议、合作项目、抗议活动)来构建网络。

      • 资源流动法 (Resource Flows Approach): 追踪资源(信息、资金、物资)在行动者间的流动记录(如引用网络、贸易网络、邮件/通信记录)。

      • 关系内容分析 (Relational Content Analysis): 分析沟通内容(邮件、社交媒体帖子)来推断关系性质或主题。

    • 数字痕迹数据 (Digital Trace Data):

      • 社交媒体互动(点赞、评论、关注、转发)。

      • 共同购买/浏览记录 (e.g., Amazon)。

      • 通信记录(邮件、电话 - 需注意隐私和可得性)。

      • 合作发表/共同专利申请记录。

  • 分析软件与编程库:

    • 图形用户界面 (GUI) 软件:

      • UCINET: 功能全面,结合 NetDraw 进行可视化。

      • Pajek: 处理大规模网络能力强,算法丰富。

      • Gephi: 强大的交互式网络可视化和探索工具。

    • 编程语言库 (更灵活、可扩展、可复现):

      • R 语言:

        • igraph: 核心网络数据结构、分析和可视化包。

        • statnet 套件: 包含 network (基础数据结构), sna (描述性分析), ergm (ERGM模型), tergm (TERGM模型)。是网络统计建模的标准。

        • RSiena: 用于 SAOM 模型估计。

      • Python 语言:

        • NetworkX: 最常用的网络分析库,提供数据结构、算法和基本绘图。

        • igraph (Python接口): 功能与 R 版本类似。

        • graph-tool: 注重性能,基于 C++ 实现。

        • Pyvis: 用于交互式网络可视化。

论文复现(python)

略。

Q3:这个系列主要涉及的是 LLM 在社科中的使用吗?

虽说其中四大任务会穿插很多 LLM 使用的内容,但主要的落脚点还是在适应传统研究方法上。LLM 内容不会喧宾夺主。至于社会模拟的系统与框架,我只能尽力做一些类似系统综述 (systematic review) 的内容,放在模拟任务的部分,供读者参阅;当然同时也会与其他部分一样,有相关论文复现的代码。一旦涉及计科(Computer Science),尤其是 CHI(ACM Conference on Human Factors in Computing Systems) 与 CSCW(ACM Conference on Computer Supported Cooperative Work and Social Computing) 这些人机交互领域的会议,论文实在太多,技术路径无比繁杂,甚至在本体论与认识论角度都难以达成一致。让部分举全院之力的顶尖高校社科院系,其他高校的复杂科学相关院系当领头羊,静待往后的发展吧。

欢迎各位读者在评论区提问!共同交流共同进步!

最后更新于

这有帮助吗?