第一节——计算社会科学研究的迭代生命周期:核心阶段与循环反馈
目录
└── 方法论基础:通用的研究流程与核心概念
└── 计算社会科学研究的迭代生命周期:核心阶段与循环反馈
├── 阶段一:研究启动与规划
│ ├── 问题定义与精炼
│ ├── 可行性评估与研究设计初步
├── 阶段二:数据获取与系统准备
│ ├── 数据收集与获取
│ ├── 数据检视与评估
│ └── 数据预处理与转换
├── 阶段三:探索性分析与模型构建
│ ├── 探索性数据分析
│ ├── 模型/方法选择与设计
│ └── 模型实现与参数校准
├── 阶段四:评估、解释与迭代优化
│ ├── 模型评估与验证
│ ├── 结果解释与理论关联
│ ├── 迭代与优化
└── 阶段五:沟通、影响与知识贡献
│ ├── 知识封装与成果沟通
│ ├── 可重复性、可复制性与开放科学
│ ├── 伦理反思与社会影响评估
│ └── 知识存档与未来研究展望
└── 结语:研究的迭代循环与研究者的成长
计算社会科学作为一门融合了社会科学理论洞察与计算科学方法创新的交叉学科,其研究过程既遵循科学探究的一般逻辑,也展现出由数据密集型和计算驱动型特征所带来的独特性。理解并遵循一个结构化的研究生命周期,对于确保研究的系统性、严谨性和可重复性至关重要 (King, Keohane, & Verba, 1994)。然而,与传统观念中严格线性的研究流程不同,计算社会科学的研究实践更像是一个动态的、高度迭代的循环过程 (Lazer et al., 2009; Salganik, 2018)。
传统的知识发现流程模型,如数据挖掘领域的知识发现数据库(Knowledge Discovery in Databases, KDD)过程 (Fayyad, Piatetsky-Shapiro, & Smyth, 1996) 和跨行业数据挖掘标准流程(Cross-Industry Standard Process for Data Mining, CRISP-DM)(Chapman et al., 2000),都强调了从数据理解到模型部署的多个阶段,并内含了反馈循环。这些模型为我们理解数据驱动的研究提供了有益的框架。
例如,CRISP-DM 模型将数据挖掘项目划分为商业理解、数据理解、数据准备、建模、评估和部署六个阶段,并允许在各阶段之间灵活跳转。KDD 过程则概括为数据选择、预处理、转换、数据挖掘和解释/评估等步骤。
借鉴这些成熟的研究生命周期模型,并结合社会科学研究特有的理论驱动、问题导向以及对因果解释和社会意义的追求 (Babbie, 2020),我们可以勾勒出一个适用于计算社会科学的、包含核心组件的理想化迭代研究生命周期。这个生命周期并非一个僵硬的模板,而是一个指导性的框架,强调在各个阶段研究者都需要保持灵活性、适应性和持续的批判性反思 (Alvesson & Sandberg, 2011)。后续的发现、遇到的挑战或新的洞见,都可能促使研究者重访并修正早期阶段的决策,形成一个螺旋式上升的认知与实践过程。本节将这一生命周期划分为五个核心阶段:研究启动与规划、数据获取与系统准备、探索性分析与模型构建、评估解释与迭代优化,以及沟通影响与知识贡献。每个阶段内部又包含若干关键子步骤,它们共同构成了计算社会科学探究的完整图景。
下表简要对比了 KDD、CRISP-DM 与《无算之策》总结的 CSS 研究生命周期在核心阶段上的对应关系,以期展现其共性与 CSS 的特性:
表:不同研究生命周期模型的阶段对比
(隐含于问题定义)
商业理解 (Business Understanding)
研究启动与规划 (问题定义、可行性评估、初步设计)
理论驱动的问题形成,社会科学意义,伦理考量,多维度可行性分析
数据选择 (Selection)
数据理解 (Data Understanding)
数据获取与系统准备 (数据收集、检视、评估)
多源异构数据获取策略,数据质量深度评估,元数据管理,伦理合规执行
预处理 (Preprocessing)
数据准备 (Data Preparation)
数据获取与系统准备 (数据预处理与转换)
针对社会数据的复杂清洗、转换、特征工程,确保分析就绪性
转换 (Transformation)
数据准备 (Data Preparation)
数据获取与系统准备 (数据预处理与转换) / 探索性分析与模型构建 (特征工程)
同上,并强调服务于模型构建的特征创造
数据挖掘 (Data Mining)
建模 (Modeling)
探索性分析与模型构建 (EDA、模型选择与设计、模型实现与校准)
结合理论的 EDA,多元模型选择(统计、ML、模拟),模型假设与社会过程的关联,参数校准的理论意义
解释/评估 (Interpretation/Evaluation)
评估 (Evaluation)
评估、解释与迭代优化 (模型评估与验证、结果解释与理论关联、迭代优化)
多维度评估(性能、稳健性、可解释性),社会科学意义阐释,理论对话,持续的迭代改进
(隐含于知识应用)
部署 (Deployment)
沟通、影响与知识贡献 (知识封装、可重复性、伦理反思、知识存档)
学术与社会沟通,强调可重复性与开放科学,研究的社会责任与长远影响,知识的积累与传承
接下来,我们将详细阐述计算社会科学研究生命周期的各个阶段及其核心任务。
本小节参考文献:
Alvesson, Mats, and Jörgen Sandberg. 2011. “Generating Research Questions through Problematization.” The Academy of Management Review 36(2): 247–71. doi:10.5465/AMR.2011.59330882.
Babbie, Earl. 2021. The Practice of Social Research. Boston, MA: Cengage Learning.
Chapman, P. 2000. “CRISP-DM 1.0: Step-by-Step Data Mining Guide.” https://www.semanticscholar.org/paper/CRISP-DM-1.0%3A-Step-by-step-data-mining-guide-Chapman/54bad20bbc7938991bf34f86dde0babfbd2d5a72 (March 14, 2025).
Fayyad, Usama, Gregory Piatetsky-Shapiro, and Padhraic Smyth. 1996. “From Data Mining to Knowledge Discovery in Databases.” AI Magazine 17(3): 37–37. doi:10.1609/aimag.v17i3.1230.
King, Gary, Robert O. Keohane, and Sidney Verba. 1994. Designing Social Inquiry: Scientific Inference in Qualitative Research. Princeton, N.J: Princeton University Press.
Lazer, David, Alex Pentland, Lada Adamic, Sinan Aral, Albert-László Barabási, Devon Brewer, Nicholas Christakis, et al. 2009. “Computational Social Science.” Science 323(5915): 721–23. doi:10.1126/science.1167742.
阶段一:研究启动与规划
研究的启动与规划是整个计算社会科学探究过程的基石,其质量直接决定了后续工作的方向、效率和最终价值。这一阶段的核心任务在于清晰地定义研究问题,系统地评估其可行性,并勾勒出初步的研究设计蓝图。它要求研究者不仅具备敏锐的问题意识和扎实的理论素养,还需要对计算方法、数据资源和伦理规范有初步的把握。
问题定义与精炼
科学研究始于有意义的问题 (Popper, 2002)。在计算社会科学领域,一个好的研究问题往往源于对现实社会现象的深刻观察、对现有社会科学理论的批判性思考,或是对计算方法应用于社会研究所能带来新洞见的敏锐预判 (Lazer et al., 2009)。从广泛议题到可研究问题的转化是此阶段的首要任务。研究者可能从一个宽泛的兴趣领域(如社交媒体上的信息传播、城市中的社会不平等、在线社群的集体行为)出发,通过不断聚焦和具体化,将其提炼为一个或一组清晰、明确、可探究的研究问题 (Booth, Colomb, & Williams, 2008)。这一过程并非一蹴而就,往往需要在理论学习、文献回顾和初步观察之间反复迭代。
文献回顾与理论对话在此过程中扮演着至关重要的角色。系统的文献回顾不仅仅是对前人研究成果的简单罗列,更是一次深度融入学术共同体对话的智力旅程。研究者需要系统梳理相关社会科学理论(如社会网络理论、集体行动理论、组织社会学、传播学理论等),理解这些理论对所关注现象的核心解释、关键概念和主要争议。同时,也需要关注计算社会科学领域内已有的相关研究,了解哪些计算方法(如网络分析、自然语言处理、机器学习、主体建模)已被用于研究类似问题,取得了哪些进展,又面临哪些局限 (Salganik, 2018; Cioffi-Revilla, 2014)。通过深入的文献回顾,研究者能够更准确地识别现有知识的空白 (knowledge gaps)、理论的未解之谜或内在张力 (theoretical puzzles or tensions),以及已有研究在方法论上的不足 (methodological limitations)。这将有助于将自己的研究问题清晰地定位于现有知识体系之中,并明确其潜在的理论贡献、经验贡献或方法论贡献 (Bryman, 2016)。一个与现有理论和文献完全脱节的研究问题,即使技术上可行,也可能因缺乏学术对话的根基而难以产生深远影响。
在文献回顾和理论对话的基础上,研究问题需要进一步具体化 (specification),并初步思考其操作化 (operationalization) 的可能性。这意味着要将问题中的核心抽象概念(如“影响力”、“社会资本”、“极化”、“福祉”)思考如何转化为可观察、可测量、可计算的指标或变量 (Goertz, 2006)。例如,如果研究“社交媒体对政治极化的影响”,就需要思考“政治极化”可以如何通过用户的关注网络、发帖内容的情感倾向或观点分布等数字痕迹来测量。这种初步的操作化思考,有助于判断研究问题在经验层面上的可处理性。最终,研究者应力求形成清晰、简洁、具有焦点 (focused) 的研究问题陈述。好的研究问题通常是能够引导后续研究设计,并且其答案能够对知识体系有所增益的 (King, Keohane, & Verba, 1994)。
同时,需要明确研究的主要目标 (research objectives) 是什么,以及期望通过研究获得什么样的预期成果 (expected outcomes)。研究目标可能包括:描述 (description) 一个现象的特征、分布或模式(例如,描绘特定人群在线信息获取行为的图谱);解释 (explanation) 现象发生的原因、机制或后果(例如,探究算法推荐对用户观点多样性的因果影响);预测 (prediction) 未来的趋势或事件发生的可能性(例如,预测哪些在线社群更容易出现极端言论);或是探索可能性/生成 (exploration/generation),即通过模拟等方式理解某种宏观模式是如何从微观互动中涌现的(例如,模拟不同社会互动规则下合作规范的形成)。明确认知目标有助于后续选择合适的研究方法和评估标准 (Shmueli, 2010)。
当研究旨在检验特定理论或已有经验发现时,研究者会在问题定义的基础上进一步构建具体的、可检验的假设 (testable hypotheses)。假设是对研究问题答案的初步预期陈述,通常表述为变量之间的预期关系 (Babbie, 2020)。例如,“在控制其他因素的情况下,社交媒体使用频率越高,个体感知到的社会支持越多”。假设的构建需要有坚实的理论基础或充分的先验证据支持。然而,并非所有计算社会科学研究都始于明确的假设,特别是那些探索性较强、旨在从数据中发现模式或生成新理论的研究 (Glaser & Strauss, 1967)。在这种情况下,清晰的研究问题比具体的假设更为重要。问题定义与精炼是一个高度智力密集型的过程,它要求研究者在社会科学理论的深度、计算思维的广度与经验现实的复杂性之间进行创造性的联结。一个经过深思熟虑、界定清晰的研究问题,是成功研究的起点和罗盘。
可行性评估与研究设计初步
在清晰定义了研究问题和目标之后,接下来的关键步骤是对研究的整体可行性进行系统评估,并在此基础上勾勒出初步的研究设计框架。这一步骤旨在确保研究计划在现实条件下是可执行的,并且能够在预期的资源约束内达成研究目标。可行性评估需要从数据、方法、伦理、资源等多个维度进行综合考量。
首先,数据可获得性与适用性评估 (Data Availability and Suitability Assessment) 是计算社会科学研究可行性评估的核心。研究者需要初步探查可能用于回答研究问题的数据来源。这些数据可能包括现有的公开数据集(如政府开放数据、国际组织数据库、学术数据档案库,后文会详细介绍)、通过 API 获取的平台数据(如社交媒体数据、搜索引擎数据)、需要通过网络爬虫自行采集的网页数据,或者是通过数字实验、在线调查等方式主动收集的一手数据 (Salganik, 2018)。针对每一种潜在数据源,需要评估其与研究问题的相关性 (relevance)——数据是否包含了研究所需的核心变量或信息?其次是数据的潜在覆盖范围与代表性 (coverage and representativeness)——数据能够代表哪些人群、时间段或社会情境?是否存在已知的系统性偏差(如数字鸿沟导致的样本偏差、平台用户特征偏差)?此外,还需要初步评估数据的质量 (quality)(如准确性、完整性、一致性)、获取难度与成本 (accessibility and cost),以及获取和使用数据所涉及的法律与伦理限制 (legal and ethical constraints) (boyd & Crawford, 2012)。如果现有数据不足或不适用,研究者需要规划切实可行的数据收集策略,并评估其所需的时间和资源。
其次,方法论路径初步选择 (Initial Methodological Path Selection) 也至关重要。基于研究问题的性质(描述、解释、预测、生成)、数据的类型与特征(结构化/非结构化、大规模/小样本、截面/时序/面板),以及研究者的技能储备,需要初步考虑采用哪些计算分析方法。可能的选项非常广泛,包括传统的统计建模 (Gelman & Hill, 2006)、机器学习算法 (Hastie, Tibshirani, & Friedman, 2009)、自然语言处理技术 (Jurafsky & Martin, 2023)、社会网络分析方法 (Wasserman & Faust, 1994)、主体建模与仿真,或是这些方法的组合。在初步选择方法时,不仅要考虑其技术先进性,更要评估其是否与研究的理论框架和认知目标相契合,以及其结果是否具有可解释性。同时,需要初步评估所选方法对计算资源的需求,包括硬件、软件以及具备相关技能的人力。
第三,伦理考量与合规性规划 (Ethical Considerations and Compliance Planning) 必须贯穿研究设计的始终,并在规划阶段就得到充分重视。计算社会科学研究,特别是涉及大规模人类行为数据(尤其是数字痕迹数据)的研究,面临着诸多复杂的伦理挑战 (Floridi et al., 2018; Vitak, Shilton, & Ashktorab, 2016)。研究者需要主动识别研究计划中潜在的伦理风险,例如:隐私侵犯(如何保护个体身份不被泄露?)、数据偏见导致的算法歧视(模型是否会不成比例地损害特定群体的利益?)、知情同意的获取(在使用公开数据或平台数据时,何为恰当的知情同意标准?)、研究结果的潜在误用等。在初步规划阶段,就需要了解并遵守相关的法律法规以及所在机构的伦理审查委员会 (Institutional Review Board, IRB 或 Research Ethics Committee, REC) 的要求。规划初步的数据安全保障措施(如数据加密、访问控制)和数据匿名化/去标识化策略也应提上日程。确保研究从一开始就符合伦理规范,不仅是研究者的责任,也是保障研究可持续性和社会信任的基础。
第四,实际的时间、资源与团队规划 (Time, Resource, and Team Planning) 也不可或缺。基于对数据获取、方法实施、伦理审查等环节的初步评估,研究者需要制定一个现实的研究时间表 (timeline),明确各个阶段的主要任务和预期完成时间。同时,需要估算研究所需的预算,包括数据购买、软件许可、计算资源使用、人员薪酬、会议差旅等费用。如果研究需要团队协作,还需要明确团队成员的角色与分工 (team roles and responsibilities),确保成员技能互补,沟通顺畅。
最后,进行风险评估与应对策略的思考。预估在研究过程中可能遇到的主要挑战和障碍,例如数据获取失败、关键技术难题、伦理审查受阻、核心成员变动、研究结果不符合预期等。针对这些潜在风险,应初步思考相应的应对预案,以增强研究计划的韧性。
可行性评估与初步研究设计是一个动态的、需要权衡的过程。有时,评估结果可能会显示最初设想的研究问题或方法路径并不可行,这时就需要返回到问题定义阶段进行调整,甚至重新构思。只有当研究问题被认为具有重要的学术或社会价值,并且在数据、方法、伦理和资源方面都具备基本可行性时,才能稳妥地进入下一阶段。这个阶段的产出通常是一个相对完整的研究计划书 (research proposal),它将指导后续所有研究活动的开展。
本小节参考文献:
Babbie, Earl. 2021. The Practice of Social Research. Boston, MA: Cengage Learning.
Booth, Wayne C., Gregory G. Colomb, and Joseph M. Williams. 2008. The Craft of Research, Third Edition. Third edition. Chicago: University of Chicago Press.
Boyd, Danah, and Kate Crawford. 2012. “Critical Questions for Big Data: Provocations for a Cultural, Technological, and Scholarly Phenomenon.” Information, Communication & Society 15(5): 662–79. doi:10.1080/1369118X.2012.678878.
Bryman, Alan. 2015. Social Research Methods. 5th edition. Oxford: OUP Oxford.
Cioffi-Revilla, Claudio. 2017. Introduction to Computational Social Science: Principles and Applications. 2nd ed. 2017 edition. New York, NY: Springer.
Gelman, Andrew, and Jennifer Hill. 2021. Data Analysis Using Regression and Multilevel/Hierarchical Models. Cambridge: Cambridge University Press.
Glaser, Barney G., and Anselm L. Strauss. 1980. The Discovery of Grounded Theory: Strategies for Qualitative Research. New York: Aldine Pub. Co.
Goertz, Gary. 2006. Social Science Concepts: A User’s Guide. Princeton University Press. doi:10.2307/j.ctvcm4gmg.
Hastie, Trevor, Robert Tibshirani, and Jerome Friedman. 2017. The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition. New York, NY: Springer.
Jurafsky, Daniel, and James Martin. 2008. Speech and Language Processing, 2nd Edition. 2nd edition. Upper Saddle River, NJ: Prentice Hall.
King, Gary, Robert O. Keohane, and Sidney Verba. 1994. Designing Social Inquiry: Scientific Inference in Qualitative Research. Princeton, N.J: Princeton University Press.
Lazer, David, Alex Pentland, Lada Adamic, Sinan Aral, Albert-László Barabási, Devon Brewer, Nicholas Christakis, et al. 2009. “Computational Social Science.” Science 323(5915): 721–23. doi:10.1126/science.1167742.
Popper, Karl. 2002. The Logic of Scientific Discovery. 2nd edition. London: Routledge.
Salganik, Matthew J. 2018. Bit by Bit: Social Research in the Digital Age. Princeton, NJ, US: Princeton University Press.
Shmueli, Galit. 2010. “To Explain or to Predict?” Statistical Science 25(3): 289–310. doi:10.1214/10-STS330.
阶段二:数据获取与系统准备
在完成了研究问题的清晰界定和可行性评估之后,计算社会科学研究便进入了实质性的数据获取与系统准备阶段。这一阶段的核心任务是依据研究设计,系统性地收集或获取所需数据,并对这些数据进行初步的检视、评估和基础性的预处理,为后续的深入分析奠定坚实的数据基础。同时,也需要搭建和配置必要的计算环境和工具。
数据收集与获取
数据收集与获取是计算社会科学研究的生命线,数据的质量和适切性直接关系到研究结论的有效性和可靠性。执行在规划阶段制定的数据收集计划是本环节的首要任务。具体的数据获取方式多种多样,取决于研究问题、数据来源的性质以及研究者的技术能力和资源。
对于利用现有数据资源的研究,可能涉及从开放数据平台下载数据集,或者通过学术合作、数据使用协议等方式获取特定的私有数据集或商业数据。研究者需要仔细阅读并遵守数据提供方设定的使用条款和许可协议。
当研究需要通过数字平台获取数据时,利用应用程序编程接口 (Application Programming Interfaces, APIs) 是一种常见且规范的方式。许多大型社交媒体平台(如 X/Twitter、Reddit 等)、内容分享网站和数字服务提供商都提供 API,允许研究者以结构化的方式查询和下载特定类型的数据 (Bruns & Stieglitz, 2013)。使用 API 通常需要注册开发者账户、获取访问凭证,并遵守平台设定的调用频率限制和数据使用政策。研究者需要编写脚本(通常使用 Python、R 等语言)来与 API 交互,自动化数据拉取过程。
在某些情况下,如果目标数据无法通过API获取,或者API提供的粒度和范围不能满足研究需求,研究者可能会考虑使用网络爬虫 (Web Scraping) 技术。网络爬虫是自动从网页上抓取信息的程序。虽然网络爬虫提供了获取大量公开网络数据的灵活性,但其使用必须极为审慎。研究者需要严格遵守网站的 robots.txt
文件(该文件声明了网站所有者允许或禁止爬虫访问的路径)和服务条款。不规范的爬取行为可能对目标网站服务器造成过大负担,甚至引发法律纠纷或伦理争议。因此,设计爬虫时应考虑设置合理的抓取频率、模拟人类浏览行为,并尽可能减少对服务器的影响。
对于需要探究因果关系或特定干预效果的研究,设计并实施数字实验 (Digital Experiments) 或在线 A/B 测试可能更为合适。研究者可以在真实的数字环境(如社交媒体平台、在线劳动力市场、电商网站)中,通过随机分配不同的处理条件(如信息呈现方式、界面设计、算法推荐策略)给用户,来观察和测量其行为或态度的差异 (Kohavi, Tang, & Xu, 2020)。数字实验的实施需要与平台方合作或利用允许进行此类实验的特定工具。
传统的社会科学数据收集方法,如在线调查 (Online Surveys),在计算社会科学中依然有其用武之地。利用 Qualtrics, SurveyMonkey, Amazon Mechanical Turk 等工具,研究者可以设计和分发问卷,收集关于个体态度、信念、行为自述等信息,这些信息往往难以从数字痕迹中直接获得 (Couper, 2000)。在线调查可以与数字痕迹数据相结合,提供更全面的视角。
无论采用何种数据收集方式,都必须确保整个过程的规范性 (rigor) 与记录完整性 (thorough documentation)。这包括详细记录数据来源、收集时间、所用工具或脚本的版本、API 端点和参数、爬虫的种子 URL 和抓取逻辑、实验的设计方案和实施细节、调查问卷的版本和抽样框等。这些元信息对于后续的数据校验、分析复现和问题追溯至关重要。
在数据收集过程中,还需要进行初步的数据获取质量控制 (quality control during acquisition)。例如,监控 API 调用的成功率和返回数据的完整性,检查爬虫是否按预期抓取了所有目标字段,确保实验处理的正确施加,或追踪在线调查的回复率和完成情况。及时发现并处理数据收集阶段出现的问题,可以避免在后期分析中遇到更大的麻烦。
最后,收集到的原始数据需要进行初步的存储与管理 (initial data storage and management)。选择合适的存储格式(如 CSV, JSON, Parquet, HDF5)和存储平台(本地硬盘、服务器、云存储),并建立初步的数据版本控制或追踪机制,例如通过命名约定、目录结构或专门的版本控制工具来管理不同批次或版本的数据。这有助于确保原始数据的完整性和可追溯性,为后续的数据处理和分析打下坚实基础。
数据检视与评估
在成功收集或获取到原始数据之后,并不能立即投入分析。一个至关重要的中间步骤是对数据进行系统性的检视与深度评估。这一环节的目标是全面了解数据的内在特征、质量状况、潜在局限以及其与研究问题的真正契合度。忽视这一步骤,直接使用未经验证的数据进行分析,极易导致错误的结论和资源的浪费。数据检视与评估是一个细致的“侦探”过程,需要研究者运用统计方法、可视化工具以及批判性思维。
数据质量深度评估 (In-depth Data Quality Assessment) 是核心任务。数据质量是一个多维度概念,通常包括以下几个关键方面 (Wang & Strong, 1996; Pipino, Lee, & Wang, 2002; Kitchin, 2014):
准确性 (Accuracy):数据记录的值与其所代表的真实世界实体或事件的符合程度。例如,用户的年龄信息是否准确?地理位置坐标是否精确?评估准确性可能需要与外部可信数据源进行比对,或进行人工抽样核查。
完整性 (Completeness):数据记录中是否存在缺失值?所有预期的变量是否都已收集到?对于时间序列数据,是否存在时间断点?对于网络数据,节点或边的信息是否完整?需要识别缺失的模式(例如,完全随机缺失、随机缺失、非随机缺失),因为这会影响后续处理策略和分析结果的偏差 (Little & Rubin, 2002)。
一致性 (Consistency / Coherence):数据在不同部分之间、不同数据源之间或在同一数据项的不同时间点之间是否存在逻辑矛盾或冲突。例如,一个用户的注册日期是否晚于其首次发帖日期?两个声称测量同一构念的变量是否呈现出预期的相关性?
时效性 (Timeliness / Currency):数据是否足够新,能够反映当前或研究目标时期的状况?对于需要追踪动态变化的研究,数据的“新鲜度”尤为重要。过时的数据可能无法支持有效的推断。
相关性 (Relevance / Appropriateness):数据是否直接或间接地与研究问题相关?它是否包含了能够操作化核心构念的信息?即使数据质量很高,如果与研究问题不相关,其价值也有限。
可信度/来源清晰度 (Believability / Provenance):数据的来源是否可靠?收集过程是否透明、有据可查?元数据是否充分?对于二手数据或融合数据,理解其“血统”和加工历史对于评估其可信性至关重要。
粒度 (Granularity):数据的详细程度是否适合研究问题?例如,是个体层面数据还是聚合层面数据?是每日数据还是每月数据?粒度过粗可能无法捕捉细微变化,粒度过细则可能带来不必要的复杂性和噪音。
唯一性 (Uniqueness):数据集中是否存在重复记录?重复记录可能导致统计偏差。
研究者可以运用描述性统计(如计算各变量的均值、中位数、标准差、缺失值比例、唯一值数量)、数据可视化(如绘制直方图、箱线图、散点图来观察分布和异常值)以及更专门的数据剖析 (data profiling) 工具来系统地评估这些质量维度。识别并记录数据中存在的系统性偏差 (systematic biases) 也在此阶段进行,例如覆盖偏差、选择偏差或测量偏差。
元数据理解与管理 (Metadata Understanding and Management) 对于数据评估同样关键。元数据,即“关于数据的数据”,描述了数据的背景、定义、结构、来源、收集方法、处理历史、质量指标等信息 (Gitelman, 2013)。研究者需要仔细研读已有的元数据(如数据字典、代码手册、API 文档),如果元数据不完整,则需要主动收集或创建元数据。理解数据生成的具体社会、技术和组织情境对于正确解读数据至关重要。例如,理解社交媒体平台的用户协议、内容审核政策或算法推荐机制,有助于判断其数据可能存在的潜在偏见和局限。
在完成深入的数据检视和质量评估后,需要进行数据适用性再评估 (Re-assessment of Data Suitability)。根据检视结果,研究者需要重新判断当前获得的数据是否真正足以回答最初设定的研究问题。数据中可能存在预料之外的严重质量问题,或者其覆盖范围和内容与预期有较大差距。在这种情况下,可能需要调整研究问题,或者考虑补充新的数据源、采用不同的数据收集策略,甚至在极端情况下,如果发现数据完全不适用且无法补救,可能需要中止当前研究路径。这个再评估过程体现了研究的迭代性——数据获取和评估的结果会反馈到研究设计的初始阶段。
数据预处理与转换
数据预处理与转换是计算社会科学研究流程中承上启下的关键环节,它发生在数据检视评估之后、探索性数据分析与模型构建之前。这一阶段的目标是将原始的、可能“脏乱差”的数据转化为干净、规整、适合特定分析方法或模型输入的“分析就绪”数据集 (Han, Pei, & Kamber, 2023)。数据预处理的质量直接影响后续分析的准确性和可靠性,甚至有研究指出,在实际的数据科学项目中,数据准备工作可能占据整个项目时间的 60%-80% (Dasu & Johnson, 2003)。计算社会科学研究所用的数据,尤其是大规模数字痕迹数据,往往具有异构性、非结构化、高噪音、多缺失等特征,使得数据预处理尤为复杂和重要。
数据预处理与转换包含一系列相互关联的任务,主要可以归纳为数据清洗、数据转换、数据集成与融合、数据规整与结构化,以及数据子集划分。
1. 数据清洗 (Data Cleaning):数据清洗旨在识别并处理数据中的错误、不一致和缺失,以提高数据质量。数据清洗主要包括以下几种做法:
处理缺失值 (Handling Missing Values):社会科学数据中普遍存在缺失值。首先需要识别缺失的模式(完全随机缺失 MCAR、随机缺失 MAR、非随机缺失 MNAR)(Little & Rubin, 2002)。处理方法包括:删除(删除含有缺失值的记录或变量,但可能损失信息或引入偏差)、均值/中位数/众数填充(简单易行,但可能扭曲分布或低估方差)、回归填充/多重插补 (Multiple Imputation)(基于变量间关系进行更复杂的估计,是较为推荐的方法,如 MICE 算法 (van Buuren & Groothuis-Oudshoorn, 2011))、或将缺失本身作为一种信息进行标记。选择何种方法取决于缺失的比例、模式以及后续分析的需求。
处理异常值/离群点 (Handling Outliers):异常值是指与数据集中其他观测值显著不同的数据点。它们可能源于测量错误、输入错误或代表了真实但极端的情况。检测技术包括基于统计分布的方法(如 Z 分数、IQR 法则)、可视化方法(如箱线图、散点图)或基于模型的检测方法 (Aggarwal, 2017)。处理方式可以是删除(如果确定是错误)、转换(如对数转换、缩尾处理以减小其影响)、分箱,或者在某些情况下保留(如果代表真实且重要的现象)。
处理错误与不一致数据 (Handling Errors and Inconsistencies):这包括纠正明显的录入错误(如年龄为 200 岁)、统一不一致的度量单位或编码(如将“男性”、“M”、“1”统一为相同的编码)、解决逻辑冲突(如毕业日期早于出生日期)。这通常需要结合领域知识和数据字典进行。
去重 (Deduplication):识别并移除数据集中重复的记录,这些重复可能源于数据收集过程或数据合并过程。
2. 数据转换 (Data Transformation):数据转换是将数据从一种格式或结构转变为另一种,以使其更适合分析或建模。
特征工程 (Feature Engineering):这是数据预处理中最具创造性和领域知识依赖性的部分。它涉及从原始数据中创建新的、更能捕捉现象本质或提升模型性能的变量(特征)。方法包括:衍生指标(如从交易记录中计算用户的平均购买间隔、总消费金额)、对已有变量进行数学变换(如对数变换以处理偏态分布、幂变换、多项式特征)、离散化/分箱 (Discretization/Binning)(将连续变量转换为分类变量)、文本特征提取(如词袋模型、TF-IDF、词嵌入)(Aggarwal & Zhai, 2012)、时间序列特征提取(如趋势、季节性、滞后项)。好的特征工程往往能显著改善模型效果。
数据类型转换 (Data Type Conversion):确保每个变量的数据类型(如数值型、字符型、日期型、布尔型)与其含义和后续分析要求相符。
归一化/标准化 (Normalization/Standardization):当不同变量的取值范围差异很大时,某些依赖距离或梯度的算法(如 K-均值聚类、支持向量机、神经网络)可能会受到主导性变量的影响。归一化(如最小-最大归一化)通常将数据缩放到[0,1]或[-1,1]区间,标准化(如 Z 分数标准化)则将数据转换为均值为 0、标准差为 1 的分布。
编码 (Encoding):将分类变量(尤其是名义型变量)转换为数值形式,以便机器学习模型处理。常用方法有标签编码 (Label Encoding)(为每个类别分配一个整数,可能引入不必要的序关系)、独热编码 (One-Hot Encoding)(为每个类别创建一个新的二元虚拟变量,避免序关系但可能导致高维稀疏)(Géron, 2019)。对于有序分类变量,可以使用序数编码。
3. 数据集成与融合 (Data Integration and Fusion):计算社会科学研究常常需要整合来自不同来源、不同格式、不同时间点的数据集,以获得更全面、更丰富的分析视角 (Doan, Halevy, & Ives, 2012)。数据集成面临诸多挑战:
模式对齐/映射 (Schema Alignment/Mapping):不同数据源对同一实体或属性可能有不同的命名、定义或数据类型,需要进行识别和统一。
实体识别/链接 (Entity Resolution/Linkage):识别并链接指向现实世界中同一实体的不同记录(例如,不同数据库中的同一个人或同一个组织,但其标识符或名称可能存在差异)。这通常需要复杂的字符串匹配算法、机器学习方法、LLM 识别或人工校验 (Christen, 2012)。
处理数据冲突 (Handling Data Conflicts):当不同数据源对同一实体的同一属性给出不同值时,需要制定冲突解决策略(如信任特定来源、取平均值、保留所有值等)。
4. 数据规整与结构化 (Data Tidying and Structuring):为了便于后续使用特定分析工具或遵循某些分析范式,数据需要被整理成规范的格式。一个重要的原则是“Tidy Data”,即满足以下条件的数据表:每个变量是一列,每个观测是一行,每种观测单元构成一张表。这有助于简化数据操作和可视化。此外,针对特定分析任务,可能需要将数据构建成特定的数据结构,例如:将事件序列数据转换为适合时间序列分析的格式;将个体及其关系数据构建成网络/图对象 (Kolaczyk & Csárdi, 2020);将大量文本组织成适合自然语言处理的语料库 (corpus)。
5. 数据子集划分 (Data Subsetting/Splitting):在进行预测性建模时,通常需要将数据集划分为训练集 (training set)(用于拟合模型参数)、验证集 (validation set)(用于调整模型超参数和初步评估模型性能)和测试集 (test set)(用于最终评估模型的泛化能力,测试集在模型训练和调优过程中应保持“不可见”)。划分比例和方式(如随机划分、按时间划分、分层抽样)取决于数据量、数据特性和研究目标 (Hastie, Tibshirani, & Friedman, 2009)。
整个数据预处理与转换过程,每一步都应当详细记录 (documenting preprocessing steps),包括所做的决策、选择的参数、使用的代码或工具。这不仅是为了确保研究过程的透明性和可重复性 (reproducibility),也是为了在后续分析出现问题时能够有效地追溯和调试。许多数据分析软件(如 R, Python 的 Pandas 库)都提供了强大的数据操作功能,而文字化编程工具(如 Jupyter Notebook, R Markdown)则有助于将代码、解释和结果整合在一起,形成清晰的预处理报告。
本小节参考文献:
Bruns, Axel, and Stefan Stieglitz. 2013. “Towards More Systematic Twitter Analysis: Metrics for Tweeting Activities.” International Journal of Social Research Methodology. https://www.tandfonline.com/doi/abs/10.1080/13645579.2012.756095 (March 14, 2025).
Couper, Mick P. “Review: Web Surveys: A Review of Issues and Approaches*.” https://dx.doi.org/10.1086/318641 (March 14, 2025).
Gitelman, Lisa, ed. 2013. Raw Data Is an Oxymoron. Cambridge (Mass.): Mit Pr.
Kitchin, Rob. 2014. “Big Data, New Epistemologies and Paradigm Shifts.” Big Data & Society 1(1): 2053951714528481. doi:10.1177/2053951714528481.
Kohavi, Ron, Diane Tang, and Ya Xu. 2020. Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing. Cambridge: Cambridge University Press. doi:10.1017/9781108653985.
Little, Roderick J. A., and Donald B. Rubin. 2002. “Missing Data in Experiments.” In Statistical Analysis with Missing Data, John Wiley & Sons, Ltd, 24–40. doi:10.1002/9781119013563.ch2.
Pipino, Leo L., Yang W. Lee, and Richard Y. Wang. 2002. “Data Quality Assessment.” Commun. ACM 45(4): 211–18. doi:10.1145/505248.506010.
Wang, Richard Y., and Diane M. and Strong. 1996. “Beyond Accuracy: What Data Quality Means to Data Consumers.” Journal of Management Information Systems 12(4): 5–33. doi:10.1080/07421222.1996.11518099.
Aggarwal, Charu C. 2017. “An Introduction to Outlier Analysis.” In Outlier Analysis, ed. Charu C. Aggarwal. Cham: Springer International Publishing, 1–34. doi:10.1007/978-3-319-47578-3_1.
Aggarwal, Charu C., and ChengXiang Zhai. 2012. “A Survey of Text Classification Algorithms.” In Mining Text Data, eds. Charu C. Aggarwal and ChengXiang Zhai. Boston, MA: Springer US, 163–222. doi:10.1007/978-1-4614-3223-4_6.
Buuren, Stef van, and Karin Groothuis-Oudshoorn. 2011. “Mice: Multivariate Imputation by Chained Equations in R.” Journal of Statistical Software 45: 1–67. doi:10.18637/jss.v045.i03.
Christen, Peter. 2012. “The Data Matching Process.” In Data Matching: Concepts and Techniques for Record Linkage, Entity Resolution, and Duplicate Detection, ed. Peter Christen. Berlin, Heidelberg: Springer, 23–35. doi:10.1007/978-3-642-31164-2_2.
Dasu, Tamraparni, and Theodore Johnson. 2003. Exploratory Data Mining and Data Cleaning. Hoboken, NJ: Wiley-Interscience.
Doan, AnHai, Alon Halevy, and Zachary Ives. 2012. Principles of Data Integration. 1st edition. Waltham, MA: Morgan Kaufmann.
Han, Jiawei, Jian Pei, and Hanghang Tong. 2023. Data Mining: Concepts and Techniques. Cambridge, MA, United States: Morgan Kaufmann.
Hastie, Trevor, Robert Tibshirani, and Jerome Friedman. 2009. “Overview of Supervised Learning.” In The Elements of Statistical Learning: Data Mining, Inference, and Prediction, eds. Trevor Hastie, Robert Tibshirani, and Jerome Friedman. New York, NY: Springer, 9–41. doi:10.1007/978-0-387-84858-7_2.
Kolaczyk, Eric D., and Gábor Csárdi. 2020. “Visualizing Network Data.” In Statistical Analysis of Network Data with R, eds. Eric D. Kolaczyk and Gábor Csárdi. Cham: Springer International Publishing, 29–41. doi:10.1007/978-3-030-44129-6_3.
阶段三:探索性分析与模型构建
在数据经过细致的获取、评估和预处理,达到“分析就绪”状态后,研究便进入了探索性数据分析(EDA)与模型构建的核心阶段。这一阶段的目标是深入挖掘数据中蕴含的模式与洞见,并基于研究问题和数据特性,选择、设计、实现和校准合适的计算模型。这是一个充满创造性、也极具挑战性的过程,需要在理论指引、数据驱动和方法创新之间寻求平衡。
探索性数据分析
探索性数据分析(Exploratory Data Analysis, EDA)是一种以开放、好奇的心态,通过多种统计和可视化技术来审视数据,以期发现其主要特征、模式、异常、潜在关系以及检验初步假设的方法论取向。与传统的验证性数据分析(Confirmatory Data Analysis, CDA)不同,EDA 不以严格检验预设假设为首要目标,而是更侧重于从数据本身出发,“让数据说话”,从而形成对数据的直观理解,并为后续的建模或假设构建提供指导。
探索性数据分析(EDA)并非一个孤立的步骤,而是贯穿于数据理解到模型构建整个过程的一种哲学和实践。其核心目标与作用 (goals and functions) 体现得尤为突出:
深化数据理解 (Deepening Data Understanding):EDA超越了预处理阶段对数据质量的初步评估,致力于从更深层次理解数据的内在结构和分布特征。这包括细致考察单个变量的分布形态(是正态、偏态、双峰还是均匀分布?)、集中趋势(均值、中位数、众数哪个更能代表典型值?)、离散程度(方差、标准差、四分位距反映了多大的变异性?),以及不同变量之间的两两关系或多变量间的复杂互动。对于计算社会科学中常见的数字痕迹数据,EDA有助于揭示用户行为的异质性、时间动态性以及不同数据维度间的潜在关联 (Adamic & Glance, 2005; Golder & Macy, 2014)。
模式发现与假设生成 (Pattern Discovery and Hypothesis Generation):EDA的一个核心魅力在于其能够帮助研究者从数据中发现未预期的模式 (unexpected patterns)、识别有趣的异常现象 (interesting anomalies),以及揭示潜在的结构或关联 (latent structures or relationships) (Cook & Swayne, 2007)。这些发现往往能够激发新的研究灵感,催生新的理论假设,或者对已有的研究问题提供新的视角。例如,通过对社交媒体数据的EDA,可能会发现特定类型信息的传播呈现出与理论预期不符的模式,从而引导研究者探究其背后的新机制。
模型假设的初步检验 (Preliminary Check of Model Assumptions):许多统计模型和机器学习算法都建立在特定的数据假设之上,例如线性关系、正态分布、同方差性(误差方差恒定)、变量独立性等 (Gelman & Hill, 2006)。EDA通过可视化和初步统计检验,可以帮助研究者评估这些假设在当前数据上的合理性。如果发现假设被严重违背,就需要考虑对数据进行转换,或者选择对这些假设不那么敏感的模型。
特征工程的指导 (Guidance for Feature Engineering):EDA的结果,特别是变量间的关系和变量对目标结果的潜在影响,能够为后续的特征工程(创建新变量)提供重要线索。例如,如果发现两个原始变量的交互效应对结果有显著影响,就可以考虑创建一个代表这种交互的新特征。如果某个变量的分布极度偏斜,EDA会提示对其进行对数转换或分箱处理。
异常值与极端值的深入探究 (In-depth Exploration of Outliers and Extreme Values):虽然在数据预处理阶段已经对异常值进行了初步处理,但EDA提供了更深入审视这些特殊数据点的机会。结合领域知识,研究者需要判断这些异常值是真正的错误,还是代表了真实但罕见的社会现象,后者可能蕴含着重要的研究价值 (Aggarwal, 2017)。
评估后续分析的复杂性与可行性 (Assessing Complexity and Feasibility of Further Analysis):通过对数据维度、变量关系复杂性、潜在信号强弱的初步感知,EDA有助于研究者判断后续建模工作的难度和可能遇到的挑战,从而调整预期或补充资源。
为了实现这些目标,EDA依赖于一套丰富的技术与方法,这些方法可以大致分为描述性统计和数据可视化两大类,并常常结合使用。描述性统计 (Descriptive Statistics) 在EDA中扮演着基础角色,它通过数值概括来总结数据的核心特征。对于单变量 (univariate) 分析,常用的指标包括:
集中趋势度量 (Measures of Central Tendency):均值 (mean)、中位数 (median)、众数 (mode),它们描述了数据的“中心”位置。
离散程度度量 (Measures of Dispersion):方差 (variance)、标准差 (standard deviation)、极差 (range)、四分位距 (Interquartile Range, IQR),它们描述了数据的变异程度或离合程度。
分布形态度量 (Measures of Distribution Shape):偏度 (skewness) 描述了数据分布的不对称性,峰度 (kurtosis) 描述了数据分布的尖峭程度或尾部厚度。
对于双变量 (bivariate) 分析,描述性统计则关注两个变量之间的关系:
列联表 (Contingency Tables) / 交叉列表 (Cross-tabulations):用于展示两个或多个分类变量的频数分布及其联合分布,常结合卡方检验 (Chi-squared test) 来判断变量间是否存在关联。
相关系数 (Correlation Coefficients):用于度量两个数值变量之间线性关联的强度和方向。常用的有皮尔逊积矩相关系数 (Pearson's r)(适用于线性关系和正态分布数据)、斯皮尔曼等级相关系数 (Spearman's rho) 和肯德尔tau系数 (Kendall's tau)(适用于非线性关系或非正态分布数据,基于变量的秩次)(Cohen, Cohen, West, & Aiken, 2003)。
分组摘要统计 (Group-wise Summary Statistics):例如,计算不同类别(如性别、地区)下某个数值变量(如收入、观点得分)的均值、中位数等,以比较组间差异。
数据可视化 (Data Visualization) 是EDA的灵魂,它将抽象的数字转化为直观的图形,极大地增强了人类识别模式、发现异常和理解复杂关系的能力 (Healy, 2019)。有效的可视化是EDA成功的关键。常用的可视化技术包括:
单变量可视化 (Univariate Visualization):
直方图 (Histograms) 和 核密度估计图 (Kernel Density Plots):展示数值变量的频数分布和概率密度形态。
箱线图 (Box Plots) (或称盒须图):简洁地展示数值变量的五个关键统计量(最小值、下四分位数Q1、中位数Q2、上四分位数Q3、最大值)以及潜在的异常值。
小提琴图 (Violin Plots):结合了箱线图和核密度估计图的特点,既能展示分布的密度形态,又能标出关键分位数。
Q-Q图 (Quantile-Quantile Plots):用于检验数据是否服从某种理论分布(如正态分布)。 -条形图 (Bar Charts):展示分类变量各个类别的频数或比例。
双变量可视化 (Bivariate Visualization):
散点图 (Scatter Plots):展示两个数值变量之间的关系模式(线性、非线性、聚集、离散等)。可以叠加回归线(如普通最小二乘回归线 OLS)或局部加权回归平滑曲线 (LOESS/LOWESS) 来辅助观察趋势。
分组条形图 (Grouped Bar Charts) 或 堆叠条形图 (Stacked Bar Charts):比较不同类别下另一个分类变量的分布。
分组箱线图/小提琴图 (Grouped Box/Violin Plots):比较不同类别下某个数值变量的分布。
热力图 (Heatmaps):通常用于可视化相关系数矩阵、列联表的频数或高维数据的模式,通过颜色的深浅表示数值的大小。
多变量可视化 (Multivariate Visualization):当需要同时考察三个或更多变量的关系时,可视化变得更具挑战性。常用方法包括:
散点图矩阵 (Scatter Plot Matrices):展示数据集中所有数值变量两两之间的散点图。
平行坐标图 (Parallel Coordinate Plots):将每个观测值表示为一条穿过多个平行坐标轴(每个轴代表一个变量)的折线,用于识别高维数据中的聚类或模式。
雷达图 (Radar Charts) / 蜘蛛图 (Spider Charts):将多个变量的值表示在从中心点发散的多个轴上,形成一个多边形,用于比较不同观测在多个维度上的表现。
在二维图的基础上利用颜色、形状、大小等视觉通道来编码第三个或第四个变量。
针对特定数据类型的可视化:
网络/图可视化 (Network/Graph Visualization):对于社交网络、引文网络、互动网络等图数据,可视化是理解其结构特征(如节点中心性、社群结构、连接模式)的关键手段。常用的布局算法有力导向布局 (force-directed layout)、圆形布局 (circular layout) 等 (Brandes et al., 2008; Bastian, Heymann, & Jacomy, 2009)。网络图可以直接展示节点间的关系,而邻接矩阵的热力图则可以从另一个角度呈现网络结构。
地理空间数据可视化 (Geospatial Data Visualization):对于包含地理位置信息的数据(如GPS轨迹、带有地理标签的社交媒体帖子),地图是核心的可视化工具。常用方法包括分级统计图 (Choropleth Maps)(用颜色深浅表示区域统计值)、点密度图 (Point Maps)、地理热力图 (Spatial Heatmaps)、流向图 (Flow Maps) 等 (Anselin, 1995; Slocum et al., 2009)。
文本数据可视化 (Text Data Visualization):例如词云 (Word Clouds)(展示文本中高频词)、主题共现网络 (Topic Co-occurrence Networks)(展示主题模型发现的主题之间的关联)、文档相似性图 (Document Similarity Maps)(通过降维将文档投影到二维空间,可视化其相似性)。
在进行可视化时,研究者需要遵循有效数据可视化的原则,如确保图形的清晰性、准确性、信息密度、避免误导性呈现等。选择合适的图表类型、恰当的视觉编码(颜色、形状、大小等)、清晰的标签和图例,对于能否从可视化中获得真实洞见至关重要。交互式可视化 (Interactive Visualization) 工具(如Plotly Dash, R Shiny, Tableau)允许用户动态地探索数据,例如通过缩放、平移、筛选、高亮(brushing and linking)等操作,可以进一步增强EDA的效率和深度。
除了描述性统计和可视化,EDA有时也会初步运用一些更复杂的分析技术,例如:
初步的降维 (Preliminary Dimensionality Reduction):当数据变量过多时,可以使用主成分分析 (Principal Component Analysis, PCA) (Jolliffe, 2002) 来识别数据中的主要变异方向,或使用t-分布随机邻域嵌入 (t-SNE) (van der Maaten & Hinton, 2008) 或均匀流形逼近与投影 (UMAP) (McInnes, Healy, & Melville, 2018) 等非线性降维方法将高维数据投影到二维或三维空间进行可视化,以观察潜在的聚类结构。
初步的聚类分析 (Preliminary Clustering Analysis):使用如K-均值 (K-Means) 算法或层次聚类 (Hierarchical Clustering) (Jain, Murty, & Flynn, 1999) 等方法,尝试将数据中的观测值划分为若干具有内部相似性的群组,以发现潜在的异质性或数据分段。
EDA本质上是一个迭代的过程 (iterative process)。一个发现可能会引出新的问题,需要进行新一轮的数据操作或可视化。例如,发现某个变量分布异常,可能需要返回到数据预处理阶段检查其来源或进行转换;观察到两个变量间存在非线性关系,可能会引导研究者在后续建模时考虑非线性模型或对变量进行多项式扩展。EDA的结果深刻地影响着后续的模型选择、特征工程乃至研究问题的重新聚焦。
对EDA过程中的重要发现、所做的图表、观察到的模式以及由此产生的初步洞察进行系统性的记录与解读 (systematic recording and interpretation) 非常重要。这可以写入研究日志、代码注释或专门的EDA报告中。解读时需要保持审慎,区分探索性发现与验证性结论,避免对EDA中观察到的相关性进行过度因果推断。EDA的目标是启发思考、形成假设,而不是提供最终答案。它为后续更严格的统计建模和理论检验提供了坚实的基础和方向指引。一个成功的EDA能够让研究者真正“触摸”到数据,建立起对数据的直觉和深刻理解,这是任何自动化分析流程都难以替代的。
模型/方法选择与设计
在通过探索性数据分析(EDA)对数据特性、潜在模式和变量关系有了深入理解之后,研究便进入了模型或分析方法的选择与设计阶段。这是一个承上启下的关键步骤,它将研究问题、理论框架、数据特征与具体的计算工具联系起来,旨在构建一个能够有效回答研究问题、并具有良好解释力或预测力的形式化结构。此阶段要求研究者不仅熟悉各种可选模型的原理与适用条件,更要能够基于研究的特定目标和约束进行审慎的权衡与决策。
首先,需要重申研究的核心认知目标与数据的基本特性 (reiterating research objectives and data characteristics)。模型是服务于特定目的的工具 (Box, 1976),因此,选择模型的首要依据是研究旨在实现什么:是描述 (description) 现象的模式?是预测 (prediction) 未来的结果?是解释 (explanation) 现象背后的因果机制?还是生成/模拟 (generation/simulation) 复杂系统的动态过程以探索可能性?不同的认知目标对模型的要求截然不同。例如,以预测为主要目标的任务可能更倾向于选择预测精度高但可解释性可能较差的复杂机器学习模型;而以因果解释为核心的研究则可能需要依赖于结构化的统计模型(如回归模型、路径分析、结构方程模型)或专门的因果推断方法(如工具变量法、断点回归、双重差分法),并对模型的假设和参数的可解释性有较高要求 (Angrist & Pischke, 2008)。同时,数据的特性,如变量类型(连续、分类、有序)、数据结构(截面、时间序列、面板、网络、文本、图像)、数据规模、是否存在缺失或异常、变量间是否存在多重共线性等,都会极大地约束可选模型的范围。EDA的结果在此提供了重要输入。
在此基础上,研究者需要进行候选模型/方法的系统比较与筛选。计算社会科学可用的模型和方法库非常庞大,涵盖了从传统统计学到现代机器学习,再到特定领域的分析技术,这些方法我们将在后续进行介绍,此处主要陈述方法论观点。
在比较候选模型/方法时,研究者需要综合考虑以下因素:
理论基础与解释力 (Theoretical Grounding and Interpretability):模型是否与研究的理论框架相符?其参数和内部机制是否具有社会科学意义上的可解释性?
数据结构与规模的匹配度 (Fit with Data Structure and Scale):模型是否能有效处理当前数据的类型(如文本、网络、时序)、规模(大规模数据可能需要更高效的算法)和复杂性?
计算可行性与资源需求 (Computational Feasibility and Resource Requirements):模型的训练和运行是否在可接受的时间和计算资源内完成?
预期性能 (Expected Performance):根据类似研究或初步实验,模型在相关评估指标(如准确率、R²、AUC)上可能达到何种水平?
模型的假设与局限 (Assumptions and Limitations of the Model):每个模型都有其内在的假设条件(如线性、独立性、分布形态),研究者需要评估这些假设在当前研究情境下的合理性,并认识到模型的固有局限性。
模型的复杂度与简洁性 (Model Complexity vs. Parsimony):遵循奥卡姆剃刀原则,在解释力或预测力相当的情况下,应优先选择更简洁的模型。过于复杂的模型可能难以理解、容易过拟合,并且需要更多数据来稳定估计 (Forster & Sober, 1994)。
模型的复杂度与可解释性 (Model Complexity vs. Interpretability)。例如,深度神经网络通常具有强大的拟合能力和预测精度,但其内部运作机制难以直观解释 (Goodfellow, Bengio, & Courville, 2016)。而简单的线性回归模型虽然可能在预测上稍逊一筹,但其系数的含义清晰,易于理论解读。选择哪一端,取决于研究的主要目标。如果目标是纯粹的预测,那么可解释性可能次要;但如果目标是理解机制或提供政策建议,那么可解释性就至关重要。近年来,发展可解释人工智能 (Explainable AI, XAI) 的努力,如SHAP (SHapley Additive exPlanations) 和LIME (Local Interpretable Model-agnostic Explanations),试图在复杂模型和可解释性之间架起桥梁。
在选定模型或方法类型后,还需要进一步进行具体的设计。例如,如果选择随机森林,需要决定树的数量、最大深度、节点分裂标准等超参数;如果选择主题模型,需要确定主题数量;如果设计ABM,则需要详细规定主体的属性、行为规则、互动网络拓扑结构等。这些设计决策同样需要基于理论、EDA发现和研究目标来做出。
最后,至关重要的是预先确定模型的评估指标与验证策略 (defining evaluation metrics and validation strategy)。在模型构建之前就明确如何衡量模型的“好坏”,是保证评估客观性的前提。评估指标应与研究目标和模型类型相匹配。该话题将在下面一部分进行详细阐述。
模型/方法选择与设计是一个充满权衡与迭代的过程。初步选定的模型可能在后续的实现或评估阶段发现不适用或性能不佳,这时就需要返回此阶段重新思考,甚至可能需要重新审视研究问题或数据。拥有广博的模型知识储备、深刻的理论洞察力以及对数据特征的敏锐把握,是成功完成这一阶段任务的关键。此阶段的产出通常是一个详细的模型设计方案,包括所选模型的理论依据、数学形式(如果适用)、关键假设、参数设定、超参数范围以及评估计划。
模型实现与参数校准
在审慎地选择了合适的模型或分析方法并完成了初步设计之后,研究便进入了模型实现与参数校准的阶段。这一阶段的核心任务是将抽象的模型构想转化为具体的、可执行的计算机代码,并通过数据拟合或理论约束来确定模型的参数值。这是一个技术性与分析性并重的过程,要求研究者既具备扎实的编程能力,又对模型的统计或计算原理有深入理解。
首先,选择合适的编程语言、库与工具 (selecting appropriate programming languages, libraries, and tools) 是模型实现的第一步。计算社会科学领域主流的编程语言是Python和R。Python以其强大的通用性、丰富的第三方库以及在机器学习和深度学习领域的领先地位而广受欢迎。R语言则在统计分析、数据可视化和特定社会科学计量方法(如混合效应模型、生存分析、结构方程模型)方面拥有深厚的积累和庞大的社区支持(如 lme4
, survival
, lavaan
, igraph
, ggplot2
等包)。选择哪种语言通常取决于研究者的熟悉程度、特定模型或方法的现有实现以及团队协作的需求。除了Python和R,某些特定类型的模型可能需要专门的软件或平台,例如,NetLogo广泛用于主体建模,Gephi 用于网络可视化与分析,Mplus 用于复杂的结构方程模型和潜变量分析。熟悉并善用这些工具对于高效实现模型至关重要。
接下来是模型代码的编写与调试 (model code writing and debugging)。这要求研究者将模型设计的逻辑(无论是统计方程、机器学习算法流程,还是模拟规则)准确地翻译成计算机指令。编写高质量的代码是确保研究结果可靠性和可重复性的基础。这包括遵循良好的编程规范(如代码模块化、添加清晰注释、使用有意义的变量名)、进行版本控制、以及进行单元测试和集成测试以确保代码的正确性。调试是编程过程中不可避免的一环,需要耐心和细致地定位并修复代码中的逻辑错误或语法错误。对于复杂的模型,实现过程可能需要参考相关的学术论文、官方文档或开源代码库。
当模型代码初步完成后,便进入了参数估计/模型训练 (parameter estimation / model training) 的核心环节。这一过程的目标是利用已准备好的训练数据集 (training dataset) 来确定模型中的未知参数,使其能够最好地拟合数据或学习数据中的模式。
对于统计模型,参数估计通常涉及最优化某个目标函数。例如,在线性回归中,目标是找到使残差平方和最小的回归系数;在逻辑回归中,是找到使观测数据的似然函数最大的系数。这通常通过解析解或数值优化算法(如梯度下降、牛顿法)来实现。
对于机器学习模型,模型训练是一个通过迭代优化来调整模型内部权重或结构的过程,以最小化在训练数据上的损失函数 (loss function) 或最大化某个性能指标。
对于网络模型,如指数随机图模型 (ERGM),参数估计通常采用马尔可夫链蒙特卡洛最大似然估计 (MCMC MLE) 或贝叶斯方法 (Lusher, Koskinen, & Robins, 2013)。
对于主题模型,如LDA,参数(如每个主题的词分布、每篇文档的主题分布)通常通过吉布斯采样 (Gibbs sampling) 或变分推断 (variational inference) 等算法进行估计 (Blei, Ng, & Jordan, 2003)。
在许多机器学习模型中,除了通过训练数据学习的参数(如回归系数、神经网络权重)外,还存在一类需要在模型训练之前手动设定的参数,称为超参数 (hyperparameters)。例如,随机森林中的树的数量、支持向量机中的惩罚系数C和核函数类型、K近邻算法中的K值、神经网络的层数和每层的神经元数量、学习率等。超参数调优 (hyperparameter tuning) 是寻找最优超参数组合的过程,以使模型在未见过的验证数据上表现最佳。常用的超参数调优方法包括:、
网格搜索 (Grid Search):对预先定义的超参数候选值进行穷举组合,逐一评估。计算量大,但易于实现。
随机搜索 (Random Search):在预定义的超参数分布中随机采样组合进行评估。通常比网格搜索更高效,尤其当某些超参数影响较小时。
贝叶斯优化 (Bayesian Optimization):构建一个关于超参数与模型性能之间关系的概率模型(通常是高斯过程),并利用该模型智能地选择下一个要评估的超参数组合,以期更快地找到最优值。
基于梯度的优化 (Gradient-based Optimization):对于某些可微分的超参数,可以直接使用梯度方法进行优化。
进化算法 (Evolutionary Algorithms):如遗传算法,模拟自然选择过程来搜索最优超参数组合。
超参数调优通常在独立的验证集 (validation set) 上进行,以避免在测试集上调优导致对模型泛化能力的过高估计。
对于某些类型的模型,特别是基于主体的模拟模型 (Agent-Based Models, ABM),参数的确定过程可能不完全依赖于数据拟合,而是更多地依赖于理论设定、文献参考或一种称为校准 (calibration) 的过程。校准的目标是调整ABM中的微观参数(如主体的行为规则、互动概率、决策阈值等),使得模型在宏观层面生成的输出(如某种分布、动态模式、关键统计量)能够与已知的经验数据或“典型化事实” (stylized facts) 相匹配。校准过程可能涉及:
直接估计 (Direct Estimation):如果某些微观参数可以直接从经验数据(如调查、实验)中获得,则直接使用。
模式导向建模 (Pattern-Oriented Modeling, POM):识别目标系统中的多个关键宏观模式,然后系统地调整模型参数,直到模型能够同时复现这些模式。
手动调参/专家判断 (Manual Tuning / Expert Judgment):基于研究者对系统和模型的理解,手动调整参数并观察其效果。
自动化校准算法 (Automated Calibration Algorithms):使用类似超参数调优的优化算法来搜索能够最好拟合经验模式的参数组合。
校准是一个复杂且具挑战性的过程,因为ABM往往具有高维度参数空间、非线性行为和随机性,可能存在参数“等效性”(equifinality) 问题(即不同的参数组合可能产生相似的宏观输出)。
无论采用何种方法进行参数估计、模型训练或校准,都需要详细记录所用的算法、软件版本、超参数设置、训练/验证/测试集的划分方式以及最终确定的参数值。这对于后续的模型评估、结果解释和研究复现至关重要。模型实现与参数校准是连接理论设计与经验验证的桥梁,其质量直接决定了模型能否有效地从数据中学习并揭示有意义的社会科学洞见。
本小节参考文献:
Adamic, Lada A., and Natalie Glance. 2005. “The Political Blogosphere and the 2004 U.S. Election: Divided They Blog.” In Proceedings of the 3rd International Workshop on Link Discovery, LinkKDD ’05, New York, NY, USA: Association for Computing Machinery, 36–43. doi:10.1145/1134271.1134277.
Aggarwal, Charu C. 2017. “An Introduction to Outlier Analysis.” In Outlier Analysis, ed. Charu C. Aggarwal. Cham: Springer International Publishing, 1–34. doi:10.1007/978-3-319-47578-3_1.
Anselin, Luc. 1995. “Local Indicators of Spatial Association—LISA.” Geographical Analysis 27(2): 93–115. doi:10.1111/j.1538-4632.1995.tb00338.x.
Bastian, Mathieu, Sebastien Heymann, and Mathieu Jacomy. 2009. “Gephi: An Open Source Software for Exploring and Manipulating Networks.” Proceedings of the International AAAI Conference on Web and Social Media 3(1): 361–62. doi:10.1609/icwsm.v3i1.13937.
Blei, David M., Andrew Y. Ng, and Michael I. Jordan. 2003. “Latent Dirichlet Allocation.” J. Mach. Learn. Res. 3(null): 993–1022.
Brandes, Alba A., Enrico Franceschi, Alicia Tosoni, Valeria Blatt, Annalisa Pession, Giovanni Tallini, Roberta Bertorelle, et al. 2008. “MGMT Promoter Methylation Status Can Predict the Incidence and Outcome of Pseudoprogression after Concomitant Radiochemotherapy in Newly Diagnosed Glioblastoma Patients.” Journal of Clinical Oncology: Official Journal of the American Society of Clinical Oncology 26(13): 2192–97. doi:10.1200/JCO.2007.14.8163.
Cohen, Jacob, Patricia Cohen, Stephen G. West, and Leona S. Aiken. 2003. Applied Multiple Regression/Correlation Analysis for the Behavioral Sciences, 3rd Ed. Mahwah, NJ, US: Lawrence Erlbaum Associates Publishers.
Fagiolo, Giorgio, Alessio Moneta, and Paul Windrum. 2007. “A Critical Guide to Empirical Validation of Agent-Based Models in Economics: Methodologies, Procedures, and Open Problems.” Computational Economics 30(3): 195–226. doi:10.1007/s10614-007-9104-4.
Forster, Malcolm R., and Elliott Sober. 1994. “How to Tell When Simpler, More Unified, or Less a D Hoc Theories Will Provide More Accurate Predictions.” British Journal for the Philosophy of Science 45(1): 1–35. doi:10.1093/bjps/45.1.1.
Gitelman, Lisa, ed. 2013. Raw Data Is an Oxymoron. Cambridge (Mass.): Mit Pr.
Golder, Scott A., and Michael W. Macy. 2014. “Digital Footprints: Opportunities and Challenges for Online Social Research.” Annual Review of Sociology 40: 129–52. doi:10.1146/annurev-soc-071913-043145.
Goodfellow, Ian, Yoshua Bengio, and Aaron Courville. 2016. Deep Learning. Cambridge, Mass: The MIT Press.
Healy, Kieran. 2019. Data Visualization: A Practical Introduction. Princeton NJ Oxford: Princeton University Press.
Jain, A. K., M. N. Murty, and P. J. Flynn. 1999. “Data Clustering: A Review.” ACM Comput. Surv. 31(3): 264–323. doi:10.1145/331499.331504.
Maaten, Laurens van der, and Geoffrey Hinton. 2008. “Visualizing Data Using T-SNE.” Journal of Machine Learning Research 9(86): 2579–2605.
Slocum, Terry A., Robert B. McMaster, Fritz C. Kessler, and Hugh H. Howard. 2009. Thematic Cartography and Geovisualization, 3rd Edition. Upper Saddle River, NJ: Pearson.
阶段四:评估、解释与迭代优化
模型实现与参数校准完成后,计算社会科学研究进入了至关重要的评估、解释与迭代优化阶段。这一阶段的核心任务是系统性地检验模型的性能、稳健性和有效性,深入解读模型结果的社会科学含义,并根据评估结果对模型或研究设计进行必要的调整和改进。这是一个反思性、批判性且高度迭代的过程,旨在确保研究结论的可靠性、理论贡献的深刻性以及实践意义的价值。
模型评估与验证
模型评估与验证是科学研究严谨性的核心体现,它旨在回答“我们构建的模型在多大程度上是好的?”以及“我们对模型的信任应该有多少?”这一根本问题。一个未经严格评估的模型,其结论往往是不可靠的,甚至可能产生误导。评估是一个多维度的工作,涉及模型的预测性能、诊断检验、稳健性分析以及与研究目标的契合度等多个方面。
1. 性能评估 (Performance Assessment):这是模型评估最直接的方面,关注模型在完成其预设任务(如分类、回归、聚类、主题识别、模式生成)方面的表现如何。
在独立的测试集上进行评估:为了获得对模型泛化能力 (generalization ability) 的无偏估计,即模型在未见过的新数据上的表现,最终的性能评估必须在严格独立的测试集 (test set) 上进行。测试集在整个模型训练和超参数调优过程中都应保持“隔离”状态 (Hastie, Tibshirani, & Friedman, 2009)。如果在验证集(用于调参)或训练集(用于拟合)上评估性能,结果往往会过于乐观,导致过拟合 (overfitting) 的误判。
使用恰当的评估指标 (appropriate evaluation metrics):如前文在模型选择阶段所述,需要根据模型的类型和研究目标选择合适的量化指标。例如:
分类模型:准确率、精确率、召回率、F1 分数、混淆矩阵 (Confusion Matrix)、AUC-ROC、精确率-召回率曲线 (Precision-Recall Curve, PRC) 等 (Fawcett, 2006)。对于类别不平衡的数据,准确率可能具有误导性,此时应更关注 AUC-ROC、PRC 或平衡 F1 分数等指标。
回归模型:均方误差 (Mean Squared Error, MSE)、均方根误差 (RMSE)、平均绝对误差 (MAE)、决定系数 (R²)、调整 R² (Adjusted R²) 等 (James et al., 2013)。
聚类模型:轮廓系数、Calinski-Harabasz 指数、Davies-Bouldin 指数 (DBI)(内部评估,无需真实标签);调整兰德指数 (Adjusted Rand Index, ARI)、调整互信息 (Adjusted Mutual Information, AMI)(外部评估,需要真实标签) (Rousseeuw, 1987; Hubert & Arabie, 1985)。
主题模型:困惑度 (Perplexity)(衡量模型对未见文档的预测能力,越低越好,但有时与人类判断不一致)、主题一致性/可解释性指标 (Topic Coherence/Interpretability)(如 UMass Coherence, NPMI Coherence,衡量主题内词语的语义相关性,越高越好)(Newman et al., 2010; Röder, Both, & Hinneburg, 2015)。
网络模型:拟合优度检验 (Goodness-of-fit tests),如比较模拟网络与观测网络的度分布、聚类系数、最短路径长度等统计量 (Hunter, Goodreau, & Handcock, 2008)。
基线模型比较 (Comparison with Baseline Models):将所构建模型的性能与一些简单的基线模型(如随机猜测、仅预测最常见类别、平均值预测、简单线性回归)或领域内已有的标准模型进行比较,以判断模型的增益是否显著。
2. 模型诊断 (Model Diagnostics):除了整体性能指标,还需要深入检查模型的内部行为,识别其可能存在的系统性偏差、方差来源或假设违背情况。
残差分析 (Residual Analysis):对于回归模型,检查残差(观测值与预测值之差)的分布是否随机、是否符合正态性、是否存在异方差性(残差方差随预测值变化)、是否存在自相关(对于时间序列数据)等。残差图是重要的诊断工具 (Cook & Weisberg, 1982)。
影响点与杠杆点分析 (Analysis of Influential Points and Leverage Points):识别那些对模型参数估计或预测结果有异常大影响的个别观测点。
检验模型假设:回顾模型构建时所做的核心假设(如线性关系、变量独立性、误差分布形态),并利用统计检验或可视化方法评估这些假设在当前数据和模型下的合理性。例如,对于线性回归,可以使用方差膨胀因子 (Variance Inflation Factor, VIF) 来检测多重共线性。
学习曲线 (Learning Curves):通过绘制模型在训练集和验证集上的性能随训练样本量变化的曲线,可以判断模型是否存在高偏差(欠拟合)或高方差(过拟合)问题 (Domingos, 2012)。
错误分析 (Error Analysis):仔细检查模型预测错误的案例,分析其特征和原因,这有助于发现模型的系统性弱点或数据中存在的特殊情况,为模型改进提供线索。
3. 稳健性与敏感性分析 (Robustness and Sensitivity Analysis):一个好的模型,其核心结论不应过于依赖于某些特定的、可能不确定的假设、参数选择或数据输入的微小变动。稳健性和敏感性分析旨在评估模型结论的“坚固”程度。
对数据扰动的稳健性:例如,通过自助法 (Bootstrap) 重抽样来估计参数的置信区间或预测的稳定性;使用不同的数据子集(如按时间、按区域划分)重新训练和评估模型,看结果是否一致;在输入数据中引入少量噪音,观察模型输出的变化。
对模型假设变化的稳健性 (Robustness to Model Specification):尝试略微改变模型的结构(如增加或删除某些变量、改变函数形式),观察核心结论是否发生显著变化。
参数敏感性分析 (Parameter Sensitivity Analysis):对于模型中的关键参数(尤其是那些非数据驱动设定或存在不确定性的参数,如 ABM 中的某些行为规则参数),系统地改变其取值,观察模型输出对这些变化的敏感程度。如果模型结果对某个参数的微小变化高度敏感,则该参数的设定需要特别谨慎,或者模型本身可能不够稳健 (Saltelli et al., 2008)。
交叉验证 (Cross-Validation):如 K 折交叉验证 (K-fold Cross-Validation),将数据随机分成 K 个子集,轮流使用 K-1 个子集进行训练,剩下的 1 个子集进行验证,重复 K 次并平均结果。这是一种评估模型泛化能力和稳定性的常用方法,尤其适用于数据量有限的情况。
4. (对于因果模型)因果有效性评估 (Assessment of Causal Validity):如果研究旨在进行因果推断,那么评估的核心在于模型所断言的因果关系是否真实可信。这需要超越统计关联,深入考虑:
混淆变量 (Confounding Variables):是否充分控制了所有可能同时影响自变量和因变量的共同原因?遗漏重要的混淆变量会导致虚假因果关系。
选择偏差 (Selection Bias):样本的选择过程或数据的生成机制是否导致了自变量与误差项相关?例如,在研究教育回报时,能力既影响教育选择也影响收入,不加控制会导致偏差。
内生性 (Endogeneity):除了混淆和选择偏差,还可能存在互为因果(simultaneity)或测量误差等问题。
反事实思考 (Counterfactual Reasoning):模型能否支持关于“如果 X 没有发生,Y 会怎样”的反事实推断? (Pearl, 2009; Morgan & Winship, 2014)。
评估因果有效性通常需要结合理论知识、研究设计(如随机实验、准实验设计)、专门的因果推断方法(如工具变量法、倾向得分匹配、回归断点设计)以及对潜在偏见来源的细致分析。统计显著性本身并不等同于因果关系。
5. (对于模拟模型)行为空间探索与模式复现 (Exploration of Behavioral Space and Pattern Replication):对于 ABM 等生成性模型,评估的重点可能不在于精确点预测,而在于:
模型能否复现已知的宏观模式或典型化事实? (Emergent pattern replication) (Gilbert & Troitzsch, 2005)。
模型参数对宏观输出的影响是怎样的? (Sensitivity analysis of emergent outcomes to micro-parameters)。
模型是否能产生非预期的、有趣的或理论上重要的涌现行为? (Discovery of novel emergent phenomena)。
模型的行为空间 (behavioral space) 是否足够丰富且与现实系统的复杂性相称?
验证模拟模型通常是一个多方面、迭代的过程,可能包括与经验数据(如果可用)的定量比较、与理论预期的一致性检验、专家判断以及对模型内部动态的深入分析 (Sargent, 2013; Grimm & Railsback, 2005)。
6. 与其他模型的比较 (Benchmarking against Alternative Models):将当前模型的性能或特性与文献中已有的其他相关模型,或者与研究者自己构建的其他候选模型进行系统比较。这有助于客观评估当前模型的相对优势和劣势。
模型评估与验证是一个持续的过程,其结果直接反馈到研究的各个环节。如果评估结果不理想(如预测精度低、模型不稳定、假设被严重违背、无法解释关键现象),就需要返回到模型选择、特征工程、数据预处理甚至问题定义阶段进行调整。这是一个不断试错、学习和改进的循环,直至研究者对模型的质量和结论的可靠性达到满意的程度。清晰、透明地报告评估过程和结果,包括模型的局限性,是负责任的科学实践不可或缺的一部分。
结果解释与理论关联
在对模型进行了系统性的评估与验证之后,接下来的核心任务是对模型产生的结果进行深入的社会科学意义解读,并将其与相关的理论框架进行富有成效的对话。这一步骤是将技术性的分析输出转化为有价值的知识洞见的桥梁,是计算社会科学研究实现其智识贡献的关键环节。仅仅报告统计显著性或预测准确率是远远不够的,研究者必须阐明这些结果对于理解社会现象、检验或发展社会理论意味着什么。
1. 社会科学意义解读 (Interpretation of Results in Social Science Terms):
将统计结果翻译为实质性结论:模型输出的可能是回归系数、边际效应、预测概率、聚类标签、主题词分布、网络中心性得分、模拟轨迹等。研究者需要将这些量化结果用清晰、准确、易于理解的社会科学语言重新表述。例如,一个正向显著的回归系数意味着什么?一个特定的主题模型包含了哪些核心概念,它反映了文本数据中怎样的社会议题或话语模式?一个高介数中心性的节点在社会网络中扮演了怎样的角色?
回答最初的研究问题:模型结果在多大程度上直接回答了研究开始时提出的核心问题?它们是否支持或否定了最初的假设(如果适用)?结果的强度和方向如何?
量化效应大小与实际重要性 (Quantifying Effect Sizes and Practical Significance):除了统计显著性(如 p 值),更要关注效应的大小和实际重要性 (Cohen, 1988; Wasserstein & Lazar, 2016)。一个统计上显著但效应量极小的结果,其理论或实践意义可能有限。需要评估结果在现实世界中的影响程度是否值得关注。
考虑结果的异质性 (Considering Heterogeneity of Effects):模型结果是否对所有子群体或情境都一致?是否存在某些特定条件下效应更强或更弱,甚至方向相反的情况?探索和解释这种效应异质性,往往能带来更细致和深刻的洞察。
可视化辅助解释 (Utilizing Visualizations for Interpretation):如前所述,图表是传达复杂模型结果和洞察的有力工具。例如,绘制回归系数的点图及其置信区间、预测概率随关键变量变化的曲线图、主题模型中主题-词语关系的词云或网络图、模拟结果随参数变化的相图等,都能帮助读者(和研究者自己)更好地理解结果的含义 (Healy, 2018)。
2. 与理论对话 (Engaging with Theory):计算社会科学研究的最终目标之一是贡献于社会科学理论的积累与发展。因此,将模型发现与现有理论进行深入对话至关重要。
检验理论 (Theory Testing):如果研究始于明确的理论假设,模型结果可以直接用于检验这些假设。结果是支持了理论的预测?还是与理论预期相悖?如果相悖,是理论本身存在问题,还是模型的构建或数据的测量有缺陷?
修正或拓展理论 (Theory Refinement or Extension):模型结果可能揭示了现有理论的不足之处,或者发现了理论未能预料到的新现象或关系。这为修正理论的边界条件、补充新的作用机制或整合不同理论视角提供了契机。例如,一个基于大规模网络数据的研究可能发现,传统社会资本理论需要考虑线上弱连接的独特作用。
生成新理论或概念 (Theory Generation or Concept Development):对于探索性较强或基于数据驱动发现的研究,模型结果(如新发现的模式、聚类、主题)可能成为构建新理论或提出新概念的起点 (Glaser & Strauss, 1967; Timmermans & Tavory, 2012)。例如,通过对在线社群互动数据的分析,可能识别出一种新的集体行为模式,并为其建立初步的理论解释。
阐明机制 (Elucidating Mechanisms):如果模型(特别是因果模型或模拟模型)旨在揭示现象背后的作用机制,那么结果解释应重点阐述这些机制是如何运作的,以及模型是如何支持对这些机制的理解的 (Hedström & Ylikoski, 2010)。
比较不同理论的解释力 (Comparing Explanatory Power of Competing Theories):如果研究涉及对同一现象的多种理论解释,模型结果可以帮助评估哪种理论提供了更充分或更简洁的解释。
3. 局限性分析 (Acknowledging Limitations):负责任的结果解释必须坦诚地讨论研究中存在的各种局限性,这不仅体现了科学的审慎,也为未来的研究指明了方向。
数据局限 (Data Limitations):回顾数据的来源、覆盖范围、潜在偏差(如样本代表性问题、测量误差、数字鸿沟)、缺失数据的影响等,并说明这些局限可能如何影响研究结论的可靠性和普适性 (boyd & Crawford, 2012; Lazer et al., 2014)。
方法局限 (Methodological Limitations):讨论所选模型或分析方法的内在假设和局限性。例如,相关性不等于因果关系;特定机器学习模型的可解释性问题;模拟模型中简化假设的潜在影响。
模型假设的潜在影响 (Impact of Model Assumptions):明确模型构建过程中所做的关键假设,并讨论如果这些假设不成立,结论可能会有何不同。
结论的适用范围与推广边界 (Scope and Generalizability of Conclusions):基于数据和方法的局限,清晰界定研究结论适用于哪些特定的人群、情境、时间段或平台。避免对结果进行过度泛化。
替代性解释 (Alternative Explanations):思考是否存在其他可能的理论或机制也能解释观察到的结果,并说明为什么当前研究选择的解释更具说服力,或者承认其他解释的可能性。
4. 识别非预期发现与新问题 (Identifying Unexpected Findings and New Questions):研究过程往往充满意外。模型结果中可能会出现与预期完全不同甚至相反的发现,或者揭示出一些全新的、未被注意到的现象。对这些意外之喜 (serendipitous findings) 进行深入思考和解读,往往能开辟新的研究路径,产生更具原创性的贡献。同时,一项研究的结束往往是另一项研究的开始。基于当前研究的发现和局限,可以提出未来值得进一步探索的新研究问题。
迭代与优化
社会科学的研究过程并非一条笔直的单行道,而更像是一个不断循环、反馈和优化的螺旋式上升过程。迭代与优化不仅是研究生命周期中的一个特定阶段,更是一种贯穿始终的思维方式和工作模式。在模型的评估与解释之后,基于所获得的反馈信息,研究者常常需要返回到之前的某个或多个阶段,对研究设计、数据处理、模型选择或实现进行调整和改进,以期获得更可靠、更深刻、更有价值的研究成果。
基于评估结果的反馈循环 是迭代的核心驱动力。模型评估与验证阶段可能会揭示出各种问题,这些问题直接指示了需要进行迭代的方向:
模型性能不佳 (Poor Model Performance):如果模型的预测准确率低、拟合优度差,或者无法复现关键的经验模式,这可能表明:
问题定义层面:研究问题是否过于宽泛、模糊,或者设定的目标不切实际?是否需要重新聚焦或分解问题?
数据层面:
数据质量问题:数据中是否存在未被充分处理的噪音、错误、缺失或偏差?
数据代表性或相关性不足:当前数据是否真的包含了回答研究问题所需的关键信息?是否需要获取更多样、更大规模或不同类型的数据?
特征工程不足:原始变量是否未能有效捕捉现象的关键驱动因素?是否需要创建更有信息量的新特征?
EDA 层面:在探索性分析中是否遗漏了某些重要的变量关系、数据结构或异常模式,导致对数据的理解出现偏差?
模型选择/设计层面:
模型假设不符:所选模型的内在假设是否与数据的实际特征严重不符(如对非线性关系使用了线性模型)?
模型复杂度不当:模型是否过于简单(欠拟合)而无法捕捉数据中的复杂性,或者过于复杂(过拟合)而导致泛化能力差?
尝试其他模型类型:当前模型是否是解决该类问题的最优选择?是否应该考虑其他类型的模型或分析方法?
模型实现/校准层面:
代码实现错误:模型代码中是否存在逻辑错误或计算错误?
参数设置/超参数调优不当:模型的参数估计是否收敛?超参数是否经过了充分的优化?
(对于模拟模型)校准不足:模拟模型的参数是否未能使其行为与经验事实充分匹配?
模型结果难以解释或与理论冲突:即使模型在统计性能上表现尚可,但如果其结果难以从社会科学理论的角度进行合理解释,或者与广泛接受的理论或经验发现严重冲突,这也提示需要进行迭代。这可能意味着:
对模型的理解存在偏差:是否正确理解了模型参数的含义或模型输出的逻辑?
理论框架选择不当或理解不深:当前理论是否是解释该现象的最佳视角?是否存在其他更合适的理论?
操作化问题:核心概念的操作化(从理论构念到可测量变量的转换)是否存在问题,导致模型测量的并非研究者意图研究的内容?
模型可能揭示了理论的局限或需要修正之处:有时,与理论的冲突并非模型的问题,而是理论本身需要被挑战或完善。这需要更深入的理论思辨。
模型稳健性不足 (Lack of Model Robustness):如果模型结果对数据或参数的微小变动高度敏感,那么其结论的可靠性就值得怀疑。这可能需要:
改进数据预处理以减少噪音和异常值的影响。
采用更稳健的估计方法或模型类型。
更仔细地校准或设定关键参数。
迭代优化不仅仅是对模型本身的调整,有时也可能涉及到研究问题的重新审视和调整。在研究过程中,随着对数据和现象的理解不断加深,研究者可能会发现最初设定的研究问题过于宏大、难以操作,或者存在更重要、更有趣的子问题值得优先探索。灵活地调整研究焦点,是成熟研究者的标志之一。
迭代过程是一个持续学习和改进的过程。每一次迭代,无论是成功还是失败,都能为研究者提供宝贵的经验和教训。失败的尝试有助于排除不合适的路径,而成功的改进则会增强对模型和数据的信心。这个过程可能需要研究者学习新的技术、查阅更多的文献、与同行进行深入的讨论,甚至挑战自己固有的观念。
在计算社会科学中,由于数据的复杂性、模型的多样性以及理论与经验之间关系的微妙性,迭代往往不是一次性的,而是可能需要经历多次循环。研究者需要在追求完美与项目时间和资源限制之间取得平衡。何时停止迭代并没有一个固定的标准,通常取决于研究者是否认为当前的模型和结果已经足够回答研究问题、具有足够的可靠性、并能做出有意义的理论或实践贡献。
有效的迭代需要良好的项目管理和文档记录。清晰地记录每次迭代所做的更改、更改的理由、以及更改后的评估结果,有助于避免重复错误,并能系统地追踪研究的进展。版本控制系统(如 Git)对于管理代码和分析脚本的迭代尤为重要。
本小节参考文献:
Cohen, Jacob. 2009. Statistical Power Analysis for the Behavioral Sciences. New York, NY: Routledge.
Domingos, Pedro. 2012. “A Few Useful Things to Know about Machine Learning.” Commun. ACM 55(10): 78–87. doi:10.1145/2347736.2347755.
Fawcett, Tom. 2006. “An Introduction to ROC Analysis.” Pattern Recognition Letters 27(8): 861–74. doi:10.1016/j.patrec.2005.10.010.
Gilbert, Nigel. Simulation for the Social Scientist [Paperback] [2005] 2 Ed. Nigel Gilbert, Klaus Troitzsch. Open University Press.
Glaser, Barney G., and Anselm L. Strauss. 1980. The Discovery of Grounded Theory: Strategies for Qualitative Research. New York: Aldine Pub. Co.
Grimm, Volker. Individual-Based Modeling and Ecology: (Princeton Series in Theoretical and Computational Biology) by Grimm, Volker, Railsback, Steven F. (2005) Paperback. Princeton University Press.
Hastie, Trevor, Robert Tibshirani, and Jerome Friedman. 2009. “Basis Expansions and Regularization.” In The Elements of Statistical Learning: Data Mining, Inference, and Prediction, eds. Trevor Hastie, Robert Tibshirani, and Jerome Friedman. New York, NY: Springer, 139–89. doi:10.1007/978-0-387-84858-7_5.
Healy, Kieran. 2019. Data Visualization: A Practical Introduction. Princeton NJ Oxford: Princeton University Press.
Hedström, Peter, and Petri Ylikoski. 2010. “Causal Mechanisms in the Social Sciences.” Annual Review of Sociology 36(Volume 36, 2010): 49–67. doi:10.1146/annurev.soc.012809.102632.
Hubert, Lawrence, and Phipps Arabie. 1985. “Comparing Partitions.” Journal of Classification 2(1): 193–218. doi:10.1007/BF01908075.
Hunter, David R., Steven M. Goodreau, and Mark S. Handcock. 2008. “Goodness of Fit of Social Network Model.” Journal of the American Statistical Association 103(481): 248–58.
“Introduction to Sensitivity Analysis.” 2007. In Global Sensitivity Analysis. The Primer, John Wiley & Sons, Ltd, 1–51. doi:10.1002/9780470725184.ch1.
James, Gareth, Daniela Witten, Trevor Hastie, and Robert Tibshirani. 2013. An Introduction to Statistical Learning: With Applications in R. 1st ed. 2013, Corr. 7th printing 2017 edition. New York: Springer.
Newman, David, Jey Han Lau, Karl Grieser, and Timothy Baldwin. 2010. “Automatic Evaluation of Topic Coherence.” In Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics, eds. Ron Kaplan, Jill Burstein, Mary Harper, and Gerald Penn. Los Angeles, California: Association for Computational Linguistics, 100–108. https://aclanthology.org/N10-1012/ (May 14, 2025).
Pearl, Judea. 2009. Causality: Models, Reasoning and Inference. 2nd edition. Cambridge, U.K. ; New York: Cambridge University Press.
Röder, Michael, Andreas Both, and Alexander Hinneburg. 2015. “Exploring the Space of Topic Coherence Measures.” In Proceedings of the Eighth ACM International Conference on Web Search and Data Mining, WSDM ’15, New York, NY, USA: Association for Computing Machinery, 399–408. doi:10.1145/2684822.2685324.
Rousseeuw, Peter J. 1987. “Silhouettes: A Graphical Aid to the Interpretation and Validation of Cluster Analysis.” Journal of Computational and Applied Mathematics 20: 53–65. doi:10.1016/0377-0427(87)90125-7.
S. Cook, R. Dennis;Weisberg. 1995. Residuals and Influence in Regression. New York: Chapman & Hall.
Sargent, Thomas J. 2013. Rational Expectations and Inflation (Third Edition). Princeton University Press. https://www.jstor.org/stable/j.ctt2jc97n (May 12, 2025).
Wasserstein, Ronald L., and Nicole A. and Lazar. 2016. “The ASA Statement on P-Values: Context, Process, and Purpose.” The American Statistician 70(2): 129–33. doi:10.1080/00031305.2016.1154108.
阶段五:沟通、影响与知识贡献
当研究经过了反复的迭代与优化,模型和结果达到了研究者认为满意和可靠的程度后,便进入了研究生命周期的最后一个核心阶段:沟通、影响与知识贡献。这一阶段的目标是将研究过程和成果有效地传递给学术共同体乃至更广泛的社会,确保研究的可重复性和透明度,反思研究的伦理意涵和社会影响,并将所获得的知识妥善存档,为未来的科学探索奠定基础。这是将个体研究融入人类知识宝库,并使其产生实际价值的关键环节。
知识封装与成果沟通
研究的价值最终体现在其能否被他人理解、接受和使用。因此,将复杂的研究过程和发现有效地封装并清晰地沟通出去,是研究者的核心责任之一。
撰写研究报告/学术论文:这是学术成果沟通最主要的形式。一篇高质量的研究论文需要系统地呈现研究的各个方面,通常包括:
引言 (Introduction):阐述研究背景、研究问题的重要性、理论框架、研究目标和主要贡献。
文献综述 (Literature Review):回顾相关领域的核心理论和已有研究,明确本研究的定位和创新点。
方法 (Methodology):详细描述数据来源、数据收集过程、预处理步骤、所选模型或分析方法的原理、实现细节、参数设定以及评估标准。这部分需要达到足够的透明度,以便他人理解和评判研究的严谨性。
结果 (Results):客观、准确地呈现模型的主要发现,通常结合图表和统计数据。避免在结果部分进行过多的解释或推断。
讨论 (Discussion):深入解读结果的社会科学含义,将其与理论进行对话(支持、修正或挑战),分析研究的优势与局限,并指出未来研究方向。
结论 (Conclusion):简要总结研究的核心发现及其意义。
参考文献 (References) 和 附录 (Appendices)(可能包含更详细的技术细节、补充图表等)。撰写过程需要遵循学术规范,语言力求精确、客观、逻辑清晰 (Booth, Colomb, & Williams, 2008)。
数据可视化叙事:除了在论文中嵌入图表,研究者还可以利用更具动态性和交互性的可视化工具(如制作在线交互图表、数据故事板、短视频等)来向不同受众生动地展示研究发现,增强沟通效果 (Knaflic, 2015)。
面向不同受众的沟通策略:学术论文主要面向同行专家。但计算社会科学的许多研究成果也可能对政策制定者、行业从业者、媒体记者或社会公众具有重要价值。针对不同受众,需要采用不同的沟通方式和语言风格。例如,为政策制定者撰写简洁明了的政策简报,为公众撰写科普文章或参与公开演讲,为行业提供可操作的洞察报告。
学术发表与会议交流:将研究成果提交给同行评议的学术期刊或会议,是获得学术认可、接受同行检验、并促进学术交流的重要途径。选择合适的发表平台,认真对待审稿人的意见,是提升研究质量和影响力的关键。在学术会议上口头报告或海报展示研究成果,也是与同行进行实时互动和思想碰撞的宝贵机会。
有效的知识封装与沟通,不仅能提升研究本身的可见度和影响力,也有助于推动学科的发展和知识的传播。
可重复性、可复制性与开放科学
在计算社会科学这一高度依赖数据和计算方法的领域,确保研究的透明度和可靠性至关重要。可重复性、可复制性和开放科学的理念与实践,正日益成为衡量研究质量和科研诚信的核心标准。
确保研究的可重复性 (Reproducibility):可重复性是指其他研究者使用作者提供的原始数据、计算代码和分析步骤,能够独立地重现出与原研究报告中相同的结果。这是检验研究结果是否源于真实的分析而非偶然错误或特定操作的基础。为了实现可重复性,研究者需要:
详细记录和报告方法:清晰、完整地描述所有数据处理、模型构建和分析步骤。
共享数据:在符合伦理规范和数据隐私保护的前提下(例如,对数据进行充分匿名化处理,或提供模拟数据生成脚本),将用于分析的原始数据或经过处理的分析数据集公开共享(如通过 Figshare, Zenodo, Dataverse 等数据存储库)。
共享代码:公开用于数据处理、模型实现、分析和可视化的完整计算机代码。代码应包含清晰的注释,并指明所用的软件版本和依赖库。
使用版本控制系统:如 Git 和 GitHub/GitLab 等平台,用于追踪代码和分析脚本的修改历史,方便他人获取特定版本的代码,并促进协作。
采用文字化编程工具:如 Jupyter Notebook, R Markdown,它们允许将代码、数据、文本解释和可视化结果整合在一个动态文档中,极大地增强了研究过程的透明度和可重复性 (Knuth, 1984)。
促进研究的可复制性 (Replicability):可复制性是指其他研究者使用新的数据(可能来自不同样本、不同时间或不同情境)和相似的方法,能够得到与原研究核心结论相一致的结果 (Goodman, Fanelli, & Ioannidis, 2016)。可复制性是衡量研究发现稳健性和普适性的更高标准。虽然一项研究本身无法完全保证其可复制性(因为这依赖于其他独立研究的验证),但通过清晰的方法报告、稳健的分析设计(如进行敏感性分析、考虑异质性)以及对结论适用范围的审慎界定,可以为后续的复制研究提供便利。
拥抱开放科学实践:开放科学是一场旨在使科学研究过程和成果更加透明、可及和协作的运动 (Nosek et al., 2015; Munafo et al., 2017)。除了共享数据和代码,开放科学还倡导:
预注册研究方案 (Preregistration of Research Plans):在数据收集或分析开始之前,将研究问题、假设、方法和分析计划在一个公开平台(如 Open Science Framework, AsPredicted.org)进行注册。这有助于区分探索性发现与验证性结论,减少发表偏倚 (publication bias) 和“假设在结果已知后提出”(HARKing) 的问题 (Chambers, 2013)。
开放获取发表 (Open Access Publishing):将研究论文发表在开放获取期刊或通过预印本服务器(如 arXiv, SocArXiv, PsyArXiv)共享,使研究成果能够被更广泛的读者免费获取。
开放同行评议 (Open Peer Review):使同行评议过程更加透明,例如公开审稿人身份和审稿意见。
开放教育资源 (Open Educational Resources):共享教学材料、课程等。
伦理反思与社会影响评估
在研究项目完成、成果即将发布之际,对整个研究过程中的伦理实践进行一次全面的回顾与反思,并审慎评估研究发现可能带来的社会影响,是负责任的计算社会科学研究不可或缺的一环。这并非对初始伦理规划的简单重复,而是基于完整的实践经验和研究结果进行的更深层次考量。
回顾伦理合规性与实践:重新审视在数据收集、处理、分析和存储过程中,是否始终遵守了伦理原则(如尊重自主、行善、不伤害、公正)和相关法规(如数据隐私保护条例)?知情同意的获取是否充分?数据匿名化和安全措施是否有效?在研究过程中是否出现了未曾预料到的伦理困境,以及是如何应对的?
评估研究发现的潜在社会影响:
正面影响:研究成果是否可能为理解重要社会问题提供新视角?是否能为政策制定提供有益参考?是否能促进社会福祉或公平正义?
负面影响/误用风险:研究结果是否可能被误解、滥用或用于不良目的?例如,关于人群行为预测的模型是否可能被用于不当监控或歧视?揭示的社会脆弱性是否可能被利用?
对不同社群的公平性:研究的受益者和潜在受损者分别是谁?研究结果是否可能不成比例地影响特定弱势群体?模型中是否存在未被充分解决的偏见问题?
研究者对研究过程和结果的社会责任:作为知识的生产者,研究者对自己的研究成果可能产生的社会后果负有何种责任?如何积极地促进成果的良性应用,并努力减缓其潜在的负面影响?这可能包括主动与政策制定者、公众沟通,参与伦理规范的讨论等。
透明化局限与不确定性:在向社会发布研究成果时,清晰地阐明研究的局限性、结论的不确定性以及潜在的偏见来源,是防止误用和过度解读的重要伦理责任。
知识存档与未来研究展望
一项研究的完成并非知识探索的终点,而是更广阔学术图景中的一个节点。妥善保存研究成果,并为未来的研究提供启示,是确保知识积累和科学进步连续性的重要环节。
系统性存档研究资料:将研究过程中产生的所有重要资料,包括最终版本的分析数据集(在符合伦理和隐私的前提下)、完整的分析代码、模型参数、详细的方法文档、研究报告、以及相关的元数据等,进行系统性的、有组织的存档。理想情况下,这些资料应存储在稳定、可长期访问的公共或机构存储库中,并附有清晰的说明,以便其他研究者(或未来的自己)能够理解和使用。
将研究成果融入更广泛的知识体系:思考本研究的发现如何与学科内外的相关知识进行连接和整合。它是否验证、补充或挑战了现有理论?它是否能为其他领域的研究提供借鉴或启发?
提出未来值得进一步探索的研究方向:基于当前研究的局限性(如未解决的问题、未能充分探讨的方面)、非预期发现或研究过程中涌现的新问题,明确提出未来值得进一步深入研究的具体方向和潜在议题。这不仅为其他研究者提供了思路,也可能为自己后续的研究奠定基础。
考虑研究成果的教育和培训价值:研究过程和成果是否可以作为案例,用于培养新的计算社会科学研究者?相关的代码、数据和方法论思考是否可以转化为教学材料?
结语:研究的迭代循环与研究者的成长
计算社会科学的研究生命周期远非一个简单的线性流程,而是一个以问题为导向、以数据为基础、以模型为工具、以理论为指引,充满动态反馈和持续优化的迭代循环 (iterative loop)。从最初的研究启动与规划,到数据获取与准备,再到探索分析与模型构建,直至最终的评估解释与成果沟通,每一个阶段都可能因为后续的发现或挑战而需要被重新审视和调整。这种螺旋式上升的探究过程,正是科学发现的常态。
在这个复杂的生命周期中,对研究者而言,至关重要的是在每一个环节都保持批判性思维 (critical thinking) 和方法论自觉 (methodological self-awareness)。这意味着要不断反思研究问题的重要性、数据的质量与局限、模型的假设与适用性、结果解释的合理性以及研究的伦理意涵。同时,也需要拥抱不确定性,勇于尝试新的方法,从失败中学习,并根据实际情况灵活调整研究策略。
计算社会科学的研究过程,不仅是生产新知识的过程,更是研究者自身技能、认知能力和伦理素养不断提升的过程。通过亲身经历这个完整的迭代生命周期,研究者能够逐步培养出在理论、数据、方法和现实问题之间进行有效穿梭和创造性联结的能力。这不仅要求掌握具体的技术操作,更要求具备一种整体性的、系统性的研究视野和深刻的认识论反思。唯有如此,我们才能真正驾驭计算社会科学的强大潜力,为理解和改善我们日益复杂的世界贡献有意义的洞见。
本小节参考文献:
Booth, Wayne C., Gregory G. Colomb, and Joseph M. Williams. 2008. The Craft of Research, Third Edition. Third edition. Chicago: University of Chicago Press.
Chambers, Deborah. 2013. “Introduction.” In Social Media and Personal Relationships: Online Intimacies and Networked Friendship, ed. Deborah Chambers. London: Palgrave Macmillan UK, 1–20. doi:10.1057/9781137314444_1.
Goodman, Steven N., Daniele Fanelli, and John P. A. Ioannidis. 2016. “What Does Research Reproducibility Mean?” Science Translational Medicine 8(341): 341ps12-341ps12. doi:10.1126/scitranslmed.aaf5027.
Knaflic, Cole Nussbaumer. 2015. Storytelling with Data: A Data Visualization Guide for Business Professionals. Hoboken, New Jersey: Wiley.
Knuth, D. E. “Literate Programming.” https://dx.doi.org/10.1093/comjnl/27.2.97 (March 14, 2025).
Munafò, Marcus R., Brian A. Nosek, Dorothy V. M. Bishop, Katherine S. Button, Christopher D. Chambers, Nathalie Percie du Sert, Uri Simonsohn, et al. 2017. “A Manifesto for Reproducible Science.” Nature Human Behaviour 1(1): 1–9. doi:10.1038/s41562-016-0021.
Open Science Collaboration. 2015. “Estimating the Reproducibility of Psychological Science.” Science 349(6251): aac4716. doi:10.1126/science.aac4716.
最后更新于
这有帮助吗?