Statistical Modeling

statistics

Published

May 27, 2026

Perspective

Statistical modeling 是读量化研究文献时绕不开的底层框架。很多论文都会”建一个模型”，但建模的目的常常没说清楚，导致读者用错误的标准去评判它。

先记住一个实用边界：评价一个模型好不好，要先问它属于哪一类——描述、推断，还是预测。 用预测准确率去苛责一个 descriptive model，或用 p 值去评判一个 predictive model，都是错配。一个模型可能同时承担多种角色，但写作和阅读时最好分清主次。

Definition

A statistical model is a mathematical representation of how data are generated or related, built to describe patterns, test hypotheses, or predict new observations. The same modeling machinery can serve descriptive, inferential, or predictive goals depending on the question being asked.

中文理解：统计模型是”用数学结构去刻画数据关系”的工具。同样一套技术（比如线性回归）既可以用来描述、也可以用来推断、还可以用来预测——区别不在算法，而在研究目的和评价标准。

Why It Matters

建模目的决定了几乎所有下游判断：

该用什么指标评价模型？（残差结构？p 值/置信区间？泛化误差？）
模型的假设需要多严格地满足？
结论能不能外推？外推到什么范围？
一个”显著”或”准确”的结果到底说明了什么？

如果建模目的没说清，读者很容易把”拟合得好看”误读成”假设成立”，或把”预测准确”误读成”找到了因果机制”。

Three Types of Models

按建模目的，可以把统计模型分成三类。这是阅读时最实用的分类框架。

Descriptive model

目的是描述数据模式，帮助看清数据结构，而不是检验假设或预测未来。

例子：LOESS 平滑曲线、芯片数据的残差图、探索性可视化中的趋势线。
评价标准：是否清楚地揭示了数据中的结构或异常，而不是预测精度或显著性。
阅读提示：descriptive model 出现在 EDA（探索性数据分析）和质量控制阶段。它的产出是”看见了什么”，不是”证明了什么”。

Inferential model

目的是回答研究假设，对总体做统计推断。

例子：治疗是否延长生存？某暴露是否与疾病风险相关？
输出：p 值、置信区间、posterior probability、效应量估计。
评价标准：统计假设是否成立（分布假设、独立性、随机化等），推断是否有效。
阅读提示：inferential model 的结论强依赖前提假设。p 值显著不等于假设被满足，也不等于效应有实际意义。要看研究设计是否支持因果或仅支持关联。

Predictive model

目的是对新数据预测准确，追求泛化性能。

例子：预测房价、预测疾病风险评分、推荐系统。
评价标准：在未见过的数据上的预测误差（如 RMSE、AUC、交叉验证表现），而不是参数的可解释性。
阅读提示：predictive model 不一定关心”为什么”。一个高准确率的模型可能是黑箱；它告诉你”会发生什么”，但未必告诉你”机制是什么”。要警惕用预测性能反推因果。

Key Points

同一种建模技术可以服务三种不同目的；分类的依据是目的，不是算法。
Descriptive model 看数据结构，重点是揭示模式与异常，不追求显著性或预测精度。
Inferential model 回答假设，输出 p 值、置信区间、posterior，重点是统计假设和推断是否成立。
Predictive model 追求泛化，重点是在新数据上的预测误差，不一定关心机制。
用错评价标准是常见误读：别用预测精度评判 descriptive model，也别用 p 值评判 predictive model。
推断的”显著”和预测的”准确”都不等于”理解了因果”。
一篇论文里可能同时存在多类模型，读时要分清每一步的目的。比如先用 predictive model 训练一个风险分数或 aging index，再用 Cox model 做 inferential/risk association，最后用 AUC、NRI、IDI 评价增量预测价值；这些步骤不能混成一句”建了一个模型”。

Reading Checks

读到一个统计模型时，可以按这个顺序问：

这个模型的主要目的是描述、推断，还是预测？
作者用的评价标准和这个目的匹配吗？
如果是推断模型，统计假设是否被检查和满足？结论是关联还是因果？
如果是预测模型，性能是在独立/交叉验证数据上评估的，还是只在训练数据上？
作者有没有把预测性能误当作机制解释，或把描述性拟合误当作假设检验？

Note

对我来说，这个三分法最有用的地方是它先于具体方法：在评价任何模型之前，先确定它属于哪一类，再用对应的标准去判断。很多看似矛盾的争论（“模型显著但预测很差”、“预测准但解释不了”）其实是把不同类型的模型放到了同一把尺子下。

写作时也一样——先说清建模目的，读者才知道该用什么标准来读你的模型。

Sources

Kuhn & Silge, Tidy Modeling with R, Chapter 1: Software for Modeling