010

review

Published

May 14, 2026

Intro

Toward Trustworthy Artificial Intelligence in Multi-Omics: A Review of Reproducibility, Stability, and Interpretability 是 Vo and Le 在 2026 年发表于 Briefings in Bioinformatics 的综述文章，讨论多组学 AI 中“可信性”到底应该如何评价。文章围绕 interpretability、stability 和 reproducibility 三条主线展开，并进一步提出 TRUST 框架，将 trustworthy multi-omics AI 拆成 Transparency、Reproducibility、Uniform Stability、Safety and Bias Awareness 和 Transferability 五个维度。DOI: 10.1093/bib/bbag227

这篇不是提出新算法的文章，而是一个方法学评价框架。它的价值在于提醒读者：多组学 AI 不能只看 AUC、accuracy 或单队列结果，还要问模型解释是否有生物学意义、结果是否能复现、扰动下是否稳定、不同人群和平台下是否存在偏倚，以及能否迁移到外部队列。

Why I Read It

这篇是从 Briefings in Bioinformatics News 里看到的。题目里同时出现 trustworthy AI、multi-omics、reproducibility、stability 和 interpretability，和我最近关注的 AI 医学应用、多组学整合、单细胞/空间组学评价框架都有关，所以顺手读了。

前面读 Nature Medicine 里 ChatGPT Health 分诊那篇时，一个很重要的感受是：AI 系统不能只用总体准确率评价，必须看错误分布、风险场景、外部验证和真实使用后果。这篇文章把类似的思想放到 multi-omics AI 里：模型在一个 cohort 上表现好，不代表它是可信的；如果 biomarker ranking、cluster assignment 或 risk prediction 在随机种子、预处理、样本重采样和平台变化下不稳定，后续的生物解释和临床转化都会变得很脆弱。

另外，我对 Cell Genomics、Nature Genetics 这类多组学和遗传学文章有时会觉得入口很高。这篇综述正好可以作为一个阅读检查清单，帮助我判断一篇复杂 multi-omics AI 文章到底应该看什么，而不是陷在模型名字和图表细节里。

What It Says

文章首先定义 multi-omics AI 的问题背景。多组学可以整合 transcriptomics、epigenomics、proteomics、metabolomics、single-cell、spatial omics 和 clinical variables 等多种数据层，用于疾病分型、预后预测、biomarker discovery 和机制推断。但这些数据本身高度异质，存在 batch effects、modality-specific noise、missingness、sample imbalance 和 platform shift，因此模型即使在一个数据集上表现很好，也可能不稳定、不透明或不可复现。

作者把 interpretability 分成三类。第一类是 intrinsic interpretability，例如 sparse linear models、decision trees、rule-based ensembles 和 patient-similarity networks，这些模型本身较透明。第二类是 post-hoc interpretability，例如 SHAP、LIME、saliency maps 和 perturbation-based methods，用来解释复杂模型。第三类是 architecture-guided interpretability，例如 attention-based multimodal models、graph neural networks、MOFA/MOFA+、scMM 等，把生物结构、图关系或 latent factors 编进模型。作者强调，解释结果不能只停留在 feature attribution，还需要 pathway enrichment、独立队列复现、已知 biomarker 或疾病机制的一致性来支持生物学有效性。

Stability 是文章最值得记的一部分。作者区分 reproducibility 和 stability：reproducibility 是在相同数据、代码、软件环境和参数下能否重新得到结果；stability 是在轻微、非生物学扰动下，模型行为是否仍然一致。多组学模型可能因为随机初始化、样本重采样、模态缺失、噪声注入、批次效应、预处理差异和架构选择而改变预测结果、聚类结构、latent representation 或 biomarker ranking。

作者建议把 stability evaluation 作为默认环节，而不是从单次高性能中假设模型稳定。具体做法包括：多随机种子重复训练，例如至少 10 次 initialization；bootstrap 或 repeated subsampling，例如 80% cohort resampling 至少 20 次；modality dropout 和 feature masking，例如 5%-20% 缺失水平；按 feature variance 注入 Gaussian noise；模拟 batch shift。报告指标也不应只有 accuracy，而应包括 performance dispersion、feature importance rank correlation、top-k feature overlap、Jaccard/Nogueira score、ARI/NMI 和 latent representation alignment。

Reproducibility 部分强调数据、代码、环境和 benchmark。作者认为 multi-omics AI 的可重复性依赖 MIAME、MINSEQE、MAQC、FAIR principles、workflow engines、containerization、统一指标、多数据集 benchmark 和 cross-cohort validation。大型 benchmark 已经显示，模型性能会随 cancer type、dataset、platform 和 cohort composition 明显变化，所以单队列结果不能代表泛化能力。

文章最后提出 TRUST 框架。T 是 Transparency，要求模型解释能连接到有生物意义的特征、通路或机制；R 是 Reproducibility，要求数据、预处理、软件环境、代码和随机种子透明；U 是 Uniform Stability，要求通过扰动测试和一致性指标评估模型稳健性；S 是 Safety and Bias Awareness，要求检查 ancestry、sex、disease subtype、assay platform、batch 等分层下的性能差异；最后一个 T 是 Transferability，要求在独立队列、不同平台和不同生物/临床语境下验证模型。

What I Take From It

这篇最有用的地方，是把“可信 AI”从抽象词变成了可以逐项检查的 workflow。以后读 multi-omics AI 文章时，我可以不用先纠结模型是不是最新，而是先问五个更基本的问题：它能解释吗？能复现吗？稳定吗？有没有偏倚？能迁移吗？

对具体论文阅读来说，TRUST 很适合当成审稿式清单。比如一篇癌症预后模型如果只报告 TCGA 上的 AUC，却没有外部队列、没有随机种子重复、没有 feature selection stability、没有平台差异分析，那么它最多说明“这个数据集上可预测”，还不能说明 biomarker 或模型具有转化价值。

我也很喜欢文章对 stability 的强调。很多组学文章会把 selected genes 或 top pathways 当成核心发现，但如果这些特征在 resampling、normalization、batch correction 或 random seed 改变后就大幅变化，那么后续做机制解释会很危险。对 biomarker research 来说，稳定性本身就应该是证据链的一部分。

这篇还提醒我，interpretability 不是画一张 SHAP plot 就结束。真正有用的解释应该能回到生物学：是否落在合理 pathway、是否在独立 cohort 复现、是否和已知 cell type、disease subtype、therapeutic target 或 clinical endpoint 相关。如果解释只在一个训练集里成立，它更像模型可视化，而不是机制证据。

Note

这篇文章本身也要按综述来读。它不是系统综述，作者也说明表格中的研究和方法例子是代表性类别，不是 exhaustive systematic review。因为 multi-omics AI 里 oncology 研究最多，文中例子也偏向癌症和精准医学，这可能限制它对其他疾病领域的直接代表性。

TRUST 框架很有启发性，但目前更像规范化建议，还不是已经被大量真实项目验证过的标准。尤其是 stability testing 和 cross-cohort benchmarking 会增加很多计算成本。对 deep multimodal architectures、GNN、VAE、diffusion models、single-cell 和 spatial multi-omics 来说，重复训练、模态缺失实验和 batch perturbation 都不便宜。

不过，这并不削弱它的实用性。对我来说，TRUST 可以分层使用：高风险、临床转化导向的模型应该尽量完整执行；普通探索性研究至少要报告代码环境、外部验证、随机种子重复和 feature stability；只做 hypothesis generation 的文章，则要避免把不稳定的 feature attribution 过度解释成机制。

这篇和前面读的 ChatGPT Health triage briefing 可以放在一起看。两者都提醒我，AI 医学应用的核心不是“模型看起来聪明”，而是能否在真实风险结构里保持可靠。分诊 AI 的风险是漏掉急症和改变患者行为；multi-omics AI 的风险是给出不稳定的 biomarker、不可复现的分型和过度解释的机制。评价指标必须跟应用风险对齐。

Intro

Why I Read It

What It Says

What I Take From It

Note

Source