017

review

Published

May 18, 2026

Intro

Advancing AI for Multi-Omics and Clinical Data Integration in Basic and Translational Cancer Research 是 Liu et al. 在 2026 年发表于 Nature Reviews Cancer 的综述文章，讨论 AI 如何整合多组学、临床数据、医学影像和数字病理，从而推动基础和转化肿瘤研究。DOI: 10.1038/s41568-026-00922-2

这篇不是原始研究，而是一篇框架型综述。它的核心观点很直接：癌症异质性横跨分子、细胞、组织形态和临床表型，单一组学或单一影像模型都容易只看到局部。AI 的价值不只是提高某个预测任务的 AUC，而是把 genomics、epigenomics、transcriptomics、proteomics、metabolomics、spatial omics、radiomics、pathomics 和 EHR/clinical data 放进同一个系统级模型里。

Why I Read It

这篇也是从 Nature Reviews Cancer News 里看到的。看到标题里有 multi-omics、AI 和 clinical data integration，就顺手读了。最近我一直在补多组学 AI、可信模型、biomarker、精准医学这些主题，这篇正好把它们放进肿瘤学场景里。

我读它主要不是为了学某个具体模型，而是想看一个顶级综述怎么组织这个问题：多组学 AI 到底是在解决什么，哪些场景已经有比较具体的例子，哪些地方还只是愿景。尤其是前面读过 trustworthy multi-omics AI 后，我会更自然地问：这些复杂融合模型是不是真的比单模态模型更好？解释是否有生物学意义？外部验证和临床转化到底走到哪一步？

What It Says

文章首先把 multi-omics 定义得很宽。这里不只是传统的 molecular omics，也包括从医学影像和病理图像中得到的 digital phenomics，以及 EHR、实验室检查、临床记录等 clinical data。这个定义很重要，因为作者真正关心的是 patient-specific systems model，而不是单纯把几个组学矩阵拼在一起。

方法部分可以拆成三层。第一层是 learning paradigm，包括 supervised learning、unsupervised/self-supervised learning 和 foundation models。作者强调，医疗 AI 最大的瓶颈之一是高质量标签少，因此先用大规模未标注数据预训练，再用较小的临床标签数据 fine-tune，是多组学 AI 的重要路线。

第二层是 architecture。CNN 和 vision transformer 主要处理影像和病理；transformer 可以处理基因组、转录组这类序列和长程依赖；GNN 适合 PPI 网络、细胞空间关系和通路结构；generative models 可以用于 synthetic data、data augmentation 和 missing modality imputation。这里的重点不是哪种架构最先进，而是不同数据结构需要不同 inductive bias。

第三层是 fusion strategy。Early integration 是把特征直接拼接，简单但容易被高维模态淹没。Late integration 是各模态分别建模后再合并预测，稳健但可能错过跨模态协同。Intermediate integration 是每个模态先通过自己的 encoder 学到 embedding，再在共享表示空间里融合，最适合发现复杂的 genotype-phenotype 或 tumour microenvironment 关系。

文章很值得记的一点是：多模态整合不天然优于单模态。作者明确提醒，如果不同模态高度冗余、噪声大、样本量小或异质性强，融合可能降低模型表现，或者只是增加复杂度而没有临床收益。有些 survival prediction 任务里，clinical variables 甚至可以优于 genomic 或 proteomic features。这个提醒比“多组学一定更好”更有价值。

应用部分覆盖了癌症研究和临床转化的多个环节。AI 可以用于识别 driver events，把突变、转录组、蛋白网络和病理形态连接起来；也可以用于诊断，比如整合 CT radiomics、cfDNA fragmentomics 和临床变量来判断肺结节良恶性；还可以用于风险分层，把 TNM staging 之外的分子和形态异质性纳入预后判断。

治疗相关部分对我更有吸引力。文章讨论了 immunotherapy response prediction、chemotherapy sensitivity、drug resistance mechanism 和 prognostic modelling。比如 NSCLC 中整合 CT、PD-L1 IHC 和 genomics 的模型，比单独用 TMB 或 PD-L1 更能预测免疫治疗反应；PDAC 中基于 transcriptomic signature 的模型被用于预测 gemcitabine 和 modified FOLFIRINOX 反应，并在 phase III trial 数据中验证。这里多组学 AI 的意义不是泛泛地“预测”，而是帮助治疗选择和解释耐药。

文章后半部分提出 oncology digital twin。作者把它理解为一个动态的、患者特异的计算副本：先从大规模多模态患者队列中学习疾病 latent space，再把单个患者的 clinical、genomic、imaging 和 histopathology 数据投射进去形成 deep phenotype，最后用于疾病轨迹预测、治疗反应模拟和 longitudinal updating。这个概念很吸引人，但目前仍更像未来框架，而不是常规临床工具。

XAI 是另一个重点。作者认为解释性不只是为了让医生“看懂模型”，还要确认模型是否依赖生物学相关信号，而不是 scanner、staining protocol、institution 或 population structure 这样的 shortcut。好的解释还应该能生成可检验的 biological hypothesis，并支持 bias auditing、uncertainty quantification 和 human-in-the-loop。

What I Take From It

这篇最有用的地方，是把“多组学 AI”从一个很热但有点泛的词，放回到具体临床和生物学问题里。不是因为数据层越多越高级，而是因为癌症本身跨越多个尺度：基因突变、表观调控、转录状态、蛋白功能、组织空间结构、影像表型和临床结局之间经常不是一一对应的。

我也更清楚地看到，multi-omics AI 的关键不在于把所有数据都塞进模型，而在于证明不同模态提供了互补信息。以后读这类文章，可以先问三个问题：新加入的模态有没有独立信息？融合方式有没有捕捉跨模态协同？模型解释能不能回到可验证的机制或临床动作？

这篇和前面读的 trustworthy multi-omics AI 可以连起来看。那篇更像评价清单，强调 reproducibility、stability 和 interpretability；这篇更像领域地图，展示这些问题在肿瘤学中会出现在哪些具体场景。两篇合起来给我的提醒是：多组学 AI 不能只看性能，也要看稳定性、可解释性、外部验证和临床可行动性。

对药学或治疗决策来说，这篇最相关的不是诊断影像部分，而是 treatment response、drug resistance、proactive surveillance 和 digital twin。它提示我，未来如果看 AI 辅助用药、肿瘤精准治疗或个体化给药，不能只盯着药物本身，还要看患者的分子状态、影像状态、病理空间结构和纵向临床轨迹。

Note

这篇是综述，不是系统综述，也不是一篇证明某个模型可以临床部署的原始研究。它列了很多代表性案例，但证据强度不同：有些是 preclinical，有些是 retrospective clinical study，有些有 prospective validation，还有一些更接近概念性 digital twin 框架。阅读时不能把它们混成同一级证据。

我觉得这篇最需要保持警惕的是 digital twin 部分。这个概念很有想象力，也确实能把多组学、EHR、影像、纵向监测和治疗模拟统一起来。但真实落地需要解决的问题非常硬：多中心高质量数据、缺失模态、成本、互操作性、前瞻性验证、监管路径、责任边界和模型更新后的安全监测。

另一个边界是 XAI。文章对 XAI 的期待很高，但解释方法本身并不自动等于机制证据。SHAP、attention、saliency 或 pathway-level explanation 都可能不稳定，甚至会解释模型学到的 shortcut。真正有价值的解释应该能在独立数据、实验验证或临床知识中站得住。

不过作为入口文献，这篇很适合。它帮我把 AI multi-omics oncology 的几个关键词串起来：foundation models、intermediate fusion、GNN、generative models、missing modality、clinical data integration、digital twin、XAI、domain shift、FHIR、prospective validation。以后继续读这个方向，可以把它当作地图，而不是当作结论终点。

Intro

Why I Read It

What It Says

What I Take From It

Note

Source