024
Intro
A Multimodal Ocular Aging Index Reveals Proteomic Pathways and Predicts Incident Age-Related Eye Diseases 是 Kai et al. 2026 年发表于 npj Aging 的一篇 UK Biobank 多模态眼部衰老论文。
这篇文章提出了一个 multimodal ocular aging index (MOAI):先在相对健康人群中,用眼科表型、血浆蛋白组和代谢组数据训练年龄预测模型,再把模型预测年龄与真实年龄之间的差值定义为眼部年龄加速。作者随后追问:这个基线 MOAI 能不能预测未来发生 age-related macular degeneration (AMD) 和 cataract,以及模型背后的蛋白和通路信号主要指向什么。
它最有价值的地方,不是证明了一个马上可临床使用的眼病筛查工具,而是把 multi-omics aging clock、organ-related biological age 和 prospective disease risk 放进了同一个队列框架。最需要谨慎的是:MOAI 不是直接测量出来的眼部生物学年龄,也不是纯眼组织衰老时钟。它更像一个对眼部衰老有信息量的系统性 biological age estimator,而且模型解释结果显示血浆蛋白组几乎主导了预测贡献。
Why I Read It
前面读过 systemic inflammatory biomarkers 和 age-related ocular diseases 的 UK Biobank 队列研究后,这篇刚好提供了一个更高维的版本:不只看 SII、NLR、PLR 这类低维炎症指标,而是把眼科表型、血浆蛋白组和代谢组整合成一个眼部生物年龄指标。
我读这篇主要是为了补三个问题:
- aging clock 这种方法如何被转到眼部或器官特异性 aging 上;
- 外周血蛋白组信号能否提前标记 AMD 和白内障风险;
- 炎症相关通路在眼部衰老、AMD 和 cataract 中到底是预测信号、机制线索,还是两者之间的灰区。
它也适合放在后续 precision medicine / biomarker / multi-omics risk prediction 的阅读线上。尤其是它提醒我:一个模型可以显著改善 risk reclassification,但不一定显著提高 AUC;这两种评价指标回答的问题并不一样。
What It Says
研究对象来自 UK Biobank。作者先从同时有血浆蛋白组、临床眼科检查和代谢组数据的 53,073 人开始,排除基线已有主要眼病者,也就是 AMD、白内障或青光眼,n = 4,086;再排除非欧洲血统者,n = 3,168;最终得到 45,819 名参与者,作为完整分析队列,用于模型应用和疾病关联分析。
结局来自住院记录和死亡登记。AMD 使用 ICD-10 H35.3 定义,白内障使用 H25、H26 和 H28 定义。随访截止到 2022-12-19,中位随访 13.80 年,最终观察到 832 例 incident AMD 和 5,288 例 incident cataract。
在这 45,819 人中,作者进一步筛出 10,582 名相对健康参与者,用于模型开发和内部验证。这里的相对健康不是简单指没有眼病,因为前一步已经排除了基线 AMD、白内障和青光眼;它指的是基线没有任何自报疾病,包括系统性和非眼部疾病,例如 cardiovascular、metabolic 和 neoplastic diseases。这个健康子集再按 7:3 分为训练集和验证集,训练集 7,409 人,验证集 3,173 人。
建模问题可以写成:
X = ophthalmic phenotypes + plasma proteomics + metabolomics
y = chronological age
X 由三类基线特征组成。眼科表型包括视力、屈光、眼压、角膜生物力学和 OCT 视网膜结构等指标;血浆蛋白组是质控后 2,919 个血浆蛋白;代谢组是 168 个循环代谢物。y 是真实年龄,也就是 chronological age。
这里有一个关键假设。理想情况下,如果有可靠、独立测量出来的 ocular biological age,那么它才应该是训练标签。但目前没有这样的 gold standard,所以作者用健康人群的真实年龄作为 proxy label。这个做法依赖的假设是:在相对健康人群中,眼部生物学年龄和真实年龄大致一致。因此,模型学到的是健康人群中多模态眼部和分子特征随年龄变化的模式。
作者比较了 ElasticNet、Random Forest 和 XGBoost。ElasticNet 是带正则化的线性模型,适合处理高维特征,但主要捕捉线性关系;Random Forest 和 XGBoost 都是树模型集成,可以捕捉非线性关系。XGBoost 在测试集上 RMSE 最低,因此被选为最终模型。验证集中模型表现为 RMSE 3.08 年、MAE 2.43 年、R2 0.85,预测眼龄与真实年龄相关 r = 0.92。
模型训练好后,作者把完整分析队列 45,819 人的基线多模态特征输入最终 XGBoost 模型,为每个人生成 predicted ocular age。MOAI 定义为:
MOAI = predicted ocular age - chronological age
正值表示模型预测的眼部年龄高于真实年龄,也就是 ocular aging acceleration;负值表示预测眼龄低于真实年龄。应用到完整分析队列后,MOAI 近似正态分布,均值 -0.25 年,SD = 3.06,范围 -22.03 到 24.08 年。这里有一个重要现象:最高 MOAI 四分位,也就是加速衰老组,实际年龄反而更年轻,同时当前吸烟和社会经济剥夺比例更高。因此后续模型必须调整 chronological age、生活方式和社会经济因素,否则很容易把年龄结构或生活方式差异误读成 biological aging。
接下来作者用基线 MOAI 预测随访中新发 AMD 和白内障。疾病关联使用 Cox proportional hazards model,因为结局包含随访时间和是否发病。MOAI 有两种用法:一种是连续变量,另一种是按四分位分组。模型 1 调整真实年龄和性别;模型 2 进一步调整 BMI、教育水平、社会经济状态、吸烟、饮酒和体力活动。
完全调整模型中,MOAI 每增加 1 年,AMD 风险 HR = 1.05 (95% CI 1.03-1.08),白内障风险 HR = 1.02 (95% CI 1.00-1.03)。按四分位分析时,风险主要集中在 Q4。与最低四分位相比,Q4 的 AMD 风险 HR = 1.53 (95% CI 1.23-1.91),白内障风险 HR = 1.12 (95% CI 1.02-1.22)。这说明 MOAI 对 AMD 的风险分层更明显,对白内障也有统计学关联但效应较弱。
作者还做了 sensitivity analyses:排除入组后 2 年或 5 年内发病者,以降低反向因果;将 ocular age gap 对 chronological age 做 residualization,再重复分析;分层分析按年龄、性别、BMI、教育、体力活动和吸烟等进行。总体结论保持一致。
预测性能部分不是重新做一个复杂机器学习模型,而是在同一套协变量基础上比较两个 10 年风险预测模型:第一个模型不放 MOAI,只放真实年龄、性别、BMI、社会经济状态、教育、饮酒、吸烟和体力活动;第二个模型在这些变量之外再加入 MOAI。评价指标包括 AUC、continuous NRI 和 IDI,但正文结果主要展开的是 AUC 和 NRI。
AUC 看整体区分能力。加入 MOAI 后 AUC 没有显著提高,所以不能说 MOAI 让整体预测能力明显变强。Continuous NRI 看加入 MOAI 后个体风险有没有被更合理地重新排序或重分类。这篇的 NRI 有改善:AMD 为 12.8% (95% CI 7.9%-17.8%),白内障为 6.5% (95% CI 4.7%-8.5%)。IDI 在方法中被列为评价指标,但正文和本地 PDF 没有展开具体 IDI 数值。因此,这部分更适合读成:MOAI 可能改善一部分个体风险重分类,而不是显著提高整体 discrimination。
机制解释部分的顺序是:先解释 XGBoost 年龄预测模型,再做通路富集。最终 XGBoost 模型纳入 666 个特征,包括 GC-IPL thickness、球镜度数、logMAR visual acuity、average mean spherical equivalent 等眼科变量,13 个代谢物,以及大量血浆蛋白。因为 XGBoost 是非线性树模型,不能像线性回归那样直接读系数,所以作者用 SHAP 来解释每个特征对 predicted ocular age 的贡献。
SHAP top 15 全部是血浆蛋白。Figure 3 中比较重要的蛋白包括 EDA2R、ELN、LTBP2、CXCL17、NEFL、GDF15、CDCP1、PAEP、AGRP、HAVCR1、ACTA2、SCARF2、CA4、KLK4 和 CXCL14。按模态汇总时,蛋白组约占 99% 的 total SHAP importance,眼科和代谢组贡献很小。这是理解这篇文章的关键:虽然模型输入是 multimodal,但模型解释几乎是 proteomics-driven。
在 SHAP 识别出模型重要蛋白之后,作者再用这些蛋白做 KEGG pathway enrichment。通路富集最强的是 cytokine-cytokine receptor interaction 和 PI3K-Akt signaling pathway,同时还有 MAPK、JAK-STAT、chemokine signaling、ECM-receptor interaction 和 IL-17 signaling 等。作者据此把 accelerated ocular aging 和 inflammation、immune signaling、cell survival、autophagy、tissue remodeling 联系起来。
这部分有启发,但要读窄。SHAP 说明这些蛋白对模型预测眼龄重要,KEGG 说明这些蛋白富集在某些通路中;它们共同提供机制假说,但不等于证明这些蛋白或通路导致眼部衰老、AMD 或白内障。
What I Take From It
这篇最值得保留的是一个方法范式:
relatively healthy subset
-> train chronological-age prediction model
-> apply model to full cohort
-> predicted ocular age - chronological age = MOAI
-> Cox models for incident AMD / cataract
-> SHAP-identified proteins
-> KEGG pathway enrichment
这个范式和其他 aging clock 很像,但它把目标转向眼部。它可以和 retinal age gap、metabolomic age、proteomic aging clock、PhenoAge、GrimAge 等衰老指标放在一起比较。真正的问题是:所谓 organ-specific aging clock 到底是器官特异性,还是系统性衰老在某个器官结局上的投影?
在这篇里,我更倾向后者。作者也承认 MOAI 是 specifically informative for ocular aging 的 systemic biological age estimator,而不是 pure tissue-specific clock。蛋白组贡献约 99% 进一步说明,这个指标可能主要捕捉外周血炎症、免疫和系统衰老状态。眼科表型和代谢组虽然参与了多模态模型,但从解释贡献上看并不是主角。
这不一定是缺点。对疾病预测来说,能预测就有价值;但对机制解释来说,必须分清楚“预测眼病风险的系统性炎症蛋白信号”和“眼组织本身正在发生的衰老机制”。如果把二者混在一起,就容易把 peripheral biomarker 写成 ocular causal mechanism。
我会把这篇和 systemic inflammatory biomarkers 那篇连起来读:低维炎症指标可以预测 age-related ocular disease,高维血浆蛋白组也能构建 MOAI 并预测 AMD/白内障。这两者共同支持一个方向:外周血炎症和免疫状态可能是眼部衰老和年龄相关眼病的早期 readout。但它们还不能单独回答因果问题。
这篇也要读得保守。它是观察性队列研究,能说明 MOAI 与未来 AMD 和白内障风险相关,但不能证明 accelerated ocular aging 导致这些眼病。UK Biobank 以 White European ancestry 为主,本研究还排除了非欧洲血统参与者,所以外部效度需要验证。相对健康子集基于 baseline self-reported diseases 定义,可能漏掉未诊断或未报告疾病。
还有两个方法点会影响我怎么使用这篇。第一,训练标签依赖“相对健康人群中眼部生物年龄约等于真实年龄”的假设,而不是独立测量的 ocular biological age。第二,蛋白组平台并不覆盖完整 human proteome,结局又来自住院记录和死亡登记 ICD code,所以它更适合支持 risk marker 和机制假说,而不是直接写成临床筛查工具或因果机制。AUC 没有显著提升也支持这一点。
Note
MOAI= multimodal ocular aging index。AMD= age-related macular degeneration。cataract在文中用 ICD-10H25、H26、H28定义。GC-IPL= ganglion cell-inner plexiform layer。NRI= net reclassification index。它衡量加入新变量后风险分类是否更准确,不等同于 AUC。IDI= integrated discrimination improvement。文中方法部分提到计算 IDI,但正文结果主要报告 AUC 和 NRI。EDA2R、GDF15、CXCL17、CXCL14等蛋白可作为后续追踪炎症/衰老蛋白组文献的关键词。- 这篇的关键解释边界:MOAI 是对眼部衰老有信息量的系统性生物年龄估计器,不是纯眼组织时钟。