022
Intro
Single-Cell Transcriptomic Analysis of Primary and Metastatic Tumor Ecosystems in Head and Neck Cancer 是 Puram et al. 2017 年发表于 Cell 的 HNSCC 单细胞论文。
这篇文章接在 Patel 2014 和 Tirosh 2016 之后读很合适。Patel 2014 把 GBM 的 bulk subtype 拆到 malignant-cell intratumoral heterogeneity;Tirosh 2016 把 melanoma 拆成 malignant states、TME compartments 和 TIL states;Puram 2017 则把类似框架放到 epithelial tumor,尤其是 head and neck squamous cell carcinoma (HNSCC),并试图把 malignant-cell program、CAF、leading edge 和 lymph node metastasis 连起来。
它最重要的概念是 p-EMT,也就是 partial epithelial-to-mesenchymal transition。作者认为 HNSCC malignant cells 中存在一个 ECM/invasion-related expression program:它表达 TGFBI, LAMC2, LAMB3, PDPN, MMP10, ITGA5, VIM 等基因,保留 epithelial identity,缺少多数 classical EMT transcription factors,并且在组织中位于 tumor leading edge,靠近 stroma/CAF。
不过这篇读起来不如 Patel 2014 和 Tirosh 2016 优雅。它的强处是提出了 p-EMT/leading-edge/TME/bulk-deconvolution 这个框架;弱处是证据链比较拼接,很多地方是“说得过去”,但没有一口气打穿。尤其是 p-EMT gene set 与单基因 TGFBI 分选、cell line functional assay、IHC marker staining、TCGA bulk association 之间,存在明显的层级转换。
Why I Read It
我读这篇,是为了继续理解早期肿瘤单细胞论文如何从 malignant-cell heterogeneity 走向 tumor ecosystem 和 metastasis。HNSCC 是 epithelial tumor,特别适合讨论几个问题:
- tumor single-cell analysis 中如何区分 malignant epithelial cells 和 non-malignant TME cells;
- bulk “mesenchymal subtype” 到底来自 malignant cells,还是来自 CAF/myofibroblast/stromal composition;
- EMT 在真实人体 epithelial tumors 中是否能被单细胞数据捕捉;
- leading edge、CAF、TGF-beta 和 lymph node metastasis 如何被放进同一条解释链。
这篇也适合连接之后要整理的概念:p-EMT、EMT、leading edge、CAF、TME、bulk deconvolution、metastasis 和 HNSCC。
What It Says
作者分析了 18 个 treatment-naive oral cavity HNSCC 患者的单细胞转录组,其中包括 5 对 primary tumor 和 matched lymph node metastasis。初始质控后保留 5902 个细胞,包括 2215 个 malignant cells、3363 个 non-malignant cells,另有一部分 unresolved/low-quality cells 被排除。
第一步是区分 malignant 和 non-malignant cells。作者用了三条证据:scRNA-seq 表达推断的大尺度 CNV、epithelial marker expression、以及 global expression clustering。CNV 推断沿用 Patel/Tirosh 那一路思路:按染色体位置对表达做窗口平均,大片段表达升高或降低可反映 copy-number gain/loss。WES 结果支持这些 inferred CNVs。HNSCC 是上皮来源肿瘤,所以 malignant cells 通常表达 epithelial markers,例如 cytokeratins 和 EPCAM;但这条证据本身不能单独证明 malignant,因为正常上皮细胞也会表达 epithelial markers。这里 epithelial score 更像是 lineage evidence,真正区分 malignant epithelial cells 和 normal epithelial cells 的关键还是 CNV abnormality。
Non-malignant cells 被分成 T cells、B/plasma cells、macrophages、dendritic cells、mast cells、endothelial cells、fibroblasts 和 myocytes。注释方式是先做无监督聚类或 t-SNE,再把 marker gene expression 投到同一个坐标上,用一组 marker 给 cluster 命名。T cells 使用 CD2, CD3D/E/G;fibroblasts 使用 FAP, PDPN, COL1A2, DCN, COL3A1, COL6A1;macrophages 使用 CD14, CD163, CD68, FCGR2A, CSF1R;endothelial cells 使用 PECAM1, VWF, ENG。这些 marker 我已经单独记录到 single-cell gene sets 页面。
这里一个重要观察是:non-malignant cells 主要按 cell type 聚类,并且不同患者的细胞混在同一类中;malignant cells 则主要按 tumor of origin 分开。也就是说,TME cell types/states 在患者之间更可复现,而恶性细胞首先呈现强烈 intertumoral heterogeneity。这和 Tirosh 2016 melanoma 的结构很像。
作者随后在 non-malignant compartment 内继续细分 T cells 和 fibroblasts。T cells 被拆成 Tregs、CD4+ Tconv、cytotoxic CD8+ T cells 和 exhausted CD8+ T cells。Fibroblasts 被拆成 myofibroblasts、activated CAFs 和 resting/intermediate fibroblasts;activated CAFs 还能再分成 CAF1 和 CAF2,差异涉及 immediate early genes、mesenchymal markers、ligands/receptors 和 ECM genes。
真正的主线从 malignant compartment 开始。作者没有把所有 malignant cells 混在一起直接聚类,而是在 10 个 malignant-cell 数量较多的 tumors 中分别做 NNMF,寻找每个肿瘤内部协同变化的 gene signatures。每个 tumor 得到若干 expression programs,总共 60 个 signatures,再用 hierarchical clustering 汇总成跨肿瘤复现的 meta-signatures。
这里需要注意:这些是 gene programs,不是细胞群。一个 malignant cell 可以对多个 program 同时有高分,比如同时 hypoxia-high 和 p-EMT-high。作者最后得到七类 recurrent programs:G1/S cell cycle、G2/M cell cycle、JUN/FOS immediate early/stress、hypoxia、两个 epithelial differentiation programs,以及一个 ECM/EMT-like program。
ECM/EMT-like program 是整篇文章最核心的对象。它包含 ECM、matrix metalloproteinases、laminins、integrins、VIM、ITGA5,并且 TGFBI 是其中 top genes 之一,提示 TGF-beta axis。但它不是 full EMT:malignant cells 仍保留 epithelial markers,没有检测到 ZEB1/2, TWIST1/2, SNAIL1 这些 classical EMT TFs。只有 SNAIL2 有表达,但它主要在 across-tumor 层面相关,不是在同一肿瘤内部随 p-EMT-high cells 同步变化。因此作者把这个状态称为 p-EMT,即 partial EMT-like state。
这个命名是有价值的。作者没有把所有 ECM-high 或 mesenchymal-like signal 直接叫 EMT,而是强调它是 malignant-cell-intrinsic、保留 epithelial identity、缺少 classical EMT TF program,并且不同于 bulk mesenchymal signatures。这个判断对 epithelial tumor 很重要,因为 bulk 里的 mesenchymal signal 很容易来自 CAF 和 myofibroblast。
接下来作者尝试做功能验证。他们对 5 个 HNSCC cell lines 做 single-cell profiling,发现这些 cell lines 的整体表达和真实肿瘤差别较大,但 SCC9 中有一小群细胞部分复现了体内 p-EMT program。随后作者用 TGFBI 作为 p-EMT marker,通过 FACS 分选 TGFBI-high 和 TGFBI-low SCC9 cells。TGFBI-high cells 在 Matrigel invasion assay 中侵袭更强,增殖更慢;培养 4-7 天后,两群细胞又重新形成类似未分选群体的 marker 分布,提示这个状态可能是动态可逆的。
这里是这篇文章证据链的第一个明显薄弱点。p-EMT 本来是一个 gene set/expression program,但功能实验主要用单个 TGFBI 做 proxy。这个做法有实验上的现实原因:FACS 不能直接按一个多基因 program 分选细胞,只能找可检测的 marker;而 TGFBI 确实是 top p-EMT gene,也与 TGF-beta axis 有生物学意义。但严格说,TGFBI-high 只能说明 enriched for p-EMT-like cells,不能等同于完整 p-EMT program。更严谨的桥接应当证明分选后的细胞不仅 TGFBI 高,整个 p-EMT score 也高,并用第二组 marker 或多 marker strategy 重复验证。
作者随后回到组织空间。因为 scRNA-seq 打散组织后丢失空间信息,他们用 IHC 染 p-EMT top markers:PDPN, LAMC2, LAMB3, MMP10, TGFBI, ITGA5,并与 HNSCC marker p63 共染。结果显示,一群 p63+ malignant cells 同时表达 p-EMT markers,并定位在 tumor leading edge,紧邻 surrounding stroma。缺少 p-EMT program 的 tumors 不显示明显 marker staining。相反,epithelial differentiation markers SPRR1B 和 CLDN4 更偏 tumor core,这与 scRNA-seq 中 p-EMT 和 epithelial differentiation 负相关一致。
这部分比 cell line 更能支持 p-EMT 是真实组织中的空间状态,但仍然是 marker-level evidence。IHC 证明的是几个 top markers 的空间共定位,不是完整 gene program 的原位验证。如果用今天的技术,spatial transcriptomics、MERFISH、CODEX/IMC 之类会更适合直接验证 p-EMT program 在 leading edge 的空间分布。
CAF/TME 关系是另一段拼接式证据。作者通过 ligand-receptor analysis 发现 CAFs 可能向 malignant cells 提供较多 incoming signals,包括 TGF-beta-related interactions。IHC 中 CAF markers 如 FAP、PDPN 位于 p-EMT leading-edge cells 附近。体外实验中,TGF-beta treatment 可诱导 SCC9 的 p-EMT-like score 并增强 invasion;TGF-beta inhibition 方向相反。TGFBI overexpression 也增加 invasion,而 TGFBI knockout 削弱 TGF-beta response。
这条链支持 CAF/TGF-beta-related paracrine signals 可能参与 p-EMT,但没有证明体内 CAF 因果性驱动 p-EMT。尤其作者提到 cultured CAFs 失去体内 activation markers,直接 co-culture 没有复现 p-EMT induction。这一点反而说明体内 TME 很难被简单体外模型模拟。
Primary tumor 与 lymph node metastasis 的比较也很有意思。5 对 matched primary/LN 的 malignant cells 大体按 patient 匹配,而不是按 site 分开。p-EMT-high 和 p-EMT-low subpopulations 在 primary 和 LN 中都能看到,但比例可以不同。作者据此提出 LN metastases 可能保留 primary tumor 的 intratumoral heterogeneity,也可能通过 collective migration 或多细胞团块转移。不过 5 对样本不足以真正区分 metastasis model,也不能证明 p-EMT-high cells 具有 metastatic seeding capacity。
后半部分作者把 single-cell signatures 用到 TCGA bulk HNSCC。最有价值的是对 TCGA mesenchymal subtype 的拆解:当把 TCGA subtype signatures 投射到 single cells 上时,malignant cells 只对应 basal、classical 或 atypical,几乎没有 malignant cells 对应 mesenchymal subtype。相反,CAFs、myofibroblasts 和 myocytes 表达 mesenchymal subtype genes。作者进一步用 regression 扣除 TME composition 和 purity 对 bulk expression 的贡献,推断 malignant-cell-specific expression profiles;之后 mesenchymal subtype 消失,basal 和 mesenchymal 合并为 malignant-basal,而 classical 和 atypical 保留。
这一点是我认为这篇最扎实、最值得记住的部分:bulk subtype 不一定是 malignant-cell-intrinsic subtype,它可能是细胞组成,尤其是 CAF/stromal abundance 的结果。这个判断对之后阅读所有 bulk tumor subtype 文献都很重要。
最后,作者在 TCGA malignant-basal tumors 中比较 p-EMT score 和临床病理特征。High p-EMT 与 positive LNs、number of LN metastases、higher nodal stage、high grade、extracapsular extension 和 lymphovascular invasion 相关,但与 primary tumor size/T-stage 不相关。作者认为 p-EMT 比 conventional EMT signatures 或 TCGA mesenchymal program 更能预测 nodal metastasis/local invasion,因为后两者更多反映 CAF frequency。
这段只能作为 bulk association。它支持 p-EMT program 与 nodal metastasis 和不良病理特征相关,但不能证明 p-EMT cells cause metastasis。真正要证明迁移/转移能力,需要更直接的 lineage tracing、multi-marker sorting、organoid/PDX/metastasis model,或者空间-克隆-转录联合证据。
What I Take From It
这篇的贡献可以写得窄一点:
Puram 2017 identifies a malignant-cell p-EMT-like expression program in HNSCC that localizes to the invasive edge and is associated with stromal proximity, invasion-related behavior in vitro, and adverse nodal/pathological features in bulk cohorts.
我不会把它读成:
p-EMT cells drive metastasis.
这里差别很大。前者是识别表达程序和关联;后者是因果机制。作者的 claim 有时写得比较满,但证据还没到那个强度。
这篇最值得学习的是两个东西。第一,是如何在 epithelial tumor 中区分 malignant-cell-intrinsic mesenchymal-like program 和 CAF/stromal-derived mesenchymal signal。第二,是如何用 single-cell data 重新解释 TCGA bulk subtype,说明 mesenchymal subtype 可能主要是 TME composition,而不是恶性细胞本身的状态。
但 p-EMT 的功能证据没有形成完整闭环。证据链是:
single-cell NNMF defines p-EMT gene program
-> SCC9 has a partial p-EMT-like subpopulation
-> TGFBI-high cells are more invasive and less proliferative
-> p-EMT markers localize to tumor leading edge by IHC
-> CAF/TGF-beta signals are implicated by ligand-receptor analysis and perturbation
-> TCGA p-EMT score associates with nodal/pathological features
每一步都能讲通,但中间有几次转换:gene set 变成 single marker,cell line 变成 in vivo tumor,marker staining 变成 spatial program,bulk score 变成 metastasis implication。这就是为什么读起来会觉得“缺少一口气”。它不是没有证据,而是证据与 claim 之间总差半步。
我会把这篇定位为“概念提出 + 多角度旁证”的论文,而不是强因果论文。它为后续研究提出了一个很有用的问题:HNSCC 是否存在 leading-edge p-EMT malignant-cell state?这个 state 是否由 CAF/TGF-beta-related TME cue 维持?它是否真能产生 lymph node metastasis?这些问题后来需要更强的空间组学、功能模型和临床队列来回答。
Note
p-EMT是 gene program,不是一个互斥细胞群。细胞可以同时带有其他 programs,例如 hypoxia 或 stress。TGFBI-high是 p-EMT 的实验 proxy,不是 p-EMT 的定义。功能实验应理解为支持 p-EMT-like state,而不是完整证明 p-EMT gene set 因果。- IHC 的空间证据很重要,但只是 top marker 层面的验证。
- CAF/TGF-beta 线索合理,但体内因果仍未闭合。
- TCGA deconvolution 是这篇最值得保留的方法学启发:bulk mesenchymal subtype 可能是 stromal abundance。
- p-EMT 与 LN metastasis 的关系是 association,不是直接 metastatic seeding 证明。