【论文分享】Multimodal Transformer-多尺度基因组学的多模态基础模型
个人推荐指数:⭐️⭐️⭐️
论文简介
这是一篇发表在 Nature Methods(2025年12月)的综述性文章,系统性地回顾了 Transformer 模型在多尺度基因组学中的应用和发展。文章由沙特阿拉伯阿卜杜拉国王科技大学(KAUST)的 Jesper Tegner 团队撰写,全面梳理了从单模态到多模态 Transformer 模型的演进历程,并提出了构建”超级 Transformer”(Super Transformer)的愿景。
文章的核心贡献包括:
- 系统性分类:将基因组学中的 Transformer 模型分为三个层级(单模态、增强单模态、多模态)
- 技术综述:详细介绍了 Transformer 在基因组序列、单细胞组学和空间转录组学中的应用
- 实践指导:提供了四个基于公开数据集的代码教程,涵盖多组学、基因组序列、单细胞和空间转录组分析
- 未来展望:提出了构建模块化”超级 Transformer”的架构设想,用于整合异质性模态数据
这篇综述不仅是对当前 Transformer 在基因组学应用的全面总结,更为未来的多模态基础模型发展提供了清晰的路线图。
Transformer 在基因组学中的三个层级
文章将基因组学中的 Transformer 模型分为三个递进的层级:
层级 1:单模态基础模型
单模态 Transformer 模型专注于单一数据类型的分析,是基础模型的起点。
基因组序列模型:
- DNABERT:使用 BERT 架构处理 DNA 序列,通过 k-mer 分词策略将序列转换为 token
- Nucleotide Transformer:在 3000 亿个核苷酸上预训练,学习基因组的通用表示
- HyenaDNA:使用长卷积算子处理长达 100 万碱基对的序列,突破了传统 Transformer 的长度限制
- Caduceus:双向 Mamba 模型,结合了 RNN 的效率和 Transformer 的表达能力
单细胞组学模型:
- scBERT:将基因表达谱视为”句子”,基因作为”单词”,使用 BERT 架构学习细胞表示
- scGPT:在 3300 万个细胞上预训练,支持细胞类型注释、批次校正和基因扰动预测
- Geneformer:将细胞视为基因的有序序列,按表达量排序后输入 Transformer
- scFoundation:在 5000 万个细胞上预训练,是目前规模最大的单细胞基础模型之一
空间转录组学模型:
- Hist2ST:从组织学图像预测空间基因表达
- BLEEP:整合图像和基因表达数据,学习空间上下文
这些单模态模型通过自监督学习(如掩码语言建模 MLM)在大规模数据上预训练,学习到数据的内在模式和结构,为下游任务提供强大的特征表示。
层级 2:增强单模态模型
增强单模态模型在单一输入模态的基础上,能够预测其他模态的信息,展示了跨模态学习的能力。
从序列预测功能:
- DeepSEA:从 DNA 序列预测染色质特征和转录因子结合位点
- Basenji:使用 CNN 从序列预测基因表达和染色质可及性
- Enformer:引入 Transformer 的自注意力机制,预测远距离增强子-启动子相互作用
- UTR-LM:解码 mRNA 5’ UTR 的调控功能,预测翻译效率
- Evo:70 亿参数的基因组基础模型,能够预测突变的功能影响并设计 CRISPR-Cas 系统
从单细胞数据预测空间信息:
- 一些模型能够从 scRNA-seq 数据推断空间位置信息
- 结合单细胞和空间数据,克服测序和成像方法的分辨率和覆盖度限制
增强单模态模型的关键在于利用不同模态之间的内在相关性,通过学习一个模态的表示来预测另一个模态的特征。这为真正的多模态整合奠定了基础。
层级 3:多模态基础模型
多模态 Transformer 模型能够同时处理和整合多种数据类型,代表了基因组学 AI 的最前沿。
多组学整合模型:
- scMoFormer:整合 scRNA-seq、scATAC-seq 和蛋白质组学数据
- SpaDiT:整合单细胞和空间转录组学数据
- Nicheformer:学习空间微环境中的细胞-细胞相互作用
结合大语言模型的多模态系统:
- CellWhisperer:使用自然语言查询单细胞数据
- scInterpreter:将文本处理与分子数据分析结合,提供自然语言接口
- ChatNT:结合预训练的 DNA 编码器和英语解码器,创建多模态对话代理
- GenePT:从 ChatGPT 构建基因和细胞的基础模型
- Cell2Sentence:将基因表达数据转换为”细胞句子”,支持细胞生成、注释和文本生成
这些多模态模型展示了整合异质性数据的强大能力,能够在统一的框架中学习不同模态之间的复杂关系。
Transformer 架构的核心优势
文章深入分析了 Transformer 架构在基因组学中表现优异的原因:
自注意力机制
自注意力机制允许模型动态地关注输入序列中的不同位置,根据任务的重要性对输入进行加权。这种机制能够:
- 捕获长距离依赖关系:基因组中的调控元件可能相距数千甚至数百万碱基对
- 学习局部”语法”和语义结构:识别基因组中的功能模式
- 无需显式指导:通过掩码建模等自监督方法自动学习表示
可扩展性
Transformer 能够扩展到海量数据集和模型规模:
- 数据规模:可以在数十亿个核苷酸或数千万个细胞上训练
- 模型规模:从数百万到数十亿参数,遵循类似 NLP 的缩放定律
- 并行计算:自注意力机制天然支持并行化,充分利用 GPU 加速
鲁棒性和弱归纳偏置
Transformer 对数据集中的噪声和缺失具有较强的鲁棒性,且归纳偏置较弱:
- 不依赖于特定的数据结构假设
- 能够从数据中自动学习模式
- 适应性强,可应用于多种基因组学任务
这些特性使得 Transformer 在基因组学中特别有价值,因为基因组数据的注释和功能元件的知识往往高度不完整。
关键技术挑战与解决方案
文章详细讨论了 Transformer 在基因组学应用中面临的主要挑战及相应的解决方案:
分词策略(Tokenization)
不同的数据类型需要不同的分词策略:
DNA 序列:
- 单核苷酸:最简单的方法,但可能丢失局部模式
- k-mer:捕获局部序列模式,如 DNABERT 使用 6-mer
- 字节对编码(BPE):自适应学习最优分词,如 Nucleotide Transformer
单细胞数据:
- 基因作为 token:将每个基因视为一个词
- 基因表达值的离散化:将连续表达值转换为离散 token
- 排序策略:按表达量排序(Geneformer)或保持原始顺序
空间数据:
- 空间位点作为 token:每个空间位置对应一个 token
- 图像块(patch):将组织学图像分割为小块
- 混合策略:结合空间坐标和基因表达信息
位置编码
位置编码对于保持序列顺序至关重要:
绝对位置编码:
- 正弦-余弦编码:Transformer 原始论文中的方法
- 可学习位置嵌入:通过训练学习位置表示
相对位置编码:
- 更适合基因组学,因为相对位置关系比绝对位置更重要
- 可以泛化到训练时未见过的序列长度
空间位置编码:
- 2D 或 3D 坐标编码:用于空间转录组学
- 图结构编码:捕获细胞-细胞相互作用
可解释性
Transformer 的可解释性是一个持续的挑战:
注意力权重分析:
- 可视化注意力图,识别重要的基因组区域或基因
- 但注意力权重是否真正反映模型决策仍有争议
嵌入空间分析:
- 分析学习到的嵌入向量,理解模型如何表示生物学概念
- 与变分自编码器相比,Transformer 的嵌入是显式构建的
扰动分析:
- 通过输入扰动观察输出变化,理解模型的因果关系
- 类似于生物学中的基因敲除实验
计算效率
自注意力机制的二次复杂度是主要瓶颈:
稀疏注意力:
- Longformer、Reformer 等模型使用局部注意力窗口
- 减少计算量,同时保持长距离建模能力
高效 Transformer:
- Linformer:使用低秩近似
- Performer:使用核方法
- FlashAttention:优化内存访问模式
混合架构:
- 结合 CNN 和 Transformer:先用 CNN 提取局部特征,再用 Transformer 建模全局依赖
- 结合图神经网络:利用生物学先验知识构建图结构
“超级 Transformer”的愿景
文章提出了构建模块化”超级 Transformer”的架构设想,用于整合所有基因组学模态:
架构设计
模态特异性编码器:
- 每个模态(DNA、RNA、蛋白质、图像、空间、文本等)有独立的编码器
- 将原始数据转换为统一维度的嵌入向量
跨注意力机制:
- 使用跨注意力(cross-attention)连接不同模态的编码器
- 允许模态之间的信息交换和对齐
共享表示空间:
- 所有模态的嵌入投影到共同的潜在空间
- 学习模态内和模态间的依赖关系
多任务头:
- 支持多种下游任务:变异效应预测、空间域检测、蛋白质功能注释等
- 任务特异性的输出层
模块化和可扩展性
新模态的添加:
- 通过添加新的编码器和注意力接口,轻松扩展到新模态(如代谢组学)
- 无需重新训练整个模型
生物学知识注入:
- 将外部知识(如 Cell Ontology、Gene Ontology)嵌入为可学习的 token
- 通过正则化注意力权重,将结构化知识与数据驱动学习结合
预训练和微调:
- 在大规模多模态数据上预训练
- 针对特定任务进行高效微调
计算优化策略
利用生物学特性:
- Hi-C 数据指导限制长距离相互作用分析
- ATAC-seq 数据去优先化不可及的基因组区域
分布式计算:
- 模型并行:跨多个 GPU 或集群分布模型
- 数据并行:批次数据的并行处理
混合架构:
- 结合 Transformer 和图神经网络
- 在保持性能的同时提高效率
实践教程
文章提供了四个基于公开数据集的代码教程,所有代码可在 Google Colab 上运行:
教程 1:多组学整合
- 数据:合成的 DNA 序列和 RNA 表达数据
- 任务:从 DNA 序列预测 RNA 表达水平
- 架构:DNA 序列嵌入 + 位置编码 + Transformer 编码器
- 关键技术:
- DNA 序列编码为数值
- 自注意力机制捕获长距离依赖
- 注意力图可视化,识别关键核苷酸位置
教程 2:基因组序列分析
- 数据:真实的基因组序列数据
- 任务:预测转录因子结合位点、染色质状态等
- 模型:DNABERT、Nucleotide Transformer 等
- 关键技术:
- k-mer 分词策略
- 掩码语言建模预训练
- 迁移学习到下游任务
教程 3:单细胞基因组学
- 数据:scRNA-seq 数据集
- 任务:细胞类型注释、批次校正、基因扰动预测
- 模型:scGPT、Geneformer 等
- 关键技术:
- 基因表达值的离散化
- 细胞和基因的联合嵌入
- 零样本学习和少样本学习
教程 4:空间转录组学
- 数据:空间转录组学数据(如 Visium)
- 任务:空间域识别、细胞-细胞通讯推断
- 模型:SpaDiT、Nicheformer 等
- 关键技术:
- 空间位置编码
- 图结构建模
- 多模态整合(图像 + 基因表达)
所有教程的代码和数据均可在 GitHub 上获取:
- 教程代码:https://github.com/TranslationalBioinformaticsUnit/Transformers-for-Multiscale-Genomics
- 论文列表:https://github.com/TranslationalBioinformaticsUnit/TransformersInGenomicsPapers
未来展望
文章对 Transformer 在基因组学中的未来发展提出了几个重要方向:
从专用系统到通用系统
- AlphaFold 等专用系统在特定任务上表现卓越
- 未来的多模态基础模型将向更通用的方向发展
- 类似于 GPT 在 NLP 中的角色,基因组学也需要通用的基础模型
多尺度系统建模
- 从 DNA/RNA 序列到细胞、组织、器官的多尺度整合
- 捕获不同尺度的生物学信息和相互作用
- 模拟跨尺度的生物系统动态
与系统生物学的重新连接
- 将基因组学与系统生物学重新连接
- 将生命系统的调控逻辑嵌入 Transformer 架构
- 支持更全面的健康和疾病模型
计算-实验伙伴关系
- 需要社区共同努力评估基础模型
- 部分实验验证(如 CRISPR 筛选)
- 计算扰动测试和跨模态一致性检查
- 社区主导的基准测试(如扩展的 CAGI 挑战)
缩放定律的探索
- Evo 等模型展示了类似 NLP 的缩放定律
- 更大的模型通常带来更好的性能
- 但预训练任务的选择至关重要
- MLM vs NTP:不同任务有不同的缩放行为
相关链接
- 论文链接:https://doi.org/10.1038/s41592-025-02918-6
- 教程代码(多组学):https://colab.research.google.com/drive/16VxwUb3TQXulSGDdBW8gHG4elp8Rs92s/
- 教程代码(基因组序列):https://colab.research.google.com/drive/1YX_uO73lr8uENXLLj57cMHn796PtAoVd/
- 教程代码(单细胞):https://colab.research.google.com/drive/1yDKEFXLIr884JeBDQMHWYthpa-u8k3q9/
- 教程代码(空间转录组):https://colab.research.google.com/drive/13kax9iVi4uI6sh3ciXL9HxLl_RNtBcmy/
- GitHub 仓库:https://github.com/TranslationalBioinformaticsUnit/Transformers-for-Multiscale-Genomics
- 论文列表:https://github.com/TranslationalBioinformaticsUnit/TransformersInGenomicsPapers