【论文分享】BiCLUM-双边对比学习的单细胞多组学整合方法

个人推荐指数：⭐️⭐️

BiCLUM 简介

BiCLUM（Bilateral Contrastive Learning for Unpaired Single-Cell Multi-Omics Integration）是一种基于双边对比学习的单细胞多组学数据整合方法，专门用于整合未配对的单细胞 RNA-seq 和 ATAC-seq 数据。该方法由西安交通大学李丽敏团队开发，发表于 bioRxiv（2025年3月）。

BiCLUM 的核心能力包括：

未配对数据整合：无需配对的多组学数据，可直接整合来自不同实验的 RNA-seq 和 ATAC-seq 数据
双边对比学习：同时在细胞层面和特征层面进行对比学习，增强跨模态对齐
批次效应校正：有效消除批次效应，同时保持生物学异质性
联合嵌入空间：将不同模态的数据映射到统一的低维嵌入空间

BiCLUM 的主要应用场景：

整合来自不同实验的单细胞 RNA-seq 和 ATAC-seq 数据
跨模态细胞类型识别和注释
发现跨模态的生物学关系和调控网络
批次效应校正和数据标准化

模型架构

BiCLUM 采用基于自编码器的架构，结合对比学习和重构学习，包含以下核心组件：

细胞编码器（Cell Encoder）：

输入：高变基因（HVG）的原始计数或归一化数据
输出：细胞的低维潜在表示
网络结构：多层全连接神经网络

特征编码器（Feature Encoder）：

输入：每个特征在该模态所有细胞组成的空间中的向量
输出：细胞的低维潜在表示
网络结构：多层全连接神经网络

解码器（Decoder）：

RNA 模态解码器和ATAC 模态解码器分别从潜在表示重构 RNA/ATAC 数据
通过细胞嵌入（Cell Embeddings）与特征嵌入（Feature Embeddings）的相乘，在低秩空间内构建出一个与原始输入数据维度完全一致的重构矩阵
在矩阵相乘之后，应用 softplus 激活函数作为非线性转换层
结构：基于矩阵相乘和非线性激活函数的映射结构

MNN 构建模块：

功能：在 RNA 和 ATAC 细胞之间构建互最近邻对
输入：RNA 和 ATAC 的低维嵌入（如 PCA、LSI）
输出：细胞对索引
距离度量：余弦相似度或欧氏距离
参数：邻居数量 k（默认 500）

对比学习模块：

细胞层面对比学习：拉近 MNN 配对细胞的嵌入，推开非配对细胞
特征层面对比学习：对齐不同模态的特征表示
损失函数：InfoNCE 损失

BiCLUM 架构图

损失函数

BiCLUM 的总损失函数由多个部分组成：

重构损失（Reconstruction Loss）：
- 确保模型能够准确重构输入数据
- 对于 RNA 数据：均方误差（MSE）或负二项分布损失
- 对于 ATAC 数据：均方误差（MSE）或二元交叉熵损失
- L_recon = L_recon_RNA + L_recon_ATAC
细胞层面对比损失（Cell-level Contrastive Loss）：
- 基于 MNN 配对的细胞进行对比学习
- 正样本对：MNN 配对的 RNA-ATAC 细胞对
- 负样本对：非配对的 RNA-ATAC 细胞对
- 使用 InfoNCE 损失函数
- 温度参数 τ_cell 控制对比强度（默认 0.5）
特征层面对比损失（Feature-level Contrastive Loss）：
- 对齐不同模态的特征表示
- 通过基因活性评分矩阵（Gene Activity Matrix, GAM）建立 RNA 和 ATAC 特征之间的对应关系
- 正样本对：对应的 RNA 基因和 ATAC 基因活性特征
- 负样本对：不对应的特征对
- 温度参数 τ_feature 控制对比强度（默认 0.5）
正则化项：
- γ_a：RNA 模态重构损失的权重（默认 1）
- γ_b：ATAC 模态重构损失的权重（默认 1）
- α：细胞层面对比损失的权重（默认 10000）
- β：特征层面对比损失的权重（默认 10000）

总损失函数可表示为：

L_total = γ_a × L_recon_RNA + γ_b × L_recon_ATAC + α × L_cell + β × L_feature

算法步骤

步骤 1：数据预处理

对 RNA 数据进行质量控制、归一化和高变基因选择
对 ATAC 数据进行质量控制、TF-IDF 转换和特征选择
使用 ArchR 或 Signac 将 ATAC 数据转换为基因活性评分矩阵
对 RNA 和 ATAC 数据分别进行降维（PCA 或 LSI）

步骤 2：构建互最近邻（MNN）

在低维嵌入空间中计算 RNA 和 ATAC 细胞之间的距离
对于每个 RNA 细胞，找到 k 个最近的 ATAC 细胞
对于每个 ATAC 细胞，找到 k 个最近的 RNA 细胞
如果 RNA 细胞 i 和 ATAC 细胞 j 互为最近邻，则构成 MNN 对

步骤 3：训练 BiCLUM 模型

初始化编码器和解码器参数
使用 Adam 优化器进行训练
在每个训练批次中：
1. 前向传播：通过编码器获得潜在表示
2. 计算重构损失：通过解码器重构数据
3. 计算细胞层面对比损失：基于 MNN 配对
4. 计算特征层面对比损失：基于基因活性评分矩阵
5. 反向传播：更新模型参数
训练至收敛（通常 1000 个 epoch）

步骤 4：获得联合嵌入

使用训练好的编码器将 RNA 和 ATAC 数据映射到潜在空间
联合嵌入可用于下游分析：
- 细胞类型聚类和注释
- 可视化（UMAP、t-SNE）
- 轨迹推断
- 差异分析

步骤 5：评估整合质量

批次混合度：使用 kBET、LISI 等指标评估批次效应校正效果
生物学保持度：使用 ARI、NMI 等指标评估细胞类型保持效果
模态混合度：评估不同模态的细胞是否充分混合
迁移准确率：使用一个模态的标签预测另一个模态的细胞类型

技术实现细节

数据预处理

RNA-seq 数据预处理：

质量控制：过滤低质量细胞和基因
归一化：使用 Scanpy 的 normalize_total 和 log1p
高变基因选择：选择 2000 个高变基因
降维：使用 PCA 降至 100 维
可选：使用 Harmony 进行批次校正

ATAC-seq 数据预处理：

质量控制：过滤低质量细胞和峰
TF-IDF 转换：对峰矩阵进行 TF-IDF 转换
降维：使用 LSI 降至 100 维
基因活性评分：使用 ArchR 或 Signac 计算
可选：使用 Harmony 进行批次校正

基因活性评分矩阵（GAM）：

使用 ArchR 的 addGeneScoreMatrix 函数
或使用 Signac 的 GeneActivity 函数
将 ATAC 峰信号聚合到基因水平
考虑启动子区域和基因体区域的可及性

评估指标

整合质量评估：

批次混合度：kBET、LISI（Local Inverse Simpson’s Index）
生物学保持度：ARI（Adjusted Rand Index）、NMI（Normalized Mutual Information）
模态混合度：计算不同模态细胞在嵌入空间中的混合程度
可视化：UMAP、t-SNE

迁移学习评估：

使用 RNA 数据的细胞类型标签训练分类器
在 ATAC 数据上测试分类器性能
计算迁移准确率（Transfer Accuracy）

FOSCTTM 指标：

Fraction of Samples Closer Than True Match
评估配对细胞在嵌入空间中的接近程度
对于真实配对数据集，计算配对细胞的排名

性能评估

数据集

BiCLUM 在多个公开数据集上进行了评估：

配对数据集：

BMMC（配对）：人类骨髓单核细胞的 RNA + ATAC 数据
PBMC（配对）：人类外周血单核细胞的 RNA + ATAC 数据（10x Multiome）

未配对数据集：

BMMC（未配对）：来自不同实验的 RNA 和 ATAC 数据
PBMC（未配对）：来自不同实验的 RNA 和 ATAC 数据
Kidney：小鼠肾脏的 snRNA-seq 和 snATAC-seq 数据

CITE-seq 数据集：

BMCITE_s1d1_s1d2：RNA + 蛋白质数据
BMCITE_s1d2_s3d7：RNA + 蛋白质数据

整合性能

BiCLUM 在整合质量上表现优异：

批次混合度：在多个数据集上优于 Seurat、Harmony、scVI 等方法
生物学保持度：能够很好地保持细胞类型结构
模态混合度：不同模态的细胞在嵌入空间中充分混合

迁移学习性能

在跨模态细胞类型预测任务上：

迁移准确率：在多个数据集上达到 85% 以上
优于基线方法：Seurat、Harmony、LIGER、scVI 等

应用案例

案例 1：PBMC 数据整合

使用 BiCLUM 整合来自不同实验的 PBMC scRNA-seq 和 scATAC-seq 数据：

成功识别了主要的免疫细胞类型（T 细胞、B 细胞、单核细胞等）
不同模态的细胞在嵌入空间中充分混合
批次效应得到有效校正

案例 2：肾脏数据整合

整合小鼠肾脏的 snRNA-seq 和 snATAC-seq 数据：

识别了肾脏的主要细胞类型（肾小管细胞、足细胞、内皮细胞等）
揭示了细胞类型特异性的基因调控模式
发现了新的细胞亚型

案例 3：CITE-seq 数据整合

整合 RNA 和蛋白质数据：

成功对齐了转录组和蛋白质组数据
揭示了转录后调控的复杂性
发现了 RNA 和蛋白质表达不一致的基因

局限性

特征对应关系的简化假设：BiCLUM 目前假设跨模态的特征之间存在直观的一对一对应关系（例如基因与对应蛋白质的匹配）。然而，对于更复杂的数据集，这种假设可能并不充分，因为共表达基因或间接相关的基因在生物学过程中也发挥着重要作用
整合模态数量的限制：目前该方法主要专注于两个模态的整合。如何有效地整合三个或更多模态，仍然是一个额外的挑战
对先验生物学知识的依赖：对于那些先验生物学信息有限或完全没有的模态，进行有效的对齐和整合仍然存在困难
对复杂关系的处理能力：目前的对齐策略可能无法完全解释模态之间复杂的非线性或间接关系，未来可能需要探索更灵活的对齐策略，或者引入如基于图的技术等更高级的表示方法来增强整合质量

个人点评

和我的思路很相似，但不同之处有二：

特征层面的对齐：我觉得很不合理，这可能引发一系列潜在问题：例如：两个细胞比例不一致的模态怎么整合、activity和expression存在固有的生物学差异，这种差异不能被以忽略，而将它们强行对齐
解码器是通过矩阵乘法+softplus，有点像GLUE，但特征嵌入的获得方式相比GLUE的优雅来说差远了
benchmark和figure做的比较机械，但看文章格式好像是要投到BIB，我不太认可。综合评价给到NPC