基于图协同过滤的单细胞RNA测序数据填补.pdf
《基于图协同过滤的单细胞RNA测序数据填补.pdf》由会员分享,可在线阅读,更多相关《基于图协同过滤的单细胞RNA测序数据填补.pdf(10页珍藏版)》请在咨信网上搜索。
1、Advances in Applied Mathematics 应用数学进展应用数学进展,2024,13(4),1800-1809 Published Online April 2024 in Hans.https:/www.hanspub.org/journal/aam https:/doi.org/10.12677/aam.2024.134169 文章引用文章引用:李雪枫.基于图协同过滤的单细胞 RNA 测序数据填补J.应用数学进展,2024,13(4):1800-1809.DOI:10.12677/aam.2024.134169 基于图协同过滤的单细胞基于图协同过滤的单细胞RNA测序数据
2、填补测序数据填补 李雪枫李雪枫 中国地质大学(武汉)数学与物理学院,湖北 武汉 收稿日期:2024年3月28日;录用日期:2024年4月23日;发布日期:2024年4月30日 摘摘 要要 单细胞单细胞RNA测序测序(Single-cell RNA Sequencing,scRNA-seq)技术能以单细胞的分辨率分析转录组技术能以单细胞的分辨率分析转录组数据,在数据,在生物学研究中展现出广泛的应用前景。然而技术问题会导致生物学研究中展现出广泛的应用前景。然而技术问题会导致scRNA-seq数据存在部分基因表达缺失的情数据存在部分基因表达缺失的情况,称之为零膨胀事件。这种情况严重阻碍了下游分析,故
3、需要对况,称之为零膨胀事件。这种情况严重阻碍了下游分析,故需要对scRNA-seq数据进行填补。本文提出数据进行填补。本文提出了一种基于图协同过滤的单细胞了一种基于图协同过滤的单细胞RNA测序数据填补算法,为测序数据填补算法,为scRNA-seq分析提供了一个深度学习框架。分析提供了一个深度学习框架。它通过结构邻居对比的图协同过滤方法提取细胞特征表示和基因特征表示,并将两者的内积应用于零膨它通过结构邻居对比的图协同过滤方法提取细胞特征表示和基因特征表示,并将两者的内积应用于零膨胀负二项分布自编码器来填补胀负二项分布自编码器来填补scRNA-seq数据。仿真实验结果验证了该算法在仿真数据集上的填
4、补能力,数据。仿真实验结果验证了该算法在仿真数据集上的填补能力,且通过下游聚类分析且通过下游聚类分析实验表明该算法在公共真实数据集上细胞聚类的性能。实验表明该算法在公共真实数据集上细胞聚类的性能。关键词关键词 单细胞单细胞RNA测序,填补,图协同过滤,零膨胀负二项分布测序,填补,图协同过滤,零膨胀负二项分布 Imputation of scRNA-seq Data Based on Graph Collaborative Filtering Xuefeng Li School of Mathematics and Physics,China University of Geosciences(
5、Wuhan),Wuhan Hubei Received:Mar.28th,2024;accepted:Apr.23rd,2024;published:Apr.30th,2024 Abstract Single-cell RNA sequencing(scRNA-seq)technology can analyze transcriptome data at the single-cell level and is widely used in biology.However,technical issues can lead to missing gene expression in scRN
6、A-seq data,which is called zero-inflation event.This situation seriously hinders downstream analysis,so it is necessary to impute the scRNA-seq data.This article proposes an imputation algo-rithm of scRNA-seq data based on graph collaborative filtering,providing a deep learning frame-李雪枫 DOI:10.1267
7、7/aam.2024.134169 1801 应用数学进展 work for scRNA-seq analysis.It extracts cell feature representations and gene feature representa-tions through the graph collaborative filtering method of comparing structural neighbors,and ap-plies the inner product of the two to the zero-inflated negative binomial dis
8、tribution autoencoder to impute scRNA-seq data.The simulation experiment results have verified the imputation ability of the algorithm on the simulation dataset,and downstream clustering analysis experiments have shown the performance of the algorithm on cell clustering on public real datasets.Keywo
9、rds Single-Cell RNA Sequencing,Imputation,Graph Collaborative Filtering,Zero-Inflated Negative Binomial Distribution Copyright 2024 by author(s)and Hans Publishers Inc.This work is licensed under the Creative Commons Attribution International License(CC BY 4.0).http:/creativecommons.org/licenses/by/
10、4.0/1.引言引言 单细胞 RNA 测序(Single-cell RNA Sequencing,scRNA-seq)1技术已成为生物信息学的研究热点。scRNA-seq 技术在单细胞水平上分析转录组数据,且应用广泛2 3 4。尽管 scRNA-seq 技术在单细胞分析中具有潜力,但其应用仍受到技术噪声和实验条件的限制。例如,由于 RNA 输入不足或细胞测序深度不足等技术或实验条件限制,可能会出现部分基因表达数据缺失的情况,即所谓的零膨胀事件或 dropout 事件。这些缺失值可能会导致重要生物学信息的丢失,并对 scRNA-seq数据的下游分析造成阻碍。采取措施来估算或推断这些缺失值是处理
11、scRNA-seq 数据集的一个不可或缺的步骤,也就是 scRNA-seq 数据填补。针对 scRNA-seq 数据的缺失值填补问题,目前研究人员已经开发了许多填补方法。例如,精确单细胞填补(Single-cell Impute,scImpute)5通过 Gamma-正态分布混合模型估计哪些值受到 dropout 的影响,最后通过借用其他相似细胞中相同基因的信息来估算。基于细胞 Markov 亲和图的填补(Markov Affini-ty-based Graph Imputation of Cells,MAGIC)6基于热扩散的思想并对相似细胞中的信息加权来进行估算dropout。而自适应阈值
12、低秩近似填补(Adaptively Thresholded Low-rank Approximation,ALRA)7通过观察到的基因表达矩阵进行低秩矩阵补全,再基于奇异值分解求解进而填补。除了基于统计的方法,目前针对 scRNA-seq 数据的高维度、高稀疏性,基于深度学习的方法具备有效性和高效性。深度计数自编码器去噪(Deep Count Autoencoder Network,DCA)8将基因表达分布建模为负二项(Negative Binomial,NB)分布或零膨胀负二项(Zero-inflated Negative Binomial,ZINB)分布,通过自编码器学习到的分布参数进而预
13、测去噪后的基因表达矩阵。而单细胞变分推断(Single-cell Variational Inference,scVI)9通过变分自编码器来指定 ZINB 分布进行填补。单细胞图神经网络填补(Single-cell Graph Neural Network,scGNN)10通过特征自编码器学习并构建细胞图,利用图自编码器聚合细胞间关系,最后基于特征自编码器重构表达谱。针对 scRNA-seq 数据填补问题,本文提出一种基于图协同过滤的单细胞 RNA 测序数据填补(Imputation of scRNA-seq Data based on Graph Collaborative Filterin
14、g,scGCF)算法。通过图协同过滤分别获得细胞特征表示和基因特征表示,再将细胞特征表示和基因特征表示交互,进而输入基于 ZINB 分布的自编码器重建 scRNA-seq 数据的表达谱。Open AccessOpen Access李雪枫 DOI:10.12677/aam.2024.134169 1802 应用数学进展 2.模型介绍模型介绍 scGCF模型主要由图协同过滤框架、ZINB分布自编码器这两个部分组成,其模型示意图如图1所示。给定基因表达矩阵()m nijm nx=X,细胞的集合 c=且m=,基因的集合 g=且n=,细胞基因交互矩阵是()m nijm na=A,且1,if00,if0i
15、jijijxax=,构图如下:,=(1)其中=表示节点集,(),|,1cgc gcg=A表示边集。Figure 1.Schematic diagram of scGCFs model structure 图图 1.scGCF 模型结构示意图 2.1.数据预处理数据预处理 针对 scRNA-seq 数据的原始计数矩阵,本文采取了预处理操作以避免低质量数据对后续分析的影响。本文移除了在极少数(少于 3 个)细胞中表达的基因以及在少数(少于 200 个)基因中表达的细胞,得到计数矩阵()m nijm nx=X,其中,m n分别为过滤后的细胞和基因的数量。对细胞 i,大小因子为:()1,11,nnii
16、jimijjjsxmedianx=(2)再作大小因子归一化来减轻不同测序深度可能带来的影响,后经 log 转换、伪计数加 1 后,得到:()1log,c+=XGXI (3)其中I为全一元素的矩阵,()12,d,iagm mcms ss=G且()12diag,ms ss是一个以12,ms ss作为对角线的对角矩阵。对基因 j,定义基因因子:max,jijigx=(4)李雪枫 DOI:10.12677/aam.2024.134169 1803 应用数学进展 同理全部基因因子构成的矩阵为()12diag,n ngng gg=G。矩阵X中每个细胞作为一个样本,其中的细胞序号 i 和所有基因的序号作为输
17、入,样本中基因表达作为标签,输入模型。矩阵cG和gG则用于最后的 scRNA-seq 数据填补。2.2.图协同过滤框架图协同过滤框架 对观察到的细胞和基因之间的交互进行建模,通过在图上应用传播和预测函数来生成细胞和基因特征表示:()()()()1111,ReLUReLUgccgjcglllliiijNj NNNNN+=eeee (5)其中 K 是图神经网络(Graph Neural Network,GNN)的层数,()10kce和()10kge分别是 Xavier 初始化后的细胞 c 特征表示以及基因 g 特征表示,参数 k 是细胞(基因)特征表示中的特征维度。()1cl+e和()1gl+e分
18、别是经过1l+层 GNN 后的细胞 c 特征表示及其基因 g 特征表示,且()01llK。cN和cN分别表示细胞 c 在上的邻居及其邻居个数。经过所有的 GNN 层后,采用加权和函数来得到细胞特征表示和基因特征表示:()()0011,11llcgKKcgllKK=+eeee (6)并采用Tcgcg=ee来预测基因 g 在细胞 c 中的表达量。鉴于交互图是二分图,图协同过滤框架在图上进行偶数次 GNN 的传播,会自然聚合同质结构邻居的信息。本文对每个细胞及其结构邻居作对比,将细胞本身的表示和偶数层 GNN 相应输出的表示视为一对,基于 InfoNCE 来最小化每一对之间的距离:()()()()(
19、)()00explog,expcceeccccL=eeee (7)其中代表 softmax 的温度超参,e 是一个偶数,()ece和()0ce分别为第 e 层 GNN 和初始的细胞表示。同样的,可以得到针对基因的结构对比损失:()()()()()()00explog,expggeeggggL=eeee (8)其中()ege和()0ge分别为第 e 层 GNN 和初始的基因表示。总结构对比损失定义如下:SLLL=+(9)其中是一个超参数,用于平衡权重。2.3.ZINB 分布自编码器分布自编码器 考虑到 scRNA-seq 的计数数据表现为高度稀疏和过度分散,假设其分布为零膨胀负二项分布:()()
20、()()0ZINB|,1NB|,xIxx =+(10)其中负二项分布()()()NB|,!xxxx+=+表征 scRNA-seq 数据的计数分布,,表示均 李雪枫 DOI:10.12677/aam.2024.134169 1804 应用数学进展 值和散度,表示真实的基因表达值被观测为 0 的概率,()0Ix为示性函数。基于 scRNA-seq 数据的 ZINB 分布特征来设置自解码器。基于 ZINB 分布的负对数似然损失函数为:()ZINBZINB|,Lx =(11)以上述函数作为损失函数进行解码来模拟 scRNA-seq 数据的分布,进而得到三个输出层,,它们分别代表 dropout 事件概
21、率、NB 分布的均值和散度,则有下式:()(),11,argmaxZINB|,argmaxZINB|,mncgcgcgcgcgx=X (12)其中 m、n 分别表示细胞数和基因数。将提出的总结构邻居对比学习损失与 ZINB 分布重构损失结合,并添加 GNN 层中表示的 2-范数惩罚损失,将算法的训练损失定义为:ZINB122,SLLL=+e (13)其中1和2是控制所提出的总结构邻居对比学习损失和正则化项的权重的超参数,e表示 GNN 层中细胞和基因表示的参数集合。连接 ZINB 分布自编码器后的网络架构表示如下:()()()()()()()TTTTReLU,BatchNorm,exp sig
22、moid1,sigmoid,softplus,cgg=+=+=+=+HWbBHMGBWbGBWbBWbG =(14)其中()m ncgm n=为经过K(默认为2)个GNN层后初步估计的基因表达矩阵,r为隐藏层的神经元数。r nW和m rb分别是从交互层到隐藏层的权重和偏置,m rH是隐藏层表示。()BatchNorm 表示批次归一化(Batch Normalization,BN)层的函数,m r是 BN 层输出的表示。m n、m n、m n 分别指 ZINB 分布的三个输出层输出,n rW、m nb分别是从神经元为 r 的 BN 层映射回神经元为 n 的参数网络层M时的权重和偏置。n rW、m
23、 nb 和n rW、m nb 同理。指数函数和 softplus 函数分别应用于M和 以确保它们的非负性,sigmoid 激活函数则限制 的取值范围为0,1。M作为最终预测的基因表达矩阵。3.数值实验数值实验 3.1.scRNA-seq 数据集数据集 为了评估 scRNA-seq 数据的填补效果,使用 R 包 Splatter 11生成 scRNA-seq 仿真数据。固定仿真数据中真正零表达的比例为 35%,分别设计含有 dropout 时零值比例为 85%、90%、95%的仿真观测矩阵及其对应不含 dropout 的真实矩阵。利用这三个稀疏度不同的仿真数据集进行仿真实验。为了测试 scGCF
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 协同 过滤 单细胞 RNA 序数 填补
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。