多信息融合和自注意力识别新冠磷酸化位点_闫路.pdf
《多信息融合和自注意力识别新冠磷酸化位点_闫路.pdf》由会员分享,可在线阅读,更多相关《多信息融合和自注意力识别新冠磷酸化位点_闫路.pdf(7页珍藏版)》请在咨信网上搜索。
1、 ()年 第 卷 第 期 收稿日期:基金项目:国家自然科学基金面上项目()作者简介:闫路,女,硕士研究生,主要从事生物信息学研究,:;通信作者 王明辉,博士,教授,主要从事科学计算和生物计算研究,:。本文引用格式:闫路,来佳丽,王明辉 多信息融合和自注意力识别新冠磷酸化位点 重庆理工大学学报(自然科学),():,(),():()多信息融合和自注意力识别新冠磷酸化位点闫 路,来佳丽,王明辉(青岛科技大学 数理学院,山东 青岛)摘 要:由严重急性呼吸系统综合症冠状病毒 ()引起的疾病正在威胁着人们的健康。识别磷酸化位点是理解感染新型冠状病毒的分子机制的重要步骤。由于实验方法的局限性,建立有效的预测
2、模型是非常有必要的,由此提出一种新的新冠磷酸化位点预测模型。利用二肽组成(),增强氨基酸组成(),组成、转化和分布(),四种特征提取方法将蛋白质序列信息转化为数字信息,并首尾相连融合这些特征,采用互信息方法去除冗余信息。利用 和自注意力机制结合构建深度学习模型预测新冠磷酸化位点。利用五折交叉验证对模型进行检验。训练集的 和 值分别达到 和,独立测试集的 和 值分别达到 和。实验结果表明:方法能够有效识别新冠磷酸化位点。关 键 词:新冠磷酸化;多信息融合;自注意力机制;深度学习中图分类号:文献标识码:文章编号:()引言 年新型冠状病毒肺炎()是一种高度传染性的疾病,该疾病已经在世界各地迅速传播并
3、引发了健康和社会经济危机。目前为止,还没有普遍有效的治疗方法,尽管已经有针对新型冠状病毒()感染的各种候选疫苗,但它们也可能无法控制由 引起的大流行疾病。开发有效的治疗策略来对抗 感染显得尤为紧迫。了解 感染后宿主细胞调节的分子机制,可以确定细胞中新冠病毒蛋白的磷酸化位点,进一步推测所涉及的宿主激酶以及 驱动的功能,表明它们可以在感染细胞中有效修饰。这将为新冠肺炎的药理治疗提供潜在途径。然而,传统的实验方法费时费力,计算方法是更好的选择。目前,已经提出了相当多的计算方法来识别磷酸化位点。等开发了一种非激肽特异性磷酸化位点预测工具,使用 作为分类器预测蛋白质磷酸化位点。使用卷积神经网络来预测磷酸
4、化位点。利用深度神经网络预测磷酸化位点。这些已被证明优于以前的传统机器学习方法。目前识别新冠磷酸化位点仍然存在很多困难和挑战,主要有以下 个方面。不同的特征提取方法对模型的预测结果有较大的影响,而且单个特征提取方法不能很全面地提取新冠磷酸化的序列信息。数据冗余严重影响模型的性能,利用特征选择等方法预测结果有明显差别。利用传统的分类器和一般的深度学习方法识别新冠磷酸化位点遇到了瓶颈。因此,针对以上困难,开发新的计算方法,成为了识别新冠磷酸化的研究重点。提出一种新的新冠磷酸化位点预测方法。首先,利用 种特征提取方法,即二肽组成(,),增强氨基酸组成(,),组成、转化和分布()以及,将蛋白质序列信息
5、转化为数字信息,并从多视角进行多信息融合这些特征。其次,利用互信息(,)去除冗余和不相关信息,最后使用构建的深度学习分类模型()对新冠磷酸化位点进行分类预测,利用五折交叉验证对模型进行检验。实验结果表明,提出的 方法能够有效地鉴定识别新冠磷酸化位点。材料与方法 数据来源本研究数据集来源于 等构建的数据集,该数据集是从文献中收集了感染 的人 细胞的实验验证的磷酸化位点。为了减少磷酸化蛋白的序列冗余并避免模型过度拟合,使用 程序,对蛋白质序列相似性大于 的序列进行剔除。为了便于与其他现有磷酸化位点预测方法进行比较,将处理后的序列截断为 个残基长的序列片段,其中 位于中心。如果片段的中心 磷酸化,则
6、将其定义为阳性样品,否则,它被定义为阴性样本。综上所述,得到 位点阳性样本 份,阴性样本 份。并将数据集随机分为严格不重叠的训练集和独立测试集,比例为 。特征提取:对于 种天然氨基酸,进行两两组合可能出现 种情况,每一种两两组合的氨基酸对,称为一个二肽。是计算给定蛋白质序列的氨基酸对的出现频率,即二肽的频率。利用 算法,每条蛋白质序列可以生成 维特征向量。:由 等提出,计算固定长度子序列的氨基酸出现频率,计算公式为:(,)(,)(),(,)()其中:(,),(,)是滑动窗口 中氨基酸类型 的个数,()是滑动窗口 的大小,固定长度的序列窗口大小默认值为。:可以表征蛋白质序列的物理化学性质和氨基酸
7、序列组成的分布模式。使用 种物理化学性质来计算蛋白质特征信息,可以总共可以生成 维特征向量。:矩阵建立在氨基酸序列的比对上,个肽序列之间的同一性不超过。矩阵中的每一行都被用来编码 个氨基酸之一,序列长度为 的氨基酸序列可得到 维的特征向量。特征选择可以度量统计量之间存在的关联性,捕捉变量之间的线性和非线性关联。假设 个离散随机变量 和 的 定义为:(,)(,)(,)()()()其中:()为概率函数。根据定义,()(,)(,),()(,),独立随机变量相等。深度学习框架本研究构建的深度网络框架由自注意力机制、双向长短时记忆网络()和全连接层结合构建,称为。构建的深度学习网络框架融合了多个组件的优
8、点,可以使学习更有效。接下来,将按顺序介绍框架中从输入到输出的所有组件。)自注意力机制为了更好地捕捉蛋白质序列之间的交互信息,在模型中采用了一种自注意机制。自注意力机制可以捕获蛋白质序列中上下信息之间的长闫 路,等:多信息融合和自注意力识别新冠磷酸化位点期依赖关系。它可以有选择性地对一些重要蛋白质信息给予更多的关注,给予较高的权重,而对其他信息给予较低的权重。首先,根据上一层输出的嵌入向量得到、个注意力向量表示:,()其中:矩阵、分别表示一组查询、键和值(输入 输出序列),、表示学习的线性运算,对 和 进行缩放点积运算,得到相似度权重,然后利用 函数对相似度权重进行归一化。注意力矩阵 的计算如
9、下:(,)|()其中:是一个比例因子;是一个列式归一化函数;表示注意力矩阵。)的工作原理类似于。然而,除了称为细胞的内部处理单元之外,它们在称为遗忘门、更新门和输出门的循环神经元的门的使用上有所不同。在输入层的顶部使用 层。在每个序列索引位置 的门一般包括遗忘门、输入门和输出门 种。遗忘门可以表示为:()()输入门由 部分组成,第一部分使用了 激活函数,输出为,第二部分使用了 激活函数,输出为,两者的结果相乘去更新细胞状态,可以表示为:()()()()其中:、和 为线性相关系数,和 为偏置向量,为 激活函数。细胞状态 由 部分组成,其公式为:()隐藏状态 的更新由 部分组成,即()()()()
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 融合 注意力 识别 磷酸化 闫路
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。