数学模型在生物信息学教学中的应用.doc
《数学模型在生物信息学教学中的应用.doc》由会员分享,可在线阅读,更多相关《数学模型在生物信息学教学中的应用.doc(12页珍藏版)》请在咨信网上搜索。
数学模型在生物信息学教学中的应用 ———————————————————————————————— 作者: ———————————————————————————————— 日期: 2 个人收集整理 勿做商业用途 目 录 目 录 i 摘 要 ii 第一部分 数学建模 1 1 数学建模的介绍 1 2 数学建模的主要内容 1 3 数学建模的流程 2 4 数学建模的主要算法 2 5 数学建模的软件 3 第二部分 生物信息学 3 1 什么是生物信息学 3 2 生物信息学的研究方向 3 第三部分 生物信息学与数学建模的交叉 3 1 方法和技术的交叉 3 1。1 数学统计方法 4 1。2 动态规划方法 4 1。3 机器学习 4 1.4 数据挖掘 4 1。5 生物分子的计算机模拟 5 2 目的上的相似 5 第四部分 数学建模在生物信息学中的部分应用 5 1 运用数学模型的预测 5 2 运用数学模型的数据分析 6 参考文献 7 数学建模在生物信息学中的应用研究 摘 要 本文首先介绍了数学建模和生物信息学的基础知识,然后分析了数学建模和生物信息学的交叉知识点。分析显示,数学建模和生物信息学不仅在统计方法和数据挖掘等使用方法和技术方面存在交叉知识点,还在目的上具有一定的相似性,即两者都是对大量的数据进行统计和分析,都以解决问题为最终目的。最后,文章重点回顾了数学建模在生物信息学中数据分析和结构预测方面的部分应用。 关键词:数学建模 生物信息学 应用研究 ii 第一部分 数学建模 1 数学建模的介绍 从航空航天领域中的火箭发射、武器的自动导航,到企业中该如何配置人力、物力和财力,进而用最小的成本产生最大的利润,再到生活中如何规划自己有限的时间复习期末考试,等等.这都或多或少地运用到了数学建模的知识. 数学建模是一个将实际问题用数学的语言、方法,去近似刻画、建立相应数学模型并解决科研、生产和生活中的实际问题的过程。数学建模的问题比较广泛,涉及到多学科知识,它不追求解决方法的天衣无缝,不追求所用数学知识的高深,也不追求理论的严密逻辑,它以解决问题为主要目的。 模型的建立,即把错综复杂的实际问题简化、抽象化为具有合理的数学结构的过程。通过调查、收集数据资料,观察和研究实际对象的固有特征和内在规律,抓住问题的主要矛盾,建立起反映实际问题的数量关系,然后利用数学的理论和方法去分折和解决问题。 随着科学技术的飞速发展,人们越来越认识到数学的重要性:数学的思考方式具有根本的重要性,数学为组织和构造知识提供了方法,将它用于技术时能使科学家和工程师生产出系统的、能复制的、且可以传播的知识……数学对于经济竞争是必不可少的,数学科学是一种关键性的、普遍的、可实行的技术。在当今高科技与计算机技术日新月异且日益普及的社会里,高新技术的发展离不开数学的支持,没有良好的数学素养已无法实现工程技术的创新与突破。 2 数学建模的主要内容 数学建模理论包含统计回归模型、优化模型、图论模型、微分模型和概率模型等【1—3】,如表1所示。 1 表1 数学建模的主要内容 统计回归模型 运筹与优化模型 图论与网络模型 微分差分模型 概率模型 数学挖掘 聚类分析 层次分析 线性回归 非线性回归 主成分分析 时间序列分析 数据拟合与插值 博弈论 线性规划 整数规划 目标规划 动态规划 非线性规划 多目标决策 存贮论模型 图论模型 最小生成树 最大流问题 最短路径问题 最长路径问题 PERT网络图模型 最小费用流问题 GM模型 微分方程模型 稳定性模型 差分方差模型 灰色预测模型 偏微分方程模型 随机模拟 计算机模拟 决策论模型 排队论模型 马氏链模型 3 数学建模的流程 图1数学建模的流程[3] 4 数学建模的主要算法 蒙特卡罗算法——该算法又称随机性模拟算法,是通过计算机仿真来解决问题的算法,同时可以通过模拟可以来检验自己模型的正确性。 数据处理算法——通常会遇到大量的数据需要数据拟合、参数估计、插值等处理,通常使用Matlab作为工具。 规划算法——遇到线性规划、整数规划、多元规划、二次规划等最优化问题,可以用数学规划算法来描述,通常使用Lingo软件实现。 图论算法-—包括最短路、网络流、二分图等算法. 动态规划、回溯搜索、分治算法、分支定界等算法。 非经典算法-—模拟退火法、神经网络、遗传算法为最优化理论的三大非经典算法. 5 数学建模的软件 数学建模有专用的软件:Matlab 7, Lingo 8为其中最主要的软件,其他重要的软件有Mathematice,S-plus,SAS等。 第二部分 生物信息学 1 什么是生物信息学 生物信息学是一门新兴的交叉学科,它使用数学和计算机这两项工具,对日益增长的生物数据进行快速、高效的组织与分析。生物信息学的近期任务是大规模的基因组测序中的信息分析、新基因和新SNP的发现与鉴定、完整基因组的比较研究、大规模基因功能表达谱的分析、生物大分子的结构模拟与药物分析,其远期任务是非编码区信息结构分析、遗传密码起源和生物进化的研究。 2 生物信息学的研究方向 生物信息学的发展异常迅速,现主要包括DNA序列对比、蛋白质结构对比与预测、编码区的基因识别、序列重叠群(Contigs)装配、基于结构的药物设计、非编码区的分析研究、遗传密码的起源、分子进化与比较基因组学、生物系统的建模和仿真、生物信息学技术方法的研究等几个研究方向【4-6】. 第三部分 生物信息学与数学建模的交叉 生物信息学是利用数学和计算机作为工具,不可避免地与数学建模,这一利用计算机和数学理论解决实际问题的学科,无论在研究方法和技术上,还是在运用目的上均产生一定的交叉。 1 方法和技术的交叉 生物信息学所使用的方法与技术包括数学统计方法、动态规划方法、机器学习与模式识别技术、数据库技术与数据挖掘、人工神经网络技术、生物分子的计算机模拟等,而这些恰恰是数学建模领域的核心理论与知识。 1.1 数学统计方法 数据统计、因素分析、多元回归分析是生物学研究必备的工具,而这些是数学建模的统计回归模型中最为基础的知识;隐马尔科夫模型(Hidden Markov Models)在序列分析方面有着重要的应用,与隐马尔科夫模型相关的技术是马尔科夫链(Markov Chain),而马尔科夫链模型正是数学建模中针对离散状态按照离散时间的随机转移而建立的模型。总之,生物信息学和数学建模有的第一个共同点是,都有对海量数据进行统计分析的过程。 1。2 动态规划方法 动态规划(Dynamic Programming)是一种解决多阶段决策过程的最优化方法,在每个阶段做出一定的决策并影响后续的决策,最终选择一个最优决策。 当两个DNA序列长度较小时,采用动态规划算法可以很好地解决两个序列的相似性问题。当序列长度太长时,改进的BALST和FASTA算法也是基于动态规划的思想。同时,动态规划在数学建模领域也被用来解决最短路线、库存管理、资源分配等生产和生活中的现实问题. 1。3 机器学习 机器学习一般采用遗传算法、神经网络或聚类分析等,模拟人类的学习过程,以计算机为工具获取知识、积累经验,在拥有大样本、多向量数据的数据分析中发挥着日益重要的作用。比如,聚类分析已经运用于癌症类型的分类,神经网络和隐马尔可夫模型对于缺乏完备理论体系的生物领域也同样奏效。以上聚类分析、神经网络和隐马尔可夫模型均为数学建模中的重点方法。 1。4 数据挖掘 数据挖掘又被称作数据库中的知识发现,在此意义上,生物信息学也是在海量的生物数据中发掘生命的奥秘。基因序列包括外显子和内含子,其中外显子只占其中的一小部分.大部分的内含子序列的作用并不为人知,如何从这些简单的ACGT序列中发现内含子如何参与基因的转录与翻译变得异常重要.比如,利用一阶和二阶马尔可夫链的方法侦测密码区。 1。5 生物分子的计算机模拟 所谓生物分子的计算机模拟就是从分子或者原子水平上的相互作用出发,建立分子体系的数学模型,利用计算机进行模拟实验,预测生物分子的结构和功能,预测动力学及热力学等方面的性质,常用的方法是蒙特卡罗法和模拟退火方法。 2 目的上的相似 数学建模与生物信息学都会对大量的数据进行统计和分析,都以解决问题为最终目的,并且以求得满意解为重点,因为有时全局最优解难以得到。 另外,数学建模和生物信息学的研究都更强调能否具有实用性。比如生物信息学的机器学习技术中运用到了神经网路或隐马氏模型,但人们目前并不清楚该算法或模型是如何到达解的,即对其具体的机理并不十分了解.但这并不妨碍我们使用这种方法,因为这种方法具有使用成功性和可用性。在这个意义上,数学建模也经常通过此类“黑箱" 操作达到特定解。正如Cynthia Gibas和Per Jambeck在《Developing Bioinformatics Computer Skills》的前言所说,生物信息学“is often less about developing perfectly elegant algorithms than it is about answering practical questions”.从这个意义上说,数学建模与生物信息学有着目的上的相似性。 第四部分 数学建模在生物信息学中的部分应用 1。运用数学模型的预测 1993年Rost和Sander[6]提出了三级网络模型,这种神经网络方法已经成为了蛋白质结构预测普遍采用的方法。2003年闫化军等[7]人也通过神经网络算法预测蛋白质二级结构。2007年林卫中等[8]人将GM(1,1)模型应用于蛋白质二级结构类型的预测,把提取出的蛋白质氨基酸的排列信息作为伪氨基酸成分,从而较大的提高了预测的成功率.2008年邱望仁等[9]人将OET-KNN算法应用于蛋白质二级结构类型的预测,通过LZ复杂度的算法计算了伪氨基酸的成分,再用OET-KNN算法分类预测,从而也较大的提高了预测的成功率. Bader等[10]人将Logistic回归模型用来预测蛋白质之间的生物学关系,这种运用使得通过遗传学和基因表达数据来分析蛋白质数据成为了可能。2006年王明会等[11]人将Markov链模型应用于蛋白质可溶性的预测,预测精度普遍好于或接近于神经网络、信息论和支持向量机法的结果,而且该模型的运算复杂度低,耗时也更短.2006年张菁晶等[12]人将隐马尔可夫模型运用于目标基因全基因组的预测,同量高、准确度高并且操作简单,尤其在多结构域蛋白家族的预测上优势明显.2008年刘桂霞等[13]人提出了一种带偏差单元的递归神经网络模型。该模型根据BP算法得出权系数调整规则,使得收敛速度比一般的BP网络更快,对于预测蛋白质关联图有一定的实用价值。 2。运用数学模型的数据分析 1997年Carr等[14]研究了大鼠脊髓的基因活动,通过聚类分析证明具有已知相似功能的基因属于一类。2006年张文彤等[15]人综合了聚类方法和进化树分析的优点,通过先聚类将数据拆分,然后根据聚类的类别构建进化树,这种方法可以很好地在大样本数据中应用,并以甲型流感病毒的H3A1序列作为实例,构建拼接出了完整的进化树结果。 2006年徐丽等[16]人针对Viterbi算法和Baum-Welch算法在隐马尔可夫模型(Hidden Markov Model)的参数估计中无法找到全局最优解,提出了基于遗传算法的HMM参数估计,这种方法用于多序列对比研究时可以更好的避免局部最优解.2007年周晓彦等[17]人通过综合模糊数学和核判别方法的优点,提出了一种基于模糊核判别分析的基因表达数据分析方法,并以多发性骨髓瘤的基因表达数据为例证实了这种方法的可行性和精确性.2007年刘万霖等[18]人介绍了构建基因调控网络的多种算法和方法,比如马尔可夫链可以用于分析时间序列微阵列表达数据;将随机和概率等引入布尔网络模型,可以增强基因网络调控的精确性;贝叶斯网络模型在Friedman和Pe'er等人做出了开拓性的工作后,在基因表达数据和调控网络方面得到了快速的发展。 参考文献 [1] 冯杰等。数学建模原理与案例。科学出版社,2007。 [2] 高隆昌,杨元著。数学建模基础理论。科学出版社,2007. [3] 戴朝寿,孙世良. 数学建模简明教程. 高等教育出版社,2007. [4] 陶士珩。 生物信息学。 科学出版社,2007。 [5] DAVID W。 MOUNT.生物信息学:中文版. 高等教育出版社,2003. [6] Rost B, Sander C。 Proc. Natl. Acad。 Sci。 USA, Biothysics, 1993,90:7558—7562 [7] 闫化军,傅 彦,章 毅等。神经网络方法预测蛋白质二级结构.计算机科学。2003,30(11):48—52 [8] 林卫中, 肖绚。 基于GM(1,1)模型的蛋白质二级结构类型预测。 计算机工程与应用, 2007, 43(34): 41—45 [9] 邱望仁, 肖绚, 林卫中. 基于OET—KNN算法的蛋白质二级结构类型预测。 计算机工程与应用, 2008, 44(29): 204-210 [10] Bader JS,Chaudhuri A,Rothberg JM,et al. Gaining confidence in high—throughput protein interaction network。 Nat Biotechnol,2004,22: 78—85 [11] 王明会, 李 骜, 王娴等. Markov链模型在蛋白质可溶性预测中的应用. 生物医学工程学杂志, 2006, 23(5): 1109-1113 [12] 张菁晶,冯 晶,朱英国。全基因组预测目标基因的新方法及其应用.遗传。2006,28(10):1299-1305 [13] 刘桂霞, 于哲舟, 周春光. 基于带偏差递归神经网络蛋白质关联图的预测. 吉林大学学报(理学版), 2008, 46(2): 265—270 [14] Carr DB, Somogyi R, Michaels G. Templates for looking at gene expression clustering。 Statistical Computing & Statistical Graphics Newsletter, 1997,8:20-29 [15] 张文彤, 姜庆五.聚类技术在大样本序列进化树分析中的应用.中国卫生统计。2006,23(5):393—396 [16] 徐丽,康瑞华。基于遗传算法的HMM参数估计。 湖北工业大学学报。 2006,21(4):68—71 [17] 周晓彦,郑文明。基于模糊核判别分析的基因表达数据分析方法. 华中科技大学学报(自然科学版), 2007, 35(I): 173—176 [18] 刘万霖,李 栋,朱云平等.基于微阵列数据构建基因调控网络.遗传,2007,29(12):1434—1442 8- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数学模型 生物 信息学 教学 中的 应用
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【a199****6536】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【a199****6536】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【a199****6536】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【a199****6536】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文