数据建模中的机器学习方法.pdf
《数据建模中的机器学习方法.pdf》由会员分享,可在线阅读,更多相关《数据建模中的机器学习方法.pdf(13页珍藏版)》请在咨信网上搜索。
1、第1 2卷 第2期2023年6月数学建模及其应用M a t h e m a t i c a l M o d e l i n g a n d I t s A p p l i c a t i o n sV o l.1 2 N o.2J u n.2 0 2 3热点与前沿数据建模中的机器学习方法何思杰,刘庆芳,乔 琛(西安交通大学 数学与统计学院,陕西 西安 7 1 0 0 4 9)摘 要:随着人工智能(a r t i f i c i a l i n t e l l i g e n c e,A I)的蓬勃发展,相应的机器学习方法也在不断取得新突破.本文通过对聊天机器人的发展进行回顾,梳理了人工智能和机
2、器学习的基本研究现状,特别是依据任务及算法类型,依次介绍了在数据建模中常用的机器学习技术,包括监督学习、无监督学习、弱监督学习、强化学习和深度学习领域的典型方法或模型.本文最后还对机器学习的未来研究所面临的挑战和可研究方向进行了讨论.关键词:数据建模;机器学习;人工智能;学习模型中图分类号:O 2 9 文献标志码:A 文章编号:2 0 9 5-3 0 7 0(2 0 2 3)0 2-0 0 0 1-1 3 D O I:1 0.1 9 9 4 3/j.2 0 9 5-3 0 7 0.j mm i a.2 0 2 3.0 2.0 1收稿日期:2 0 2 3-0 3-2 0基金项目:国家自然科学基金
3、重大项目(1 2 0 9 0 0 2 1);国家自然科学基金(1 2 2 7 1 4 2 9);陕西省自然科学基础研究计划(2 0 2 2 J M-0 0 5);西安市科技创新计划(2 0 1 9 4 2 1 3 1 5 KY P T 0 0 4 J C 0 0 6)通讯作者:乔琛,E-m a i l:q i a o c h e n x j t u.e d u.c n引用格式:何思杰,刘庆芳,乔琛.数据建模中的机器学习方法J.数学建模及其应用,2 0 2 3,1 2(2):1-1 3.HE S J,L I U Q F,Q I AO CH.M a c h i n e l e a r n i n
4、g m e t h o d s i n d a t a m o d e l i n g(i n C h i n e s e)J.M a t h e m a t i c a l M o d e l i n g a n d I t s A p p l i c a t i o n s,2 0 2 3,1 2(2):1-1 3.1 机器学习概述及研究现状1.1 人工智能与机器学习:从聊天机器人说起1 9 5 0年,计算机科学之父、人工智能之父 艾伦图灵,发表了一篇具有划时代意义的论文“C o m p u t i n g M a c h i n e r y a n d I n t e l l i g e
5、 n c e”.在文中,他提出了一个概念:模仿游戏,即大名鼎鼎的图灵测试,即当你面对面与对方聊天时,判断出对方是人或是机器人.如果很难判断出对方是机器人的话,那么在一定程度上,可以认为该机器是智能的1.在接下来的时间里,研究者们先后开发了各种不同类型的聊天机器人.1 9 6 6年诞生于M I T人工智能实验室的E L I Z A,模拟了一个心理医生C a r l R o g e r s,是一个完全基于规则的聊天机器人;还有由美国人工智能大师查德华莱士设计的对话系统A L I C E,获得了2 0 0 0年和2 0 0 1年的人工智能最高荣誉奖洛伯纳奖.以上的聊天机器人都是基于模式匹配的方式,只
6、能选择预案库中的已有知识对所接收的关键词进行回答.这些限定规则的聊天机器人,即使规则再复杂,预设再多,也无法囊括所有问题的答案,更无法创造出新的答案.2 0 1 7年,A s h i s h V a s w a n i等人2发表了论文“A t t e n t i o n I s A l l Y o u N e e d”,推出了一个处理自然语言的网络结构,即T r a n s f o r m e r.T r a n s f o r m e r模型抛弃了以往的时序结构,更准确地说,T r a n s f o r m e r实际上是一种 新 的 编 码 机 制,通 过 多 头 注 意 力(m u l
7、 t i-h e a d a t t e n t i o n)机 制 和 位 置 信 息 编 码(p o s i t i o n a l e n c o d i n g),同时对语义信息和位置信息进行学习.T r a n s f o r m e r利用词向量间的矩阵计算,拥有更强大的特征提取能力,且更容易实现并行.之后的几年里,机器学习领域的从业者们在T r a n s f o r m e r的基础上提出了一些具有里程碑意义的模型,其中最具代表性的是B E R T和G P T系列.2 0 2 2年O p e n A I发布的C h a t G P T,很快被产业界接受,并在读书写字、数字分析、
8、信息提炼、知识总结、方1热点与前沿数据建模中的机器学习方法2 0 2 3年6月法教授、智库分享、自动翻译等领域得到了长足进步,用对话的形式展现了大语言模型在内容整理和摘要方面的突破性进展.从图灵测试到大语言模型,正体现了人类如何探索和学习自身感知、推断、决策和行动等智能的过程,这也正是人工智能的内在驱动和研究目标.机器学习(m a c h i n e l e a r n i n g,ML),作为人工智能内部模型的提炼过程,是一条从数据通往人工智能的技术路径.机器学习的研究目的是设计和分析一些让计算机可以自动学习的算法,即从数据中自动分析从而获得规律,获取新的知识技能,并基于学到的规律对未知数据
9、进行预测,同时利用经验来改善特定算法的性能3.随着机器学习的发展,其模型越来越多地应用到了数据分析中.当前,随着云计算和大数据技术的发展,计算能力、数据采集及存储能力得到了极大提高,同时能够处理更加复杂数据和任务的机器学习新模型正不断涌现,这些都为机器学习在人工智能应用领域的蓬勃发展提供了先决条件.机器学习与计算机视觉、自然语言处理、语音处理以及知识图谱等关键技术紧密结合,相关机器学习算法主要应用于图像分类、语音识别、文本分类等相关场景中,从而提升人工智能技术的整体应用效果,使得人工智能技术在自动翻译、自动驾驶、目标定位/检测、病灶识别、车载语音助手、智慧家居、图像/视频/语音生成等领域实现广
10、泛应用.1.2 机器学习方法概述机器学习方法主要有模型、学习准则和优化算法这3个基本要素.机器学习问题的可用基本数学语言表示:通过学习算法(l e a r n i n g a l g o r i t h m)A,对n个样本进行观测,以最小化预测的期望风险为目标,在函数族f(x,w)中估计依赖关系,找到一个最优预测函数f(x,w0),这个过程称为学习(l e a r n i n g)或训练(t r a i n i n g)4.这里,函数f(x,w)可以称为模型.有了模型的假设空间后,需要确定使用什么样的准则进行学习或者选择最优模型.这其中就涉及到损失函数、期望风险最小化、经验风险最小化和结构风险
11、最小化等学习准则.1)损失函数:样本在给定函数上的误差值L(y,f(x,),用来量化模型预测f(x,)和真实标签y之间的差异.损失函数是一个非负实值函数,损失函数的值越小,模型就越好.2)期望风险函数:给定函数上的期望损失,其公式为:Re x p(f)=XYL(y,f(x,)P(x,y)dxdy.这是模型f(x,)关于联合分布P(X,Y)的平均意义下的风险函数.机器学习的目的在于使期望风险最小化,但是由于可利用信息只有有限个样本,且期望风险往往是无法计算的.而我们所说期望风险最小化原则是用样本定义经验风险.3)经验风险函数:将机器学习问题转换为一个优化问题的最简单的方法是通过最小化训练集上的期
12、望损失.这意味着用训练集上的经验分布替代真实的分布.其公式为:Re m p(f)=1NNi=1L(yi,f(xi,).基于最小化平均训练误差的训练过程被称为经验风险最小化(e m p i r i c a l r i s k m i n i m i z a t i o n).这种情况下并不是直接最优化风险,而是最优化经验风险.需要注意的是,经验风险最小并不等于期望风险最小.4)结构风险函数:过拟合问题往往是由于训练数据少、噪声以及模型能力强等原因造成的.为了解决过拟合问题,提出了结构风险最小化准则(s t r u c t u r a l r i s k m i n i m i z a t i o
13、 n,S RM)策略,其对应的函数称为结构风险函数.在经验风险最小化的基础上,还引入了参数的正则化(r e g u l a r i z a t i o n),目的是限制模型能力,阻止过度地最小化经验风险.最终,结构风险函数公式为:Rs r m(f)=1NNi=1L(yi,f(xi,)+J(f),其中:J(f)为模型的复杂度,是定义在假设空间上的泛函,常用L1范数和L2范数表示;(0)是2第1 2卷 第2期数学建模及其应用V o l.1 2 N o.2 J u n.2 0 2 3用来权衡经验风险和模型复杂度的系数.在确定训练集、假设空间以及学习准则后,如何找到最优的模型f(x,w0)就成了一个最
14、优化问题.机器学习的训练过程其实就是最优化问题的求解过程.1.3 机器学习典型方法机器学习根据任务类型的不同可划分为监督学习、无监督学习、弱监督学习和强化学习.监督学习的任务5是利用已标记的训练数据来训练模型,主要的模型包括K近邻(K-n e a r e s t n e i g h b o r s,KNN)、决策树、朴素贝叶斯、F i s h e r判别器、支持向量机(s u p p o r t v e c t o r m a c h i n e,S VM)和回归模型等.无监督学习的任务6是利用未标记的训练数据来训练模型,主要的模型包括K-m e a n s、谱聚类和降维等.弱监督学习的任务7
15、是用大量的未标记训练数据和少量的已标记数据来训练模型,通过简单的标签去完成困难的任务,主要的模型包括自学习、EM(e x p e c t a t i o n m a x i m i z a t i o n)和多实例学习等.强化学习的任务8是从系统与环境的大量交互知识中训练模型,主要的模型包括Q-l e a r n i n g和D QN(d e e p Q n e t w o r k)等.根据算法类型,机器学习又可以划分为传统统计学习和深度学习9.传统统计学习是基于数学模型的机器学习方法,包括S VM、决策树和KNN等.这一类算法基于严格的数学推理,具有可解释性强、运行速度快、可应用于小规模数据
16、集的特点.深度学习是基于神经网络的机器学习方法,主要的模型包括 卷 积 神 经 网 络(c o n v o l u t i o n a l n e u r a l n e t w o r k s,C NN)、循 环 神 经 网 络(r e c u r s i v e n e u r a l n e t w o r k s,R NN)、图神经网络(g r a p h n e u r a l n e t w o r k s,GNN)、自动编码器(a u t o e n c o d e r,A E)、受限玻 尔 兹 曼 机(r e s t r i c t e d B o l t z m a n n
17、m a c h i n e s,R BM)和 生 成 式 对 抗 网 络(g e n e r a t i v e a d v e r s a r i a l n e t w o r k s,GAN)等.这一类算法基于神经网络,可解释性较差,强烈依赖于数据集规模.但是这类算法在语音、视觉和自然语言等领域非常成功.接下来的章节将依次介绍监督学习、无监督学习、弱监督学习、强化学习和深度学习领域的典型方法或模型.2 监督学习监督学习是一种分类,通过标定类别的方法来训练数据.主要是从给定的训练数据集中学习出一个函数(模型参数),当新的数据到来时,可以根据该函数预测结果.其过程分为两个步骤.步骤1 建模/
18、学习过程.以学习分类规则为目标,通过学习已知数据及其对应的输出(已有的训练样本),再根据目标输出与实际输出之间的误差来调节参数,训练出一个最优模型.步骤2 分类/测试过程.为实现分类目的,利用模型把输入数据映射为对应的输出类别,以此对测试数据进行分类.2.1 K近邻算法K近邻算法(KNN)的基本思想是:给定一个训练数据集X,对于新的输入实例x,从X中找到K个样本,这K个样本的选取采用距离x最近的原则,于是可以把x分类为这K个样本中最可能的类标签.KNN的关键问题是如何定义距离度量,常用的为欧氏距离(E u c l i d e a n d i s t a n c e).设x,yX,x,y间的欧氏
19、距离计算公式为d(x,y)=ni=1(xi-yi)2 1/2.KNN有以下缺点:1)K值选择的影响.较小的K值可能使模型变复杂,易导致过拟合;较大的K值会减少学习的估计误差,但可能会增加学习的近似误差;2)高维空间的可区分性差.在高维空间中,计算得到的相邻点可能并不相近;3)大数据量时计算开销大.需要为数据编制索引,且每次分类都要计算所有数据,对于大型数据集的计算量过大.3热点与前沿数据建模中的机器学习方法2 0 2 3年6月2.2 朴素贝叶斯朴素贝叶斯(n a t i v e B a y e s)用于计算数据为某个标签的概率,并将其分类为概率值最大的标签.朴素贝叶斯主要应用在文本分类和垃圾邮
20、件判定等自然语言处理中的分类问题.其基本思想如下.给定数据集D=d1,d2,dN,计算每个类属性的概率:P(Ci|D)=P(D|Ci)P(D)p(Ci)=P(D|Ci)P(Ci),其中:P(Ci)是先验概率;P(Ci|D)是后验概率.若训练数据独立同分布,则P(D|Ci)=kP(dk|Ci).对于分类问题,需要估计类的先验概率P(Ci)和类的条件概率密度P(x|Ci)两个参数.有很多种方法都可以对类的先验概率P(Ci)进行估计,最常见的方法包括用训练数据中各类出现的频率估计和矩估计方法,有的时候还可以依靠经验1 0.类的条件概率P(x|Ci)的估计方法中,最为主流的有两种:1)参数估计.在已知
21、概率密度函数形式的情况下,通过训练数据来估计其表征函数的参数,常用的参数估计法有极大似然估计和最大后验估计两种;2)非参数估计.在未知密度函数形式的情况下,通过训练数据直接对概率密度进行非参数估计,常采用KNN和P a r z e n窗估计两种方法.2.3 F i s h e r线性判别分类器F i s h e r线性判别分析(l i n e a r d i s c r i m i n a n t a n a l y s i s,L D A)是一种有监督的降维技术,其数据集的每个样本都有类别输出.L D A的思想是最大化类间均值与最小化类内方差.L D A基本原理是:在两类样本之间确定一个投影
22、轴,要求在该轴上的不同类样本间的投影距离之和最远,而同类样本间的投影之和最近,以此得到具有最佳分类效果的投影轴,称之为最佳投影轴1 1.将新样本投影到最佳投影轴上,根据投影点的位置就可以将新样本归到其中某一类.L D A准则描述为用投影后数据的统计性质(均值和离散度的函数)作为判别优劣的标准.L D A在人脸识别、舰艇识别等图形图像识别领域中有非常广泛的应用.2.4 支持向量机支持向量机(S VM)是统计学习理论中的一种非概率的二分类器模型1 2.其基本学习策略是特征空间上间隔最大化,学习得到尽可能远离数据的决策边界,其决策边界是对学习样本求解的最大边距超平面(最优分类面),最终可转化为一个凸
23、二次规划问题来求解.其公式为:f(x)=s i g n(w0 x+b0),其中:x为特征向量;w0为超平面的法向量;b0为超平面的截距;s i g n为指示函数,取值为1或者-1.支持向量是确定决策边界的重要数据.进一步,将训练数据集合中的两类集合边界上的点定义为支持向量,删掉所有的非支持向量,而问题的解不会受到影响.对于新的数据点x,只需代入公式便可得出其分类结果.以最大分类间隔(m a r g i n)正确分开两类的分类面称为最优分类面.其中,分类间隔表示样本集合中到超平面最近的样本与此超平面之间的距离.S VM的核心思想之一就是能控制最大分类间隔值的合理推广能力.2.5 监督学习 回归回
24、归(r e g r e s s i o n)是用于预测的机器学习方法,研究的是目标与预测器之间的关系(也可理解为因变量与自变量),产生一个将数据映射到一个实值预测变量的函数.主要研究问题包括数据序列的趋势特征以及数据/变量间的相关关系等.一般的回归模型的常规求解步骤:1)寻找h函数(即h y p o t h e s i s);4第1 2卷 第2期数学建模及其应用V o l.1 2 N o.2 J u n.2 0 2 32)构造L函数(代价函数);3)使得L函数最小,并求得回归参数.代价函数中常使用的均方误差其实对应了常用的欧式距离,基于均方误差最小化进行模型求解的方法称为“最小二乘法”(l e
25、 a s t s q u a r e m e t h o d),即通过最小化误差的平方和寻找数据的最佳回归参数匹配.2.5.1 L a s s o回归模型L a s s o方法是一种替代最小二乘法的压缩估计方法1 3.L a s s o的基本思想是在建立正则化模型L1的过程中,设定某些系数为0并压缩某些系数,当模型训练结束,为简化模型,可删掉权值为0的参数.其表达式为a r g m i nRPy-X 22 L o s s+1P e n a l t y.L a s s o回归模型被广泛用于存在多重共线性数据的拟合和变量选择的情况,因其特点是在结构风险最小化的基础上引入正则学习,这有助于特征选择,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 建模 中的 机器 学习方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。