机器学习整理.pdf
《机器学习整理.pdf》由会员分享,可在线阅读,更多相关《机器学习整理.pdf(24页珍藏版)》请在咨信网上搜索。
1、机器学习整理资料1、学习方法:、学习方法:二分类:二分类:每个分类器只能把样本分为两类。瓦普尼克 95 年提出来基础的支持向量机就是个二分类的分类器,这个分类器学习过 程就是解一个基于正负二分类推导而来的一个最优规划问题(对偶问题),要解决多分类问题 就要用决策树把二分类的分类器级联,VC 维的概念就是说的这事的复杂度。多分类问题:多分类问题:针对不同的属性训练几个不同的弱分类器,然后将它们集成为一个强分类器。层次聚类:创建一个层次等级以分解给定的数据集。此方法分为自上而下(分解)和自下而上(合并)两种操作方式。K-中心点聚类:中心点聚类:挑选实际对象来代表簇,每个簇使用一个代表对象。它是围绕
2、中心点划分的一种规则回归分析回归分析:处理变量之间具有相关性的一种统计方法结构分析:结构分析:结构分析法是在统计分组的基础上,计算各组成部分所占比重,进而分析某一总体现象的内部结构特征、总体的性质、总体内部结构依时间推移而表现出的变化规律性的统计方法。结构分析法的基本表现形式,就是计算结构标。2、监督学习算法:、监督学习算法:决策树、朴素贝叶斯、逻辑回归、KNN、SVM、神经网络、随机森林、AdaBoost、遗传算法无监督学习算法:无监督学习算法:聚类、关联规则、训练/学习、预测、K-Means、BIRCH、Apriori3、Nave Bayes 是一种特殊的 Bayes 分类器,特征变量是
3、X,类别标签是 C,它的一个假定是:特征变量 X 的各个维度是类别条件独立随机变量朴素:特征条件独立朴素:特征条件独立贝叶斯:基于贝叶斯定理贝叶斯:基于贝叶斯定理4、CRF(条件随机场算法)模型对于 HMM(隐马尔可夫模型)和 MEMM(最大熵隐马尔科夫模型)模型的优势:特征灵活、可容纳较多上下文信息、全局最优特征灵活、可容纳较多上下文信息、全局最优三者的比较、优点:三者的比较、优点:(1)CRF 没有 HMM 那样严格的独立性假设条件,因而可以容纳任意的上下文信息。特征设计灵活(与 ME 一样)与 HMM 比较(2)同时,由于 CRF 计算全局最优输出节点的条件概率,它还克服了最大熵马尔可夫
4、模型标记偏置(Label-bias)的缺点。与 MEMM 比较(3)CRF 是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分布。与 ME 比较缺点:训练代价大、复杂度高缺点:训练代价大、复杂度高5、KNN 算法:算法:K-NN 算法通过计算新数据与训练数据特征值之间的距离,然后选取 K(K=1)个距离最近的邻居进行分类或者回归.如果 K=1,那么新数据将被分配给其近邻的类k-NN 最近邻方法在样本较少但典型性好的情况下效果较好最近邻方法在样本较少但典型性好的情况下效果较好.6、在 HMM 中,如果已知观察序列和产生观察序列的
5、状态序列,极大似然估计极大似然估计方法直接进行参数估计。EM 算法:算法:只有观测序列,无状态序列时来学习模型参数,即 Baum-Welch 算法 维特比算法维特比算法:用动态规划解决 HMM 的预测问题,不是参数估计 前向后向前向后向:用来算概率 极大似然估计极大似然估计:即观测序列和相应的状态序列都存在时的监督学习算法,用来估计参数 7、常见的判别模型有:、常见的判别模型有:支持向量机 传统的神经网络 线性判别分析 线性回归逻辑回归 最近邻 CRF Boosting 产生式模型常见的主要有:产生式模型常见的主要有:高斯 朴素贝叶斯 混合多项式 混合高斯模型 专家的混合物 隐马尔可夫模型 马
6、尔可夫的随机场 HMMs Sigmoidal Belief Networks,Bayesian Networks Markov Random Fields Latent Dirichlet Allocation 8、已知一组数据的协方差矩阵已知一组数据的协方差矩阵 P,1、主分量分析的最佳准则是对一组数据进行按一组正交基分解,在只取相同数量分量的条件下,以均方误差计算截尾误差最小2、在经主分量分解后,协方差矩阵成为对角矩阵3、主分量是通过求协方差矩阵的特征值得到4、K-L 变换与 PCA 变换是不同的概念,PCA 的变换矩阵是协方差矩阵,K-L 变换的变换矩阵可以有很多种(二阶矩阵、协方差矩阵
7、、总类内离散度矩阵等等)。当 K-L 变换矩阵为协方差矩阵时,等同于 PCA。9、假定某同学使用 Naive Bayesian(NB)分类模型时,不小心将训练数据的两个维度搞重复了,1、模型效果相比无重复特征的情况下精确度会降低、模型效果相比无重复特征的情况下精确度会降低 2、当两列特征高度相关时,当两列特征高度相关时,无法用两列特征相同时所得到的结论来分析问题无法用两列特征相同时所得到的结论来分析问题10、SVM 是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器(minimal margin classifier)在聚类分析当中,簇内的相似性越大,簇间的差别越大
8、,聚类的效果就越差。在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。11、SPSS(统计产品与服务解决方案”软件)中,数据整理的功能主要集中在(数据数据、转换)等菜单中12、数据清理中,处理缺失值的方法有两种:数据清理中,处理缺失值的方法有两种:删除法:删除法:1)删除观察样本 2)删除变量:当某个变量缺失值较多且对研究目标影响不大时,可以将整个变量整体删除 3)使用完整原始数据分析:当数据存在较多缺失而其原始数据完整时,可以使用原始数据替代现有数据进行分析 4)改变权重:当删除缺失数据会改变数据结构时,通过对完整数据按照
9、不同的权重进行加权,可以降低删除缺失数据带来的偏差查补法查补法:均值插补、回归插补、抽样填补等成对删除与改变权重为一类;估算与查补法为一类成对删除与改变权重为一类;估算与查补法为一类13、卡方检验卡方检验是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。14、规则化规则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项(regularizer)或惩罚项(penalty term)。1、L1 范数和范数和 L0 范数可以实现稀疏范数可以实现稀疏,L1 因具有比 L0 更好的优化求
10、解特性而被广泛应用。L1 正则化偏向于稀疏,它会自动进行特征选择,去掉一些没用的特征,也就是将这些特征对应的权重置为 0.2、使用、使用 L2 可以得到平滑的权值可以得到平滑的权值.L2 主要功能是为了防止过拟合,为了防止过拟合,当要求参数越小时,说明模型越简单,而模型越简单则,越趋向于平滑,从而防止过拟合。L2 范数:|W|2,因为它的强大功效是改善机器学习里面一个非常重要的问题:过拟合。通过 L2 范数,我们可以实现了对模型空间的限制,从而在一定程度上避免了过拟合。线性分类器有三大类:感知器准则函数、SVM、Fisher 准则,而贝叶斯分类器不是线性分类器。15、感知器准则函数感知器准则函
11、数:代价函数 J=-(W*X+w0),分类的准则是最小化代价函数。感知器是神经网络(NN)的基础,SVM:支持向量机也是很经典的算法,优化目标是最大化间隔(margin),又称最大间隔分类器,是一种典型的线性分类器。(使用核函数可解决非线性问题)Fisher 准则准则:更广泛的称呼是线性判别分析(LDA),将所有样本投影到一条远点出发的直线,使得同类样本距离尽可能小,不同类样本距离尽可能大,具体为最大化“广义瑞利商”。贝叶斯分类器:贝叶斯分类器:一种基于统计方法的分类器,要求先了解样本的分布特点(高斯、指数等),所以使用起来限制很多。在满足一些特定条件下,其优化目标与线性分类器有相同结构(同方
12、差高斯分布等),其余条件下不是线性分类。线性分类器三种最优准则:Fisher 准则准则:根据两类样本一般类内密集,类间分离的特点,寻找线性分类器最佳的法线 向量方向,使两类样本在该方向上的投影满足类内尽可能密集,类间尽可能分开。这种度量通过类内离散矩阵 Sw 和类间离散矩阵 Sb 实现。感知准则函数:准则函数以使错分类样本到分界面距离之和最小为原则。其优点是通过错分类样本提供的信息对分类器函数进行修正,这种准则是人工神经元 网络多层感知器的基础。支持向量机支持向量机:基本思想是在两类线性可分条件下,所设计的分类器界面使两类之间的 间隔为最大,它的基本出发点是使期望泛化风险尽可能小。16、IND
13、EX:函数返回表格或区域中的值或值的引用.MATCH:在范围单元格中搜索特定的项,然后返回该项在此区域中的相对位置.VLOOKUP&HLOOKUP:在表格的首行或数值数组中搜索值,然后返回表格或数组中指定 行的所在列中的值.当比较值位于数据表格的首行时,如果要向下查看指定的行数,则可 使用 HLOOKUP;当比较值位于所需查找的数据的左边一列时,则可使用 VLOOKUP.FIND:返回一个字符串在另一个字符串中出现的起始位置(区分大小写).IF:可以对值和期待值进行逻辑比较.LIKE:可用 Like 运算符自定义字符比较函数之类的,应该是 VBA 的函数.17、统计模式分类问题中,当先验概率未
14、知时,可以使用当先验概率未知时,可以使用 1、最小最大损失准则、最小最大损失准则 2、N-P判决判决A.最小最大损失准则考虑 p(wi)变化的条件下,是风险最小 B.最小误判概率准则,就是判断 p(w1|x)和 p(w2|x)哪个大,x 为特征向量,w1 和 w2 为两分类,根据贝叶斯公式,需要用到先验知识 C.最小损失准则,在 B 的基础之上,还要求出 p(w1|x)和 p(w2|x)的期望损失,因为 B 需要先验概率,所以 C 也需要先验概率 D.N-P 判决,即限定一类错误率条件下使另一类错误率为最小的两类别决策,即在一类错误率固定的条件下,求另一类错误率的极小值的问题,直接计算 p(x
15、|w1)和 p(x|w2)的比值,不需要用到贝叶斯公式18、隐马尔可夫模型隐马尔可夫模型三个基本问题以及相应的算法说法 1、评估、评估前向后向算法前向后向算法 2、解码解码维特比算法维特比算法 3、学习学习Baum-Welch 算法算法19、聚类的目标、聚类的目标是使同一类对象的相似度尽可能地大;不同类对象之间的相似度尽可能地小。目前聚类的方法很多,根据基本思想的不同,大致可以将聚类算法分为五大类:层层次聚类算法、分割聚类算法、基于约束的聚类算法、机器学习中的聚类算法和用于高维度次聚类算法、分割聚类算法、基于约束的聚类算法、机器学习中的聚类算法和用于高维度的聚类算法的聚类算法1、层次聚类算法层
16、次聚类算法1.1 聚合聚类1.1.1 相似度依据距离不同:Single-Link:最近距离、Complete-Link:最远距离、Average-Link:平均距离1.1.2 最具代表性算法1)CURE 算法特点:固定数目有代表性的点共同代表类优点:识别形状复杂,大小不一的聚类,过滤孤立点2)ROCK 算法特点:对 CURE 算法的改进优点:同上,并适用于类别属性的数据3)CHAMELEON 算法特点:利用了动态建模技术1.2 分解聚类1.3 优缺点优点:适用于任意形状和任意属性的数据集;灵活控制不同层次的聚类粒度,强聚类能力缺点:大大延长了算法的执行时间,不能回溯处理 2、分割聚类算法、分割
17、聚类算法2.1 基于密度的聚类2.1.1 特点将密度足够大的相邻区域连接,能有效处理异常数据,主要用于对空间数据的聚类2.1.2 典型算法1)DBSCAN:不断生长足够高密度的区域2)DENCLUE:根据数据点在属性空间中的密度进行聚类,密度和网格与处理的结合3)OPTICS、DBCLASD、CURD:均针对数据在空间中呈现的不同密度分不对 DBSCAN作了改进2.2 基于网格的聚类2.2.1 特点利用属性空间的多维网格数据结构,将空间划分为有限数目的单元以构成网格结构;1)优点:处理时间与数据对象的数目无关,与数据的输入顺序无关,可以处理任意类型的数据2)缺点:处理时间与每维空间所划分的单元
18、数相关,一定程度上降低了聚类的质量和准确性2.2.2 典型算法1)STING:基于网格多分辨率,将空间划分为方形单元,对应不同分辨率2)STING+:改进 STING,用于处理动态进化的空间数据3):结合网格和密度聚类的思想,能处理大规模高维度数据4)WaveCluster:以信号处理思想为基础2.3 基于图论的聚类2.3.1 特点转换为组合优化问题,并利用图论和相关启发式算法来解决,构造数据集的最小生成数,再逐步删除最长边1)优点:不需要进行相似度的计算2.3.2 两个主要的应用形式1)基于超图的划分2)基于光谱的图划分2.4 基于平方误差的迭代重分配聚类2.4.1 思想逐步对聚类结果进行优
19、化、不断将目标数据集向各个聚类中心进行重新分配以获最优解2.4.2 具体算法1)概率聚类算法期望最大化、能够处理异构数据、能够处理具有复杂结构的记录、能够连续处理成批的数据、具有在线处理能力、产生的聚类结果易于解释2)最近邻聚类算法共享最近邻算法 SNN特点:结合基于密度方法和 ROCK 思想,保留 K 最近邻简化相似矩阵和个数不足:时间复杂度提高到了 O(N2)3)K-Medioids 算法特点:用类中的某个点来代表该聚类优点:能处理任意类型的属性;对异常数据不敏感4)K-Means 算法1特点:聚类中心用各类别中所有数据的平均值表示2原始 K-Means 算法的缺陷:结果好坏依赖于对初始聚
20、类中心的选择、容易陷入局部最优解、对 K 值的选择没有准则可依循、对异常数据较为敏感、只能处理数值属性的数据、聚类结构可能不平衡3K-Means 的变体Bradley 和 Fayyad 等:降低对中心的依赖,能适用于大规模数据集Dhillon 等:调整迭代过程中重新计算中心方法,提高性能Zhang 等:权值软分配调整迭代优化过程Sarafis:将遗传算法应用于目标函数构建中Berkh in 等:应用扩展到了分布式聚类还有:采用图论的划分思想,平衡聚类结果,将原始算法中的目标函数对应于一个各向同性的高斯混合模型5)优缺点优点:应用最为广泛;收敛速度快;能扩展以用于大规模的数据集缺点:倾向于识别凸
21、形分布、大小相近、密度相近的聚类;中心选择和噪声聚类对结果影响大3、基于约束的聚类算法、基于约束的聚类算法3.1 约束对个体对象的约束、对聚类参数的约束;均来自相关领域的经验知识3.2 重要应用对存在障碍数据的二维空间按数据进行聚类,如 COD(Clustering with Obstructed Distance):用两点之间的障碍距离取代了一般的欧式距离3.3 不足通常只能处理特定应用领域中的特定需求4、用于高维数据的聚类算法、用于高维数据的聚类算法4.1 困难来源因素1)无关属性的出现使数据失去了聚类的趋势2)区分界限变得模糊4.2 解决方法1)对原始数据降维2)子空间聚类CACTUS:
22、对原始空间在二维平面上的投影CLIQUE:结合基于密度和网格的聚类思想,借鉴 Apriori 算法3)联合聚类技术特点:对数据点和属性同时进行聚类文本:基于双向划分图及其最小分割的代数学方法4.3 不足:不可避免地带来了原始数据信息的损失和聚类准确性的降低5、机器学习中的聚类算法、机器学习中的聚类算法5.1 两个方法1)人工神经网络方法自组织映射:向量化方法,递增逐一处理;映射至二维平面,实现可视化基于投影自适应谐振理论的人工神经网络聚类 2)基于进化理论的方法缺陷:依赖于一些经验参数的选取,并具有较高的计算复杂度 模拟退火:微扰因子;遗传算法(选择、交叉、变异)5.2 优缺点优点:利用相应的
23、启发式算法获得较高质量的聚类结果缺点:计算复杂度较高,结果依赖于对某些经验参数的选择20、位势函数法的积累势函数位势函数法的积累势函数 K(x)的作用相当于 Bayes 判决中的 1、后验概率后验概率 2、类概率类概率密度与先验概率的乘积密度与先验概率的乘积在(1、选用的可分性判据 J 对特征数目单调不减 2、)情况下,用分支定界法做特征选择计算量相对较少分支定界法分支定界法(branch and bound)是一种求解 整数规划 问题的最常用算法。这种方法不但可以求解纯整数规划,还可以求解混合整数规划问题。分支定界法是计算机最擅长 的广义搜索穷举算法。分支定界法分支定界法是一种搜索与迭代搜索
24、与迭代的方法,选择不同的分支变量和子问题进行分支。对于两个变量的整数规划问题,使用网格的方法有时更为简单。分支定界法类似决策树的决策特征,要选择那些具有强可分辨性的少量特征。21、可以用于特征降维的方法包括(可以用于特征降维的方法包括(ABCD)A 主成分分析 PCA B 线性判别分析 LDAC 深度学习 SparseAutoEncoder D 矩阵奇异值分解 SVD22、1、SVM 对噪声对噪声(如来自其他分布的噪声样本)鲁棒 SVM 本身对噪声具有一定的鲁棒性,但实验证明,是当噪声率低于一定水平的噪声对SVM 没有太大影响,但随着噪声率的不断增加,分类器的识别率会降低。2、在在 AdaBo
25、ost 算法中所有被分错的样本的权重更新比例相同算法中所有被分错的样本的权重更新比例相同 AdaBoost 算法中不同的训练集是通过调整每个样本对应的权重来实现的。开始时,每个样本对应的权重是相同的,即其中 n 为样本个数,在此样本分布下训练出一弱分类器。对于分类错误的样本,加大其对应的权重;而对于分类正确的样本,降低其权重,这样分错的样本就被凸显出来,从而得到一个新的样本分布。在新的样本分布下,再次对样本进行训练,得到弱分类器。以此类推,将所有的弱分类器重叠加起来,得到强分类器。3、Boost 和和 Bagging 都是组合多个分类器投票的方法,二者均是根据单个分类器的正确率都是组合多个分类
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 整理
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【天****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【天****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。