大数据环境下数学建模竞赛方案.pdf
《大数据环境下数学建模竞赛方案.pdf》由会员分享,可在线阅读,更多相关《大数据环境下数学建模竞赛方案.pdf(65页珍藏版)》请在咨信网上搜索。
1、大数据琢境下数学建模竞赛方案1,大数据环境下的数据建模方法11.大数据环境与数据建模概述空.大数据的建模分析方法 密数据处理与数据建模方法 他数学建模竞赛的赛题分析3数学建模竞赛的实践过程,一、大数据环境与数据建模概述1.大数据的传说一个数据体量特别大,数据类别特别多的数据集,且无法用传统数据库工具对其进行管 理和处理。通常情况数据量为10TB以上,从海 量数据到巨量数据。关于大数据最重要的问题是如何使用?最大的挑战在于哪些技术能更好地使用大数据?夫数据的应用水平如何?3一、大数据环境与数据建模概述2.大数据的基本特征1 数据体量巨大,从TB级别到PB级别。2 数据类型繁多,数据来自多种数据源
2、,突 破了通常的结构化数据范畴,包括半结构化和非 结构化数据。如网络日志、视频、语音、图片、地理信息、人员信息、商业信息等。3 数据的真实性高、但价值密度低。如连续 不间断的监控视频,可能有用的数据仅有几秒 钟。4 处理速度快,1秒定律,即实现实时处理。,一、大数据环境与数据建模概述 一一.,.3.大数据的发展与应用过程(1)20世纪80年代开始数学热,数学热促使 了数学模型发展,但经典的数学模型对带有观 测误差的数据处理能力有限;(2)90年代出现了信息热,信息等价于数 据,然而当时的信息处理技术从计算能力、适 应能力和容错能力等难以达到使用的标准。(3)从90年代中期,统计学成为大众消费数
3、 据的热点,使得统计学家从象牙塔走到了现实 世界,从而出现了统计建模。5,,一、大数据环境与数据建模概述,3.大数据的发展与应用过程4进入21世纪,网络密布、数据激增,统计建 模在一定程度上为数据分析提供了一套可扩展、可深化,高质高效地揭示有价值信息的方法5 近几年来,大数据体量不断增加、类型复 杂,统计建模方法已不能全胜任。需要更多针 对大数据分析的数据建模方法。6 关于大数据分析(数据采集、数据处理、数据建模、数据应用)方法现已成为新热点。6一、大数据环境与数据建模概述 4.大数据分析的研究方向由于大数据来源复杂、体量巨大、价值潜伏、处 理速度快等特点,要求利用计算机和数学技术予 以实现(
4、数据工程)。大数据分析的研究方向:1 数据的表示与预处理方法,主要强调采 集、存取、加工,使其规范化和可视化的方法。2 数据的统计规律,侧重于对微观数据本质 特征的提取和模式发现。3 数据的分类、识别、排序、预测等建模方 法和快速算法。7,一、大数据环境与数据建模概述5.大数据分析的研究理论与方法大数据分析最重要的是通过分析获取智能、深入、有价值的信息,最终确定信息是否有价值 和决定性因素。主要研究的理论与方法:1可视化分析:可视化能够直观的呈现大数据 特点,并能够容易被人们所认识和接受。2 数据挖掘算法:它是大数据分析理论的核 心。通过快速高效的算法,能够将不同属性的数 据规律呈现出来,能够
5、深入数据内部挖掘出事物 内在的普遍规律。8,一、大数据环境与数据建模概述,5.大数据分析的研究理论与方法(3)数据质量与数据管理:高质量的数据和有 效的数据管理,无论是在学术研究还是实际应 用,都有助于保证分析结果的正确性和可靠性。包括:数据的采集、存贮、利用和预处理方法。(4)预测性分析方法:大数据分析目的之一是 预测性分析,即预测事物未来发展的规律。建立 科学合理的数学模型,对预测结果的正确性尤为 重要。9二二、大数据的建模分析方法 1.大数据技术方法(1)数据采集:将分散的、不同结构的数据源 中的数据进行筛选、转换、集成,最后加载到 数据库或数据集中,成为联机分析处理、数据挖掘的基础。(
6、2)数据存取:采用关系数据库SQL、MySQL、Oracle,非关系数据库NoSQL、MongoDB 等。(3)基础架构:分布式文件存储、云存储等。10二、大数据的建模分析方法 1.大数据技术方法(4)数据处理:目然语言处理技术(NLP)是 研究人与计算机交互的语言问题的一门学科。它是属于信息处理与人工智能的相关技术。(5)统计分析:假设检验、T检验、F检验、显著性检验、差异分析、相关分析、方差分 析、卡方分析、偏相关分析、多元回归分析、逐步回归分析、logistic回归分析、岭回归分 析、残差分析、因子分析、聚类分析、主成分 分析、聚类分析、判别分析、对应分析、最优 尺度分析等。11二、大数
7、据的建模分析方法,1.大数据技术方法(6)数据挖掘:分类、聚类、估计、预测、相关性分组或关联规则、描述和可视化、复杂 数据类型挖掘(Tex t,Web,图形图像,视频,音 频等)。(7)模型预测与仿真:预测模型、机器学习模 型、建模仿真。(8)结果呈现:云计算、标签云、关系图等。12二、大数据的建模分析方法 2.大数据分析过程(1)数据采集:利用多个数据库接收来自 Web、App或者传感器等的数据,并进行简单 的查询和处理工作。(2)数据导入与预处理:要对这些海量数据进行有效的分析,需要将这些来自前端的数据 导入到一个集中的大型分布式数据库,或者分 布式存储集,并做一些简单的清洗和预处理工作。
8、13二、大数据的建模分析方法 2.大数据分析过程(3)统计与分析:统计与分析主要利用分布 式数据库,或者分布式计算集群来对存储的海 量数据进行简单的统计分析和分类汇总等,以 满足大多数常用分析方法的需求。(4)数据挖掘与数据建模:主要通过数据挖掘技术进行建模,依据现有的数据基于各种可 能的有效算法进行计算,以实现分析预测、分 类、聚类、识别、排序等目的。14三、数据处理与数据建模方法1数据类型一致化方法(1)极小型:对某个极小型数据,则令1.xf=(x 0),或x=M X,即可将x极大化。x(2)中间型:对某个中间型数据x,则令 2(x m)1 八.、-,mx (M+m)M-m 2x)1-,(
9、M+m)x M.M-m 2即可将中间型数据x极大化。15三、数据处理与数据建模方法1、数据类型一致化方法(3)区间型:对某个区间型数据龙,则令L a-x1-,xaI c九ax bc其中力为1的最佳稳定区间*-b*M和机分别为x可能取值的最大值和最小值。即可将x极大化。16三、数据处理与数据建模方法 2.数据的规范化方法在实际中各类数据之间,往往存在着不可公度 性,难以做统一的数据分析和比较,或许会出现“大数吃小数”的错误,导致分析结果的不合理。常用变换方法:标准差法、极值差法和功效 系数法等。愤劭dW鼠1,马后,对方设臼故了建物-翎匕,则散)=12,附/=12,4)17三、数据处理与数据建模方
10、法 2.数据的规范化方法(1)标准差方法x X;令K=(i=l,2,/j=l,2,心),Sj1 n 1 n/其中司=_勺(为_丐)2.(/=1,2,,。7?,=1 i=l显然巾1=12;/=12)的均值和均方差分别为0和1,艮喝无量纲的,称之为写的标海心则直。(718三、数据处理与数据建模方法 2.数据的规范化方法(2)极值差方法X 一加7 令工.二J M,-m.j j(,=1,2,;/=1,2,根)9其中=max x.,m=min勺(j=l,2,加)。lin in则用fl。是无量纲的标准观测值。19,三、数据处理与数据建模方法2.数据的规范化方法(3)功效系数方法丫 一m令工c-0-d(i=
11、1,2,=1,2,川),J Mj-nij其中c,d均为确定的常数。表示平移量,d表示 旋转量,即表示放大或缩小倍数。则叫匕0+田譬如若取c=60,d=40,贝1“产60/00。20三、数据处理与数据建模方法3.定性数据的量化方法按规范的评价标准,对于定性数据一般分为五 个等级,如A,B,C,D,E。如何将其量化?若A-,B+,C,D噂又如何合 理量化?简单地对应数字分量化方法是不科学的!根据实际问题构造模糊隶属函数的量化方法是一种可行有效的方法。21Hv数据处理与数据建模方法3.定性数据的量化方法 假设对于某项定性数据分为A,B,C,D,E共5个 等级:Vi,V3,V4,V5 譬如:对某事件“
12、满意度”可化分为很满意,满意,较满意,不太满意,很不满意 将其5个等级依次对应为5,4,3,2,1。为取连续量化值,取偏大型柯西分布和对数函数作为隶属因数:/(%)=l+a(x-j3y2-lx3alnx+b,3 x 5其中。,民力为待定常数22二三、数据处理与数据建模方法3.定性数据的量化方法当很满意时,则隶属度为1,即/(5)=1;当较满意”时,则隶属度为0.8,即/=0.8;当很不满意时,则隶属度为0.01 即/=0.01计算得。=1.1086,=0.89 42,=0.39 15,b=0.369 9。则/(%)=+1.1086(%-0.8942)-2 Jlx 3I0.3915lnx+0.3
13、69 9,3 x 5/二l+a(x 万)-2T,1x3alnx+b,3 x 5其中。,民涉为待定常数三、数据处理与数据建模方法3.定性数据的量化方法f+1.1086(%-0.89 42)-2p 0.3915 In x+0.369 9,1%33 x 5/(X)=根据这个规律,对 于任何一个评价值,都 可给出一个合适的量化 值。据实际情况可构造 其他的隶属函数。如取 偏大型正态分布。1学韩中庚24三、数据处理与数据建模方法4.数据统计分析方法1常用的统计检验方法:假设检验、T检验、X?检验、F检验、显著性检验等;2 常用的分析方法:差异分析、相关分 析、偏相关分析、方差分析、多元回归分析、逐步回归
14、分析、logistic回归分析、残差 分析、因子分析、主成分分析、聚类分析、判别分析、对应分析、最优尺度分析等。3 常用的预测分析方法:插值与拟合、多 元回归、灰色系统理论、时间序列等。三、数据处理与数据建模方法5.多属性的综合排序方法常用方法:综合加权法、动态加权法、层次分析法、Borda函数法、TOPSIS(逼近理想点的 排序)法、ELECTRE(级另IJ高于关系 的排序)法、PROMETHEE(优先函数的排序)法 LINMAP(多维偏好的线性规划)法。2 fi三、数据处理与数据建模方法6.聚类分析与模式识别方法聚类分析与模式识别都是对数据对象进行 分类的方法,但二者有着本质的不同。(1)
15、聚类分析方法:对于同类事物按照某些 指标数据的特性(如相似程度、亲疏关系等)来进行分类的一种方法。一般事物的特性带有模糊性,为此可确定 相应的模糊矩阵,通常需要设置一个置信水平 入,由不同;I值可以得到不同的分类结果。27,三、数据处理与数据建模方法-二 2(第二版),高等教育.19.3-19.4节。参见:韩中庚编著数学建模方法及其应用二者区别:未知分类标准和已知分类标准。则、多特性择近原则等。最大隶属度原则、贴近度原则、单特性择近原象按照一定的原则识别它们属于哪一类。包括:类型的标准模式,而对于一(或多)个确定的对(2)模式识别方法:已知将整体事物分为若干6.聚类分析与模式识别方法四、数学建
16、模竞赛的赛题分析 数学建模竞赛的规模越来越大,水平越来越高;竞赛的水平主要体现在赛题水平;赛题的水平主要体现:(1)综合性、实用性、创新性等;(2)多种解题方法创造性、灵活性、开放性等;(3)海量数据的复杂性、数学模型的多样性、求 解结果的不确定性等。纵览22年的本科组44个题目(专科组25个),从 解决问题的方法和题目类型二个方面作一些简单的 分析。2四、数学建模竞赛的赛题分析1、问题解决的数学建模方法涉及到的数学建模方法:几何理论、线性代数、微积分、组合概 率、统计(回归)分析、优化方法(规划)、图论与网络优化、综合评价、插值与拟合、差分计算、微分方程、排队论、模糊数学、随机决策、多目标决
17、策、随机模拟、灰色系 统理论、神经网络、时间序列、机理分析等 方法。.,四、数学建模竞赛的赛题分析1、问题解决的数学方法 最多的是优化方法和概率统计的方法.优化方法共27个题,占总数的61.36%,其中整数 规划6个,线性规划6个,非线性规划17个,多目标 规划8个。概率统计方法21个题,占47.7%,几乎平均每年 至少有一个题目用到概率统计的方法。插值与拟合方法有8个;图论与网络优化方法有7个;综合评价方法至少有7个;微分方程方法至少有5个;3四数学建模竞赛的赛题分析1、问题解决的数学方法 时间序列方法至少有5个;灰色系统理论有5个;神经网络方法有4个;机理分析方法和随机模拟都多次用到;其他
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 环境 数学 建模 竞赛 方案
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【曲****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【曲****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。