基于探索性数据分析的全国过夜游客研究.doc
《基于探索性数据分析的全国过夜游客研究.doc》由会员分享,可在线阅读,更多相关《基于探索性数据分析的全国过夜游客研究.doc(14页珍藏版)》请在咨信网上搜索。
1、探索性数据分析课程论文 论文题目: 基于探索性数据分析的全国过夜游客研究 学生姓名: 学生学号: 所在学院: 年级专业: 任课教师: 完成日期: 年 月 日 基于探索性数据分析的全国过夜游客研究()【内容摘要】基于2013年全国31个省、直辖市、自治区住宿业年末从业人数和入境过夜游客截面数据进行探索性数据分析,通过茎叶图、五数总括图、箱线图了解数据进而改进数据并建立普通回归模型,结果表明年末从业人数是影响入境过夜游客的因素。【关 键 词】探索性数据分析,入境游客,住宿业,从业人员我国旅游资源丰富,旅游业在全国国民经济中占据重要的地位,是我国主要支柱产业之一。随着社会的发展,我国经济、文化和生态
2、建设都取得了长足的进步,旅游业的发展也相当繁荣。旅游业的可持续性发展对其他领域的可持续发展具有一定的促进作用,而整个社会的可持续发展又为旅游业创造了良好的条件。其中,旅游业对餐饮、住宿的助推作用越来越明显。住宿业在满足游客消费需求的同时,已成为一个地区或城市经济社会发展水平、对外总体形象的重要标志。近年来我国住宿业规模迅速扩大,住宿从业人员不断增多,整体素质不断提升,市场影响力不断增强,构成了我国旅游竞争力重要方面,为促进我国服务业繁荣发展和旅游服务水平整体提升做出了积极贡献。旅游业的发展离不开住宿业的发展和支持,住宿业给游客提供休息和服务,并留下良好印象,优质的住宿服务有助于提升我国旅游业在
3、国际中的形象。对我国的各个省、市、自治区来说,相互之间也存在竞争,如各地通过深度开发具有本地特色的旅游产品来吸引游客。研究我国入境过夜游客和住宿业从业人员的关系,是因为各地除了开发本地特色、提高旅游服务水平吸引游客以外,还能通过建设高水平的酒店来吸引游客。一个地方过夜游客人数的增加,除了给住宿业带来更多收入以外,还意味着当地潜在的其他旅游相关行业收入的增加。研究旅游业与住宿业的关系,有助于解释不同地区旅游人数和旅游收入的变化,从而更好的为发展旅游业服务。一、初步认识数据展现所收集的原始数据,并对所收集的数据进行大致的了解,以便于后续的探索性分析。(一) 原始数据由中国统计年鉴2013年数据整理
4、可得表1所示我国各省、市、自治区入境过夜游客人数和住宿业年末从业人数数据如下。表1 2013年我国各省、市、自治区入境过夜游客人数和住宿业年末从业人数序号地区入境过夜游客(万人)住宿业年末从业人数(人)1北 京450.131508082天 津75.86252023河 北84.27644754山 西53.84464775内蒙古161.61320626辽 宁256.04567197吉 林124.3202618黑龙江152.86220729上 海614.098140210江 苏288.0311848311浙 江337.5714570812安 徽271.955112713福 建294.02874691
5、4江 西123.894111415山 东285.9811707916河 南127.389648517湖 北267.967061918湖 南230.669277519广 东3397.929671920广 西281.745100521海 南75.645664322重 庆115.174087723四 川209.568879924贵 州62.43258025云 南287.886251726西 藏22.32508027陕 西253.477486628甘 肃9.782474729青 海4.65717230宁 夏2.54829931新 疆68.8824544 来源:中国统计年鉴(2013)(二) 描述性统计
6、 根据原始数据,运用SPSS描述统计可以得出如下2所示描述统计量。表2 描述统计量描述统计量N极小值极大值均值标准差方差住宿业年末从业人数31508029671967554.3557495.5863305742459.303入境过夜游客数量312.543397.90290.0765593.22745351918.812有效的 N (列表状态)31 由表2描述统计量可以看出,全31个数据皆为有效数据,不村在缺失值。两个变量极小值与极大值之间存在极大差距,而且均值与方差相比于数据的极小值存在极大差距,说明原始数据的离散程度较大,且有可能存在异常值。由于数据可能存在各种缺陷,没有可以直接使用的模型,
7、因此运用探索性数据分析的方法对数据进行处理。二、探索性分析(一)入境过夜游客数量1. 茎叶图 如图1所示,可以看出31个地区的入境过夜游客人数的分布相对集中,三分之一的地区平均入境过夜游客在250万和290万之间。有三个异常值远远大于平均值,剩余的三分之二在以50万到80万为峰值的正态分布中。从整体来看,这个批并不对称,但有相对集中的趋势。还需要对这个批进行其他方式的表述。 Frequency Stem & Leaf 4.00 0 . 0002 6.00 0 . 566778 4.00 1 . 1222 2.00 1 . 56 2.00 2 . 03 9.00 2 . 556788889 1.
8、00 3 . 3 .00 3 . .00 4 . 1.00 4 . 5 2.00 Extremes (=614) Stem width: 100.00 Each leaf: 1 case(s)图1 入境过夜游客数量的茎叶图2.五数总括图下图2为入境过夜游客数量的无数总括图,由图形可以看出:相比较于均值290,中位数161更倾向于左偏,因此可以得知有离群的极大值点。而四分展布由75.64到285.98,可知存在大量离群值,为了更直观的表现五数总括的特点,做箱线图。#31游客数量M16161.61F875.64285.9812.543397.9图2 入境过夜游客数量的五数总括图 3.箱线图 如图三
9、所示,数据存在明显的左偏趋势,序号为9尤其是序号为19的变量值极度偏离。出去异常值外,中位数与上下四分位数没有明显的偏向,而四分展布能够基本概括所有的数据。图3 入境过夜过夜游客数量箱线图4.数据变换通过以上分析可知,数据存在异常值,而且是非对称分布。为了能够对数据进行分析,首先应该进行数据变换。对数据进行对数变换,取自然对数,使数据能够消除异常值并适当的对沉调整。由图4调整后的箱线图可以看到:仍然存在异常值,但是箱的位置处于中间,中位数也没有对上四分位数或下四分位数的明显偏向,偏度、展布、与位置均较好。由此可知,对数据进行对数变换,取得的效果较理想。图4 去自然对数的入境过夜游客数量的箱线图
10、 (二)住宿业年末从业人数 1.茎叶图 Frequency Stem & Leaf 3.00 0 . 000 7.00 0 . 2222233 7.00 0 . 4445555 4.00 0 . 6677 5.00 0 . 88899 2.00 1 . 11 .00 1 . 2.00 1 . 45 1.00 Extremes (=296719) Stem width: 100000 Each leaf: 1 case(s)图5 住宿业年末从业人数茎叶图 如图5所示,可以看出31个地区的住宿业年末从业人数的分布相对集中。有2个异常值远远大于平均值,三分之二的地区从业人数在2万到9万之间大致均匀分
11、布。从整体来看,这个批并不对称,但有相对集中的趋势。想要进一步了解,还需要对这个批进行其他方式的表述。 2.五数总括图下图6为入境过夜游客数量的五数总括图,由图形可以看出:相比较于均值67554,中位数56643更倾向于左偏,因此可以得知有离群的极大值点。而四分展布由25202到88799,能够较为稳妥的包含大概三分之一的数据,但是极大值与极小值之间差距显著,因此也可以证明这批数据的方差极大。#31从业人数M1656643F8252028879915080296719图6 住宿业年末从业人数五数总括图 3.箱线图 如图7所示,数据存在明显的左偏趋势,下四分位数的尾部长度大概为上四分位数长度的2
12、倍,可知小数据较集中而大数据叫离散。序号为19的变量值极度偏离。除去异常值外,中位数与上下四分位数没有明显的偏向,而四分展布能够基本概括所有的数据。图7 住宿业年末从业人数箱线图4.数据变换通过以上分析可知,数据存在异常值,而且是非对称分布。为了能够对数据进行分析,首先应该进行数据变换。对数据进行对数变换,取自然对数,使数据能够消除异常值并适当的对称调整。由图7调整后的箱线图可以看到:仍然存在异常值,但不是极大值而是极小值但是箱的位置处于中间,中位数也没有对上四分位数或下四分位数的明显偏向,偏度、展布、与位置均较好。由此可知,对数据进行对数变换,取得的效果较理想。图8 调整后的住宿业年末从业人
13、员的箱线图 三、回归分析(一)回归结果表3 回归分析Dependent Variable: LOG(Y)Included observations: 31VariableCoefficientStd. Errort-StatisticProb.C-9.2906891.695153-5.4807380.0000LOG(X)1.3116880.1566538.3732180.0000R-squared0.707398Mean dependent var4.854761Adjusted R-squared0.697308S.D. dependent var1.415998S.E. of regres
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 探索 数据 分析 全国 过夜 游客 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【胜****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【胜****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。