数据分析师笔试题目.doc
《数据分析师笔试题目.doc》由会员分享,可在线阅读,更多相关《数据分析师笔试题目.doc(17页珍藏版)》请在咨信网上搜索。
1、网易数据分析专员笔试题目一、基础题1、中国现在有多少亿网民?2、百度花多少亿美元收购了91无线?3、app store排名的规则和影响因素4、豆瓣fm推荐算法5、列举5个数据分析的博客或网站二、计算题1、关于简单移动平均和加权移动平均计算2、两行数计算相关系数。(2位小数,还不让用计算器,反正我没算)3、计算三个距离,欧几里德,曼哈顿,闵可夫斯基距离三、简答题1、离散的指标,优缺点2、插补缺失值方法,优缺点及适用环境3、数据仓库解决方案,优缺点4、分类算法,优缺点5、协同推荐系统和基于聚类系统的区别四、分析题关于网易邮箱用户流失的定义,挑选指标。然后要构建一个预警模型。五、算法题记不得了,没做
2、。反正是决策树和神经网络相关。1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。2、告诉我二个分析或者计算机科学相关项目?你是如何对其结果进行衡量的?3、什么是:提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则?4、什么是:协同过滤、n-grams, map reduce、余弦距离?5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库?6、如何设计一个解决抄袭的方案?7、如何检验一个个人支付账户都多个人使用?8、点击流数据应该是实时处理?为什么?哪部分应该实时处理?9、你认为哪个更好:是好的数据还是好模型?同时你是如何定义“好”?存在所有
3、情况下通用的模型吗?有你没有知道一些模型的定义并不是那么好?10、什么是概率合并(AKA模糊融合)?使用SQL处理还是其它语言方便?对于处理半结构化的数据你会选择使用哪种语言?11、你是如何处理缺少数据的?你推荐使用什么样的处理技术?12、你最喜欢的编程语言是什么?为什么?13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。14、SAS, R, Python, Perl语言的区别是?15、什么是大数据的诅咒?16、你参与过数据库与数据模型的设计吗?17、你是否参与过仪表盘的设计及指标选择?你对于商业智能和报表工具有什么想法?18、你喜欢TD数据库的什么特征?19、如何你打算发100万的营
4、销活动邮件。你怎么去优化发送?你怎么优化反应率?能把这二个优化份开吗?20、如果有几个客户查询ORACLE数据库的效率很低。为什么?你做什么可以提高速度10倍以上,同时可以更好处理大数量输出?21、如何把非结构化的数据转换成结构化的数据?这是否真的有必要做这样的转换?把数据存成平面文本文件是否比存成关系数据库更好?22、什么是哈希表碰撞攻击?怎么避免?发生的频率是多少?23、如何判别mapreduce过程有好的负载均衡?什么是负载均衡?24、请举例说明mapreduce是如何工作的?在什么应用场景下工作的很好?云的安全问题有哪些?25、(在内存满足的情况下)你认为是100个小的哈希表好还是一个
5、大的哈希表,对于内在或者运行速度来说?对于数据库分析的评价?26、为什么朴素贝叶斯差?你如何使用朴素贝叶斯来改进爬虫检验算法?27、你处理过白名单吗?主要的规则?(在欺诈或者爬行检验的情况下)28、什么是星型模型?什么是查询表?29、你可以使用excel建立逻辑回归模型吗?如何可以,说明一下建立过程?30、在SQL, Perl, C+, Python等编程过程上,待为了提升速度优化过相关代码或者算法吗?如何及提升多少?31、使用5天完成90%的精度的解决方案还是花10天完成100%的精度的解决方案?取决于什么内容?32、定义:QA(质量保障)、六西格玛、实验设计。好的与坏的实验设计能否举个案例
6、?33、普通线性回归模型的缺陷是什么?你知道的其它回归模型吗?34、你认为叶数小于50的决策树是否比大的好?为什么?35、保险精算是否是统计学的一个分支?如果不是,为何如何?36、给出一个不符合高斯分布与不符合对数正态分布的数据案例。给出一个分布非常混乱的数案例。37、为什么说均方误差不是一个衡量模型的好指标?你建议用哪个指标替代?38、你如何证明你带来的算法改进是真的有效的与不做任何改变相比?你对A/B测试熟吗?39、什么是敏感性分析?拥有更低的敏感性(也就是说更好的强壮性)和低的预测能力还是正好相反好?你如何使用交叉验证?你对于在数据集中插入噪声数据从而来检验模型的敏感性的想法如何看?40
7、、对于一下逻辑回归、决策树、神经网络。在过去15年中这些技术做了哪些大的改进?41、除了主成分分析外你还使用其它数据降维技术吗?你怎么想逐步回归?你熟悉的逐步回归技术有哪些?什么时候完整的数据要比降维的数据或者样本好?42、你如何建议一个非参数置信区间?43、你熟悉极值理论、蒙特卡罗逻辑或者其它数理统计方法以正确的评估一个稀疏事件的发生概率?44、什么是归因分析?如何识别归因与相关系数?举例。45、如何定义与衡量一个指标的预测能力?46、如何为欺诈检验得分技术发现最好的规则集?你如何处理规则冗余、规则发现和二者的本质问题?一个规则集的近似解决方案是否可行?如何寻找一个可行的近似方案?你如何决定
8、这个解决方案足够好从而可以停止寻找另一个更好的?47、如何创建一个关键字分类?48、什么是僵尸网络?如何进行检测?49、你有使用过API接口的经验吗?什么样的API?是谷歌还是亚马逊还是软件即时服务?50、什么时候自己编号代码比使用数据科学者开发好的软件包更好?51、可视化使用什么工具?在作图方面,你如何评价Tableau?R?SAS?在一个图中有效展现五个维度?52、什么是概念验证?53、你主要与什么样的客户共事:内部、外部、销售部门/财务部门/市场部门/IT部门的人?有咨询经验吗?与供应商打过交道,包括供应商选择与测试。54、你熟悉软件生命周期吗?及IT项目的生命周期,从收入需求到项目维护
9、?55、什么是cron任务?56、你是一个独身的编码人员?还是一个开发人员?或者是一个设计人员?57、是假阳性好还是假阴性好?58、你熟悉价格优化、价格弹性、存货管理、竞争智能吗?分别给案例。59、Zillows算法是如何工作的?60、如何检验为了不好的目的还进行的虚假评论或者虚假的FB帐户?61、你如何创建一个新的匿名数字帐户?62、你有没有想过自己创业?是什么样的想法?63、你认为帐号与密码输入的登录框会消失吗?它将会被什么替代?64、你用过时间序列模型吗?时滞的相关性?相关图?光谱分析?信号处理与过滤技术?在什么样的场景下?65、哪位数据科学有你最佩服?从哪开始?66、你是怎么开始对数据
10、科学感兴趣的?67、什么是效率曲线?他们的缺陷是什么,你如何克服这些缺陷?68、什么是推荐引擎?它是如何工作的?69、什么是精密测试?如何及什么时候模拟可以帮忙我们不使用精密测试?70、你认为怎么才能成为一个好的数据科学家?71、你认为数据科学家是一个艺术家还是科学家?72、什么是一个好的、快速的聚类算法的的计算复杂度?什么好的聚类算法?你怎么决定一个聚类的聚数?73、给出一些在数据科学中“最佳实践的案例”。74、什么让一个图形使人产生误解、很难去读懂或者解释?一个有用的图形的特征?75、你知道使用在统计或者计算科学中的“经验法则”吗?或者在商业分析中。76、你觉得下一个20年最好的5个预测方
11、法是?77、你怎么马上就知道在一篇文章中(比如报纸)发表的统计数字是错误,或者是用作支撑作者的论点,而不是仅仅在罗列某个事物的信息?例如,对于每月官方定期在媒体公开发布的失业统计数据,你有什么感想?怎样可以让这些数据更加准确?从阿里数据分析师笔试看职业要求以下试题是来自阿里巴巴招募实习生的一次笔试题,从笔试题的几个要求我们一起来看看数据分析的职业要求。一、异常值是指什么?请列举1种识别连续型变量异常值的方法?异常值(Outlier) 是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。Grubbs test(是以Fran
12、k E. Grubbs命名的),又叫maximum normed residual test,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。未知总体标准差,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。点评:考察的内容是统计学基础功底。二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。 聚类分析也叫分类分析(classification analysis)或数值分类(numerica
13、l taxonomy)。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析计算方法主要有: 层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。其中,前两种算法是利用统计学定义的距离进行度量。k-means 算法的工作过程说明如下:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配
14、给与其最相似的(聚类中心所代表的)聚类;然 后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。其流程如下:(1)从 n个数据对象任意选择 k 个对象作为初始聚类中心;(2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;(3)重新计算每个(有变化)聚类的均值(中心对象);(4)循环(2)、(3)直到每个聚类不再发生变化为止(标准测量函数收敛)。优点:本算法确定的K 个划分到
15、达平方误差最小。当聚类是密集的,且类与类之间区别明显时,效果较好。对于处理大数据集,这个算法是相对可伸缩和高效的,计算的复杂度为 O(NKt),其中N是数据对象的数目,t是迭代的次数。一般来说,KN,tN 。缺点:1. K 是事先给定的,但非常难以选定;2. 初始聚类中心的选择对聚类结果有较大的影响。点评:考察的内容是常用数据分析方法,做数据分析一定要理解数据分析算法、应用场景、使用过程、以及优缺点。三、根据要求写出SQL表A结构如下:Member_ID(用户的ID,字符型)Log_time(用户访问页面时间,日期型(只有一天的数据)URL(访问的页面地址,字符型)要求:提取出每个用户访问的第
16、一个URL(按时间最早),形成一个新表(新表名为B,表结构和表A一致)createtable B asselectMember_ID, min(Log_time), URL from Agroup byMember_ID ;点评:SQL语句,简单的数据获取能力,包括表查询、关联、汇总、函数等。四、销售数据分析以下是一家B2C电子商务网站的一周销售数据,该网站主要用户群是办公室女性,销售额主要集中在5种产品上,如果你是这家公司的分析师,a) 从数据中,你看到了什么问题?你觉得背后的原因是什么?b) 如果你的老板要求你提出一个运营改进计划,你会怎么做?表如下:一组每天某网站的销售数据a) 从这一周
17、的数据可以看出,周末的销售额明显偏低。这其中的原因,可以从两个角度来看:站在消费者的角度,周末可能不用上班,因而也没有购买该产品的欲望;站在产品的角度来看,该产品不能在周末的时候引起消费者足够的注意力。b) 针对该问题背后的两方面原因,我的运营改进计划也分两方面:一是,针对消费者周末没有购买欲望的心理,进行引导提醒消费者周末就应该准备好该产品;二是,通过该产品的一些类似于打折促销等活动来提升该产品在周末的人气和购买力。点评:数据解读能力,获取数据是基本功,仅仅有数据获取能力是不够的,其次是对数据的解读能力。五、用户调研某公司针对A、B、C三类客户,提出了一种统一的改进计划,用于提升客户的周消费
18、次数,需要你来制定一个事前试验方案,来支持决策,请你思考下列问题:a) 试验需要为决策提供什么样的信息?c) 按照上述目的,请写出你的数据抽样方法、需要采集的数据指标项,以及你选择的统计方法。a) 试验要能证明该改进计划能显著提升A、B、C三类客户的周消费次数。b) 根据三类客户的数量,采用分层比例抽样;需要采集的数据指标项有:客户类别,改进计划前周消费次数,改进计划后周消费次数;选用统计方法为:分别针对A、B、C三类客户,进行改进前和后的周消费次数的,两独立样本T-检验(two-sample t-test)。点评:业务理解能力和数据分析思路,这是数据分析的核心竞争力。综上所述:一个合格的数据
19、分析应该具备统计学基础知识、数据分析方法、数据获取、数据解读和业务理解、数据分析思想几个方面能力,即将成为数据分析师的亲们,你们准备好了吗?2 、从腾讯(数据挖掘方向)笔试题目看技术储备笔试内容:1.二叉树遍历:已知中序遍历顺序以及前序遍历顺序,求后序遍历顺序2.SQL语句: 找出QQset中最小的QQ号码3.encodeURI&URL传播的转义结果4.36辆车,6条跑道,无计时器,最少几次比赛可以选出前三5.Windows/Linux下判断远程地址为某主机监听的某端口是都开放的命令是?6.html 网站cookie7.cookie功能8.哈希冲突9.哪些http方法对于服务端和用户是安全的1
20、0.二维数组内存地址计算11.附加题:推导线性最小二乘法过程12.附加题:概率计算(这个相当简单啦)13.模型过拟合与哪些因素有关,写出理由3 、从百度(数据挖掘工程师)笔试题目看技术储备一. 简答题1. new 和 malloc 的区别。2. hash冲突是指什么?怎么解决?给两种方法,写出过程和优缺点。3. 命中的概率是 0.25,若要至少命中一次的概率不小于 0.75,则至少需要几次?二. 算法设计题1. 用C/C+写一个归并排序。数据结构为struct Nodeint v; Node *next;接口为 Node * merge_sort(Node *);2. 设计S型层次遍历树的算法
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 笔试 题目
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【快乐****生活】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【快乐****生活】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。