分享
分销 收藏 举报 申诉 / 10
播放页_导航下方通栏广告

类型利用数据挖掘技术-做好档案编研选题.docx

  • 上传人:快乐****生活
  • 文档编号:3843591
  • 上传时间:2024-07-22
  • 格式:DOCX
  • 页数:10
  • 大小:12.91KB
  • 下载积分:8 金币
  • 播放页_非在线预览资源立即下载上方广告
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    利用 数据 挖掘 技术 做好 档案 选题
    资源描述:
    利用数据挖掘技术 做好档案编研选题     随着计算机技术和信息技术的发展,信息产生的渠道越来越多,信息更新的频率日益加快,在“数据过剩”和“信息爆炸”的同时,人们正被信息淹没,却饥渴于有用信息的提取。面对浩渺无际的数据海洋,人们迫切需要一种能够从海量的数据中提取有价值知识和信息的技术,基于人工智能的数据挖掘技术便应运而生,并被广泛应用。   一、数据挖掘技术   1、数据挖掘   所谓数据挖掘(Data Mining,简称DM),是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。数据挖掘是数据库知识发现(KnowledgeDicoveryinDtabases,简称KDD)中的重要技术,它通过对查询内容进行模式的总结和内在规律的搜索,帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为,从而为决策行为提供有利的支持,很多人又将其称为数据淘金。   数据挖掘是面向数值数据的挖掘,其功能主要有:(1)自动预测趋势和行为。数据挖掘自动在大型数据中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。(2)关联分析。数据关联是数据库中存在的一类重要的可被发现的知识,若两个或多个变量的取值之间存在某种规律性,就称为关联。关联分析的目的是找出数据库中隐藏的关联网。(3)聚类。数据库中的记录可被划分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。(4)概念描述。概念描述就是对某对象的内涵进行描述,并概括这类对象的有关特征,分为特征性描述和区别性描述。(5)偏差检测。数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。   2、Web挖掘   Web挖掘是一项综合技术,涉及Web、数据挖掘、计算机语言学、信息学等多个领域。Web挖掘就是从Web文档、Web活动中抽取感兴趣的、潜在的有用模式和隐藏信息。它反复使用多种数据挖掘算法,从观测数据中确定模式或合理模型,也是将数据挖掘技术和理论应用于对Web资源进行挖掘的一个新兴的研究领域。Web挖掘的处理流程为查找资源、信息选择和预处理、模式发现、模式分析。   Web挖掘可以分为三类0:(1)Web内容挖掘。Web内容挖掘是从文档内容或其描述中抽取知识的过程。Web内容挖掘有两种策略:一种是直接挖掘文件的内容,另一种是在其他工具搜索的基础上进行改进。(2)Web结构挖掘。Web结构挖掘是从Web的组织结构和链接关系中推导知识。由于文档之间的互连Web能够提供除文档内容之外的有用信息,利用这些信息,可以对页面进行排序发现重要页面。(3)Web使用记录的挖掘。Web使用挖掘就是对用户访问Web时在服务器留下的访问记录进行挖掘,其主要目标是从Web的访问记录中抽取感兴趣的模式。Web中每个服务器保留了访问日志,记录关于用户访问和交互的信息。分析这些数据可以帮助理解用户的行为从而改进站点的结构,或为用户提供个性化的服务。   二、数据挖掘技术在档案编研选题中的应用   选题是依据编纂的材料基础和用户的利用需求来确定编纂题目的工作。在数据挖掘技术出现之前,档案编研部门要了解社会用户对档案文献信息的现实的与潜在的需求,只有通过用户抽样调查或者借阅数据的抽样统计来进行,既费时费力,也分析的不够全面具体。有了数据挖掘技术以后,可以利用档案馆的信息管理系统中的用户借阅数据进行分析统计,可以利用用户经常访问的网页进行分析、挖掘,了解到用户的兴趣爱好、研究方向,预测用户需求,从而确定档案编研的选题。   1、用户利用档案的数据挖掘   档案用户需求调研是档案编研选题成功与否的关键因素之一。它是指通过一定的方式与方法,在深入调查、掌握档案用户利用需求情况的基础上,揭示各类用户的需求特点与规律的一项业务活动。一般而言,档案馆在日常的档案利用服务中所积累的利用统计数据,可比较准确地揭示某一时期社会档案信息需求的动向。   档案利用统计的具体指标主要包括档案调卷数量、档案利用次数、复制档案数量、制发档案证明数量等。数据挖掘自动在档案馆的信息数据库中寻找用户利用档案的所有数据,对搜集到的数据进行聚类,利用聚类结果对不同的用户赋以不同的类标记,然后利用分类功能,对用户特征进行建模,挖掘出不同类的用户的不同特征。档案编研部门可以针对不同用户提供个性化服务,按需确定不同类型的编研题目。只有这样,档案编研选题才能贴近社会、贴近公众,编研产品才会被广大用户所认可和欢迎,档案编研的效果与价值才能真正的以用户利用的效益方式体现出来。   2、用户访问记录的Web使用挖掘   由于网络速度和计算机软硬件处理能力的大大提高,使得服务器可以在档案用户访问网站的同时记录用户访问信息。具体做法是:在档案馆网页设计时,对各链接对象进行设置,当用户访问该链接对象时,系统自动将用户的信息和访问对象的信息实时传递到服务器端的用户访问记录文件中,然后结合历史数据和客户实时访问的信息进行数据挖掘,采用分析网页关键字、下载记录、检索词、用户对网页利用时间和频度等方式获取用户需求信息。   用户使用记录挖掘主要是对服务器日志、Cookie、用户注册数据、电子邮件查询响应数据及Web购买数据的挖掘。目前,使用记录挖掘可分为两大类:访问模式的追踪和个性化使用记录的追踪。其中个性化的使用记录追踪倾向于分析个别用户的偏好,其目的是根据不同用户的访问模式,提供相应的定制服务。档案编研部门通过对用户访问记录的挖掘,在数字对象和用户、对象分类和主题之间进行模式匹配,采用不同挖掘技术如基于业务聚类、使用聚类和联合规则来自动提取信息,通过数据分析,了解和掌握档案用户需求的特点,预测其未来趋向,结合社会热点选定档案编研题目。   3、建立档案编研选题的用户模型   (1)问题定义   问题定义是数据挖掘中的第一步,也是最重要的的一步,即对挖掘的目标作一个清楚的定义。具体来说,就是通过分析档案馆服务器的日志数据、用户检索结果等,来挖掘出档案用户的使用模式和兴趣模式,从而使档案编研部门可以利用这些搜集到的信息有针对性地、有目的性地组织选题,进行编研工作,推出用户满意的编研成果。这样即可以有效地克服出版发行者的盲目性,改变目前存在的某种程度的供需失调的状况,真正根据用户的需求来出版档案文献编纂成果,从而避免了因为不了解社会的实际需要而造成的过量出版和需求短缺。   (2)建立挖掘数据库   挖掘数据库是一个储存待挖掘数据的数据库。档案馆的服务器日志数据和档案用户的注册信息等,都是挖掘数据库的数据源。在数据写人挖掘数据库前,要先对数据源的数据进行筛选和整合,包括修改错误的记录、删除不相关的记录等;通过处理后的数据就成为挖掘的数据了。同时,数据库的数据需要不断地进行新增、修改和删除,以求得到更好的数据效果。   (3)分析数据   在挖掘数据库建立之后,就要对数据库中的数据进行分析处理:首先根据档案用户ID划分数据,找到每个用户的访问记录集;然后将该用户的访问记录集以一个固定的时间间隔进行分割,找到该用户的每一次访问记录集(我们称这个每一次访问记录集为一个“访问事务”);最后,将所有的访问事务按时间排序,构成进行挖掘的事务集。每一个访问事务相当于访问者对站点的一条访问路径。另外,还需把网页中的文本、图片及其他文件转换成数据挖掘算法的可用形式。   (4)建立模型   建立模型之前需要进行数据准备工作,包括选择预测变量、记录,创建新变量和转换变量。选择适当的变量和记录能大大提高模型的建立效率。在多数情况下,我们还需创建一些新的预测变量(比如一些比值),以增加预测模型的准确性;根据选择的算法和工具需对变量进行转换。在数据挖掘中采用比较多的算法主要有神经网络和决策数算法。   建立模型是个反复寻求最佳模型的过程。我们把挖掘数据库分成两部分:一部分用来进行模型训练,另一部分用来测试模型。我们首先利用训练集建立一个用户模型,然后用测试集对模型进行测试;根据测试结果,对训练数据进行一些修改或新建预测变量,再生成新的用户模型。建立新的用户模型可以使用与上次一样的算法,也可以取用其他算法建模。最后,从建立的几个用户模型中选择一个最有效的模型。   (5)评价和解释   档案用户模型建好后,需评价其实用性和有效性,解释其价值。我们可从原始信息数据库中拿出一定百分比的数据作为测试数据,对建立的模型进行测试。通过对模型给出的结果和原始数据信息进行比较,测量出模型的准确率。若准确率高于既定的标准,就认为这个模型是有效的;若低于既定标准,则需找出错误原因,并重新进行挖掘。
    展开阅读全文
    提示  咨信网温馨提示:
    1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
    3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
    4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
    5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
    6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

    开通VIP折扣优惠下载文档

    自信AI创作助手
    关于本文
    本文标题:利用数据挖掘技术-做好档案编研选题.docx
    链接地址:https://www.zixin.com.cn/doc/3843591.html
    页脚通栏广告

    Copyright ©2010-2026   All Rights Reserved  宁波自信网络信息技术有限公司 版权所有   |  客服电话:0574-28810668    微信客服:咨信网客服    投诉电话:18658249818   

    违法和不良信息举报邮箱:help@zixin.com.cn    文档合作和网站合作邮箱:fuwu@zixin.com.cn    意见反馈和侵权处理邮箱:1219186828@qq.com   | 证照中心

    12321jubao.png12321网络举报中心 电话:010-12321  jubao.png中国互联网举报中心 电话:12377   gongan.png浙公网安备33021202000488号  icp.png浙ICP备2021020529号-1 浙B2-20240490   


    关注我们 :微信公众号  抖音  微博  LOFTER               

    自信网络  |  ZixinNetwork