![点击分享此内容可以赚币 分享](/master/images/share_but.png)
枣品质决策系统-----对枣信息进行分词预处理毕业设计.doc
《枣品质决策系统-----对枣信息进行分词预处理毕业设计.doc》由会员分享,可在线阅读,更多相关《枣品质决策系统-----对枣信息进行分词预处理毕业设计.doc(30页珍藏版)》请在咨信网上搜索。
1、摘要枣因其营养价值高,易种植,耐存活且在不同地域拥有不同特色而成为许多地方特别是山区高原致富之道,但由于技术方面的欠缺使得果农无法用专业知识去评估自己手中果实的品质和正确价值导向,由此带来一系列问题,信息消息的滞后导致农户盲目种植,产品积压,销售停滞。因此就要找到相关途径,知己之道,才能让枣农更快发展富裕起来。由此需求设计了枣品质决策系统,它是依托当前信息的网络化、快速化,使用网络评估果实品质,给出相关建议等服务为前提的综合信息评估服务系统的设计。通过短信接收果农给出的枣信息的初始描述,进行划句分词,得到相应的属性,并反馈给果农及专家。通过枣品质决策系统进行果实评估给出建议,方便即果农专家进行
2、相关工作,又减少成本。缩短果农与专家的距离。在此项目中选择了JavaWeb作为开发语言,用到了面向对象的开发思想和中文分词技术。在接口设计上,实现了数据封装和信息隐藏。关键字:枣品质评估、JavaWeb、中文分词。AbstractDates because of its high nutritional value, easy to grow, resistance to survive and in different regions have different characteristics and become rich in many places, especially in mo
3、untainous plateau, but due to the lack of technology make the fruit cannot use professional knowledge to evaluate the quality of their own hands the fruit and the correct value guidance, leading to a series of problems, information messages delay lead to farmers planting blindly, product backlog, sa
4、les stalled. So will find relevant way, bosom friend, to get the most rich faster development. Thus demand jujube quality decision system is designed, it is relying on the current information network, rapidness, using the network evaluating fruit quality, and provide advice and other services as the
5、 prerequisite of comprehensive assessment information service system design. Through the description of the initial date information is presented in short message receiving fruit, is zoned word segmentation, to get the corresponding attribute, and give feedback to the farmers and experts. Through th
6、e jujube quality decision-making system to evaluate fruit recommendations, namely fruit experts for a related work, and reduce costs. Shorten the distance of growers and experts.In this project we select JavaWeb as a development language, use the object-oriented development thought and the design co
7、ncept of the MVC design pattern. In the interface design, realized the data encapsulation and information hiding.Keywords: Jujube quality assessment , JavaWeb, Chinese Word Segmentation.目录1.引言31.1背景和意义31.1.1 背景31.1.2 意义31.2 国内的现状31.3本文的重点52.技术支持62.1开发工具和环境62.1.1开发环境62.1.2开发软件62.1.3系统环境配置62.2 JSP技术62
8、.2.1 JSP介绍62.2.2 JSP技术开放的技术72.2.3 JSP的技术优势72.3 Servlet技术82.4 Tomcat服务器82.4 中文分词技术93.需求分析与概要设计113.1需求分析113.1.1 设计思想113.1.2功能需求113.2概要设计113.2.1 系统总体分析113.2.2系统模块划分113.2.3按模块分总体设计123.2.4按各模块间关系134.详细设计及实现144.1设计说明144.2数据结构设计144.2.1数据库的选择144.2.2数据结构144.3 中文分词流程164.3.2基础模块流程164.3.2模块流程图174.3.3算法流程图184.4中
9、文分词实现194.4.1系统设计模式194.4.2词典设计204.4.3 分词设计224.4.5 后台包及设计244.4.6异常处理244.4.7出现的问题以及解决方法245结论255.1技术特点255.2缺点及不足255.4总结25致谢26参考文献271.引言本系统是面向专家和农户,基于中小型数据库数据挖掘工具。它基于语言开发,不但操作简单,界面友好,易于操作,实用性强;同时还能够跨平台运行。1.1背景和意义1.1.1 背景枣本身的功能价值赋予的,枣的补血、美容、保健、营养、抗癌、抗疲劳、镇静、护发、降脂、降糖、养生等等效果符合现代人追求的时尚要素国务院总理温家宝3月5日在十二届全国人大一次
10、会议上作政府工作报告时提出,要促进农业稳定发展和农民持续增收。坚持把解决好“三农”问题作为各项工作的重中之重。党的十六大以来,党中央明确要把解决好“三农”问题放在全党工作重中之重的位置,着力统筹城乡经济社会发展,加快形成城乡发展一体化新格局。党的十八大从中国特色社会主义事业总体布局出发,推出了“促进工业化、信息化、城镇化、农业现代化同步发展”,明确“城乡发展一体化”是解决“三农”问题的根本途径。随着计算机技术和网络技术的迅速崛起,计算机日渐深刻的在改变着人们的生产生活方式。而互联网已日益成为收集提供信息的最佳渠道,并逐步进入科学种植决策领域。1.1.2 意义枣树的种植区域地理环境和人文环境特征
11、赋予的,枣树的种植不仅仅有它的经济意义,更有重要的环境意义和社会价值,枣树种植的区域主要分布在我过干旱、半干旱、风沙荒漠化和土地盐碱化的区域,枣树的种植可以极大的改善这些区域的生态环境,符合人类与自然和谐相处的命题,同时这些区域主要为中国经济发展相对滞后的区域,是我国改善这些区域人民生活环境、提高他们生活水平,增加收入来源的重要抓手,对于缩小区域经济差异,促进经济和谐发展有着重要意义。1.2 国内的现状随着计算机网络的飞速普及,人们已经进入了信息时代。在这个信息社会里,信息的重要性与日俱增,无论是个人,企业,乃至政府都需要获取大量有用的信息。谁掌握了信息,谁就能在竞争中处于有利位置。在这种环境
12、下,搜索引擎技术逐渐成为技术人员的开发热点,而其中最为重要的技术就是分词技术。分词技术属于自然语言理解技术的范畴,是语义理解的首要环节,它是能将语句中的词语正确切分开的一种技术。它是文本分类, 信息检索,机器翻译,自动标引,文本的语音输入输出等领域的基础。而由于中文本身的复杂性及其书写习惯,使中文分词技术成为了分词技术中的难点。近年来人们对中文分词技术有了一定的研究提出了多种多样的中文分词算法。目前的中文分词算法主要分为三大类:基于词典的方法,基于统计的方法和基于规则的方法。由于中文分词的三种基本算法,都有其各自的优缺点,所以为了能够达到更好的分词效果,人们开始有目的的把分词的几种基本算法以及
13、其他知识结合起来,这就形成了现在日新月异的混合型分词算法。(1) 吴建胜等提出的基于自动机的分词方法,这种算法的基本思想是:在数据结构方面,把词典组织成自动机形式,在匹配算法上采用最大向前匹配算法,把二者有机的结合到一起,以达到更好的分词效果。(2)赵伟等提出的一种规则与统计相结合的汉语分词方法,这种分词算法的基本思想是:基于一个标注好了的语料库,并且结合了规则和语料库统计两种分词方法。(3)张长利等提出的一种基于后缀数组的无词典分词方法,这种分词算法的基本思想是:通过后缀数组和利用散列表获得汉字的结合模式,通过置信度筛选词,能够快速准确地抽取文档中的中、高频词,适用于对词条频度敏感、对计算速
14、度要求高的中文信息处理。(4)孙晓等提出的基于动态规划的最小代价路径汉语自动分词方法,这种分词算法的基本思想是:基于最长次长匹配的方法建立汉语切分路径有向图,将汉语自动分词转换为在有向图中选择正确的切分路径,其中有向图中的节点代价对应单词频度,而边代价对应所连接的两个单词的接续频度;运用改进后Dijkstra最小代价路径算法,求出有向图中路径代价最小的切分路径作为切分结果。混合型分词算法多种多样,所结合的知识点也有很多,可以结合数据结构知识来形成新的词典机制;也可以结合标记语料库的方法更好的完善分词算法。显而易见,混合型分词算法在大多数方面要优于基本型分词算法。它将成为今后分词算法研究中的一个
15、热点。 由于中文词与词之间不象西文那样有明显的分隔符,所以构成了中文在自动切分上的极大困难。在现有的中文自动分词方法中,基于词典的分词方法占有主导地位。而中文分词的主要困难不在于词典中词条的匹配,而是在于切分歧义消解和未登录词语的识别。在中文分词过程中,这两大难题一直没有完全突破。(1)歧义处理歧义是指同样的一句话,可能有两种或者更多的切分方法。目前主要分为交集型歧义、组合型歧义和真歧义三种。其中交集型歧义字段数量庞大,处理方法多样;组合型歧义字段数量较少,处理起来相对较难;而真歧义字段数量更为稀少,且很难处理。分词歧义处理之所以是中文分词的困难之一原因在于歧义分为多种类型,针对不同的歧义类型
16、应采取不同的解决方法。除了需要依靠上、下文语义信息;增加语义、语用知识等外部条件外,还存在难以消解的真歧义,增加了歧义切分的难度。同时未登录词中也存在着歧义切分的问题,这也增加了歧义切分的难度。所以歧义处理是影响分词系统切分精度的重要因素,是自动分词系统设计中的一个最困难也是最核心的问题。(2)未登录词识别新词,专业术语称为未登录词。也就是那些在字典中都没有收录过词。未登录词可以分为专名和非专名两大类。其中专名包括中国人名、外国译名、地名等,而非专名包括新词、简称、方言词语、文言词语、行业用词等。无论是专名还是非专名的未登录词都很难处理,因为其数量庞大,又没有相应的规范,而且随着社会生活的变迁
17、,使未登录词的数量大大增加,这又为未登录词的识别增加了难度。因此,未登录词识别是中文分词的另一大难点。1.3本文的重点叙述如何使用中文分词技术实现对枣信息的划分,并得出相应的属性。2.技术支持2.1开发工具和环境2.1.1开发环境主机操作系统: WINDOWS2007、windowsXP2.1.2开发软件JDK1.6级以上版本 集成开发环境:Myeclipse 数据库:SQL SEVVER 2008.Web应用服务器:Tomcat 6.0级以上版本2.1.3系统环境配置使用进java环境下开发程序,必须在电脑中安装jdk和tomcat,并配置系统环境变量,一边程序正常运行。系统所处环境变量设置
18、如下:Set java_home c: JDK 1.6.0Set Catalina_home D: Apache-tomcat-6.0.18Set CLASSPATH %java_home%lib;%java_home%libtools.jar;C:Program Files (x86)Set sql path Microsoft SQL Serverjdbc driversqljdbc_3.0chssqljdbc.jar.;%java_home%libtool.jar;%java_home%libdt.jar;%catalina_home%libjsp-api.jar;%catalina_h
19、ome%libservlet-api.jar;2.2 JSP技术2.2.1 JSP介绍JSP技术使用Java编程语言编写类XML的tags和scriptlets,来封装产生动态网页的处理逻辑。网页还能通过tags和scriptlets访问存在于服务端的资源的应用逻辑。JSP将网页逻辑与网页设计和显示分离,支持可重用的基于组件的设计,使基于Web的应用程序的开发变得迅速和容易。Web服务器在遇到访问JSP网页的请求时,首先执行其中的程序段,然后将执行结果连同JSP文件中的HTML代码一起返回给客户。插入的Java程序段可以操作数据库、重新定向网页等,以实现建立动态网页所需要的功能。JSP与Jav
20、a Servlet一样,是在服务器端执行的,通常返回给客户端的就是一个HTML文本,因此客户端只要有浏览器就能浏览。2.2.2 JSP技术开放的技术、平台和服务器的独立性JSP技术只要写入后编译一次,之后,可以运行在任何具有支持Java开发环境中运行的。2、Jsp开放的原代码 JSP技术是由SUN应用JAVA团队性过程开发。Apache,Sun和许多其他公司个人公开成立一个强大的咨询机构以便任何企业公司和个人都能得到免费的代码和信息。3、技术开发方面JSP和ASP从技术方面都能使编程人员实现通添加网页的组件制作交互式的动态内容和应用程序的WEB节点实现超链接网页。而ASP只支持组件对象模型CO
21、M,但是JSP能提供的组件都是基于JavabeansTM技术或JSP标签库等技术。2.2.3 JSP的技术优势(1)只要编译一次,就能在其他环境中运行。比其他语言优秀更。(2)用JSP做的系统的可以再跨平台运行。基本上可以在所有平台上的任意环境中开发,在任意环境中进行系统部署,在任意环境中扩展。相比ASP等语言的局限性是显而易见的。 (3)强大的嵌入性。很多jar文件就可以运行Servlet/JSP,比如servlet-api.jar、catalina.jar等,可以处理很多对象信息比如application对象还有response对象,显示了一个巨大的适应性。 (4)开发工具强大。有Java
22、和tomcat等强大的开发工具,因为Java开发工具强大可以看出jsp据用强大的生命力,强大的后台语言技术开发工具支持。动态HTML页MySql服务器Tomcat服务JSPJava Bean实体类图2-1 jsp模式图2.3 Servlet技术Servlet是一种服务器端的Java应用程序,具有独立于平台和协议的特性,可以生成动态的Web页面。 它担当客户请求(Web浏览器或其他HTTP客户程序)与服务器响应(HTTP服务器上的数据库或应用程序)的中间层。Servlet是位于Web 服务器内部的服务器端的Java应用程序,与传统的从命令行启动的Java应用程序不同,Servlet由Web服务器
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 品质 决策 系统 信息 进行 分词 预处理 毕业设计
![提示](https://www.zixin.com.cn/images/bang_tan.gif)
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【可****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【可****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。