生活中的数学创新项目市公开课一等奖百校联赛特等奖课件.pptx
《生活中的数学创新项目市公开课一等奖百校联赛特等奖课件.pptx》由会员分享,可在线阅读,更多相关《生活中的数学创新项目市公开课一等奖百校联赛特等奖课件.pptx(58页珍藏版)》请在咨信网上搜索。
1、生活中数学创新项目汇报人孙振龙7月10日第1页生活衣食住行第2页生活衣食住行网络(信息)网络(信息)第3页理科文科第4页创新?创新?第5页第6页问题:用尽可能简单知识和方法来分析挖掘文本,进而找出有用信息关联问题:用尽可能简单知识和方法来分析挖掘文本,进而找出有用信息关联现况:传统词库,语义分析等现况:传统词库,语义分析等第7页已结婚和还未结婚青年都要实施计划生育已结婚和还未结婚青年都要实施计划生育已结婚和还未结婚青年已结婚和尚未结婚青年第8页现现在在很很多多语语言言模模型型已已经经能能比比较较漂漂亮亮地地处处理理这这一一问问题题了了。但但在在汉汉字字分分词词领领域域里里,还还有有一一个个比比
2、分分词词歧歧义义更更令令人人头头疼疼东东西西未未登登录录词词。汉汉字字没没有有首首字字母母大大写写,专专名名号号也也被被取取消消了了,这这叫叫计计算算机机怎怎样样识识别别人人名名地地名名之之类类东东西西?更更惨惨则则是是机机构构名名、品品牌牌名名、专专业业名名词词、缩缩略略语语、网网络络新新词词等等等等,它它们们产产生生机机制制似似乎乎完完全全无无规规律律可可寻寻。最最近近十十年年来来,汉汉字字分分词词领领域域都都在在集集中中攻攻克这一难关。自动发觉新词成为了关键步骤。克这一难关。自动发觉新词成为了关键步骤。第9页挖挖掘掘新新词词传传统统方方法法是是,先先对对文文本本进进行行分分词词,然然后后
3、猜猜测测未未能能成成功功匹匹配配剩剩下下片片段段就就是是新新词词。这这似似乎乎陷陷入入了了一一个个怪怪圈圈:分分词词准准确确性性本本身身就就依依赖赖于于词词库库完整性,假如词库中根本没有新词,我们又怎么能信任分词结果呢?完整性,假如词库中根本没有新词,我们又怎么能信任分词结果呢?不不依依赖赖于于任任何何已已经经有有词词库库,仅仅仅仅依依据据词词共共同同特特征征,将将一一段段大大规规模模语语料料中中可可能能成成词词文文本本片片段段全全部部提提取取出出来来,不不论论它它是是新新词词还还是是旧旧词词。然然后后,再再把把全部抽出来词和已经有词库进行比较,找出新词。全部抽出来词和已经有词库进行比较,找出
4、新词。第10页怎样算一个词?怎样算一个词?第11页标准标准?文本片段出现次数是否足够多。数据源:人人网年12月前半个月部分用户状态“电影”出现了389次,“电影院”只出现了175次第12页标准标准1词内部凝固程度。数据源:人人网年12月前半个月部分用户状态2400万字数据中,“电影”一共出现了2774次,出现概率约为0.000113。“院”字则出现了4797次,出现概率约为0.0001969。假如二者之间真毫无关系,它们恰好拼在了一起概率就应该是0.0001130.0001969,约为2.22310-8次方。但实际上,“电影院”在语料中一共出现了175次,出现概率约为7.18310-6次方,是
5、预测值300多倍。第13页标准标准1词内部凝固程度。数据源:人人网年12月前半个月部分用户状态类似地,统计可得“”字出现概率约为0.0166,因而“”和“电影”随机组合到了一起理论概率值为0.01660.000113,约为1.87510-6,这与“电影”出现真实概率很靠近真实概率约为1.610-5次方,是预测值8.5倍。计算结果表明,“电影院”更可能是一个有意义搭配,而“电影”则更像是“”和“电影”这两个成份偶然拼到一起。第14页作为一个无知识库抽词程序,我们并不知道“电影院”是“电影”加“院”得来,也并不知道“电影”是“”加上“电影”得来。错误切分方法会过高地预计该片段凝合程度。假如我们把“
6、电影院”看作是“电”加“影院”所得,由此得到凝合程度会更高一些。所以,为了算出一个文本片段凝合程度,我们需要枚举它凝合方式这个文本片段是由哪这个文本片段是由哪两部分组合而来。两部分组合而来。第15页令p(x)为文本片段x在整个语料中出现概率,那么我们定义“电影院”凝合程度就是p(电影院)与p(电)p(影院)比值和p(电影院)与p(电影)p(院)比值中较小值,“电影”凝合程度则是p(电影)分别除以p()p(电影)和p(电)p(影)所得商较小值。第16页能够想到,凝合程度最高文本片段就是诸如“蝙蝠”、“蜘蛛”、“彷徨”、“忐忑”、“玫瑰”之类词了,这些词里每一个字几乎总是会和另一个字同时出现,从不
7、在其它场所中使用。第17页标准标准2词外部表现。考虑“被子”和“辈子”这两个片段。我们能够说“买被子”、“盖被子”、“进被子”、“好被子”、“这被子”等等,在“被子”前面加各种字;但“辈子”使用方法却非常固定,除了“一辈子”、“这辈子”、“上辈子”、“下辈子”,基本上“辈子”前面不能加别字了。“辈子”这个文本片段左边能够出现字太有限,以至于直觉上我们可能会认为,“辈子”并不单独成词,真正成词其实是“一辈子”、“这辈子”之类整体。第18页标准标准2词外部表现。文本片段自由利用程度也是判断它是否成词主要标准。假如一个文本片段能够算作一个词话,它应该能够灵活地出现在各种不一样环境中,含有非常丰富左邻
8、字集合和右邻字集合。第19页Link:信息熵信息熵“信息熵”是一个非常神奇概念,它能够反应知道一个事件结果后平均会给你带来多大信息量。假如某个结果发生概率为p,当你知道它确实发生了,你得到信息量就被定义为-log(p)。p越小,你得到信息量就越大。一颗骰子六个面分别是1、1、1、2、2、3,那么你知道了投掷结果是1时可能并不会那么吃惊,它给你带来信息量是-log(1/2),约为0.693。知道投掷结果是2,给你带来信息量则是-log(1/3)1.0986。知道投掷结果是3,给你带来信息量则有-log(1/6)1.79。不过,你只有1/2机会得到0.693信息量,只有1/3机会得到1.0986信
9、息量,只有1/6机会得到1.79信息量,因而平均情况下你会得到0.693/2+1.0986/3+1.79/61.0114信息量。这个1.0114就是那颗骰子信息熵。第20页Link:信息熵信息熵“信息熵”是一个非常神奇概念,它能够反应知道一个事件结果后平均会给你带来多大信息量。假如某个结果发生概率为p,当你知道它确实发生了,你得到信息量就被定义为-log(p)。p越小,你得到信息量就越大。现在,假如某颗骰子有100个面,其中99个面都是1,只有一个面上写2。知道骰子抛掷结果是2会给你带来一个巨大无比信息量,它等于-log(1/100),约为4.605;但你只有百分之一概率获取到这么大信息量,其
10、它情况下你只能得到-log(99/100)0.01005信息量。平均情况下,你只能取得0.056信息量,这就是这颗骰子信息熵。第21页Link:信息熵信息熵“信息熵”是一个非常神奇概念,它能够反应知道一个事件结果后平均会给你带来多大信息量。假如某个结果发生概率为p,当你知道它确实发生了,你得到信息量就被定义为-log(p)。p越小,你得到信息量就越大。一个最极端情况:假如一颗骰子六个面都是1,投掷它不会给你带来任何信息,它信息熵为-log(1)=0。什么时候信息熵会更大呢?第22页信息熵直观地反应了信息熵直观地反应了一个事件结果有多么随机一个事件结果有多么随机第23页标准标准2词外部表现。我们
11、用信息熵来衡量一个文本片段左邻字集合和右邻字集合有多随机。第24页吃葡萄不吐葡萄皮不吃葡萄倒吐葡萄皮吃葡萄不吐葡萄皮不吃葡萄倒吐葡萄皮“葡萄”:4次左邻字:吃,吐,吃,吐右邻字:不,皮,倒,皮左邻字信息熵=-(1/2)log(1/2)-(1/2)log(1/2)0.693右邻字信息熵=-(1/2)log(1/2)-(1/4)log(1/4)-(1/4)log(1/4)1.04第25页“被子”:956次右邻字集合信息熵3.87404“辈子”:2330次右邻字集合信息熵4.11644第26页“被子”左邻字用例非常丰富:用得最多是“晒被子”,它一共出现了162次;其次是“被子”,出现了85次;接下来
12、分别是“条被子”、“在被子”、“床被子”,分别出现了69次、64次和52次;当然,还有“叠被子”、“盖被子”、“加被子”、“新被子”、“掀被子”、“收被子”、“薄被子”、“踢被子”、“抢被子”等100各种不一样使用方法组成长尾全部左邻字信息熵为3.67453第27页“辈子”左邻字就很可怜了,2330个“辈子”中有1276个是“一辈子”,有596个“这辈子”,有235个“下辈子”,有149个“上辈子”,有32个“半辈子”,有10个“八辈子”,有7个“几辈子”,有6个“哪辈子”,以及“n辈子”、“两辈子”等13种更罕见使用方法。全部左邻字信息熵仅为1.25963。“下子”则是更经典例子,310个“
13、下子”用例中有294个出自“一下子”,5个出自“两下子”,5个出自“这下子”,其余都是只出现过一次罕见使用方法。实际上,“下子”左邻字信息熵仅为0.294421,我们不应该把它看作一个能灵活利用词。第28页一些文本片段左邻字没啥问题,右邻字用例却非常贫乏,比如“交响”、“后遗”、“鹅卵”等,把它们看作单独词似乎也不太适当。我们不妨就把一个文本片段自由利用程度定义为它左邻字信息熵和右邻我们不妨就把一个文本片段自由利用程度定义为它左邻字信息熵和右邻字信息熵中较小值。字信息熵中较小值。第29页文本片段凝固程度和自由程度,两种判断标准缺一不可。只看凝固程度话,程序会找出“巧克”、“俄罗”、“颜六色”、
14、“柴可夫”等实际上是“半个词”片段;只看自由程度话,程序则会把“吃了一顿”、“看了一遍”、“睡了一晚”、“去了一趟”中“了一”提取出来,因为它左右邻字都太丰富了。第30页怎么用?怎么用?第31页找出候选词找出候选词我们把文本中出现过全部长度不超出d子串都看成潜在词(即候选词,其中d为自己设定候选词长度上限),再为出现频数、凝固程度和自由程度各设定一个阈值,然后只需要提取出全部满足阈值要求候选词即可。为了提升效率,我们能够把语料全文视作一整个字符串,并对该字符串全部后缀按字典序排序。第32页四是四十是十十四是十四四十是四十四是四十是十十四是十四四十是四十十十十四是十四四十是四十十是十十四是十四四
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生活 中的 数学 创新 项目 公开 一等奖 联赛 特等奖 课件
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。