◎◎君泽君东莞网络公司运营项目(东莞网站优化,东莞SEO优化,网络营销策划,东莞网站推广等),为了更好的服务大家,创一条共赢的道路,特意为各位新老客户朋友,网友收集或原创以下文章,希望能对你有所帮助,也希望大家都能支持我们君泽君公司,支持我们的东莞SEO网站 优化推广网,谢谢大家◎◎
3、基于统计的分词方法
从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
东莞搜索引擎优化(网站SEO优化)服务(www.wangzhanseo.com.cn)认为: 到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。笔者了解,海量科技的分词算法就采用“复方分词法”,所谓复方,相当于用中药中的复方概念,即用不同的药才综合起来去医治疾病,同样,对于中文词的识别,需要多种算法来处理不同的问题。
SEO项目咨询 网站优化项目洽谈:
QQ:290971567(网络营销顾问)
E-mail:290971567#qq.com SEO#DGSEO.COM.CN
MSN:DGSEO@LIVE.CN
Skype:LFG290971567
电话:0769-89046712 89046713 81607352 81763536 22329222
传真:0769-81763536
24小时服务热线:13728246800 13416954808 13480451743
项目咨询:290971567(网络营销顾问)
君泽君文化传媒机构(君泽君东莞网络公司)
地址:广东省东莞市长安镇上沙社区顺景丽庭大厦
★★看过此文章的朋友也点击了以下文章,推荐一并阅读:东莞网站优化,东莞SEO,东莞网站推广,SEO,网站优化,搜索引擎,百度,GOOGLE优化,YAHOO,排名,推广,网络营销,优化,东莞,SEM,SEO服务,东莞君泽君 ★★
上一页:搜索引擎中文分词研究连截之: 基于理解的分词方法
下一页:





评论