专利名称 | 基于互联网信息的输入法词频库的生成方法和系统 | ||
申请号 | CN200610086577.4 | 申请日期 | 2006-06-30 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2007-03-28 | 公开/公告号 | CN1936893 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表> |
申请人 | 北京搜狗科技发展有限公司 | 申请人地址 | 北京市海淀区中关村东路1号院9号楼搜狐网络大厦9层01房间
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 北京搜狗科技发展有限公司 | 当前权利人 | 北京搜狗科技发展有限公司 |
发明人 | 佟子健;郭奇 | ||
代理机构 | 北京集佳知识产权代理有限公司 | 代理人 | 逯长明 |
新华网北京6月6日电(记者吕诺)全国高考将在7日如期拉开帷幕,目前各项准备工作基本就绪。教育部副部长赵沁平6日在北京市海淀区检查高考准备工作时强调,从试卷运输、保管、分送到考试实施,整个高考过程每个环节都必须严格按照规定落实,确保万无一失。
\n将上述特定标记之间的内容提取出来分别进行保存,并可以根据属于正文标题还是属于正文内容,设定不同的权重值。\n对不同的网页设定不同的权重值的步骤可以通过以下几种方式实现,当然,本领域技术人员还可以根据相关技术或者需要对网页设定各种各样的权重值,本说明书仅仅是举出以下几种优选的赋予较低权重值的实施例而已,采用其他权重值设定方式也属于本发明的发明构思。\n在权重值设定步骤中,本发明可以对重复网页进行分析,包括以下步骤:\n对第一网页进行分析,得到其特征值,保存至网页特征库中;\n对第二网页进行分析,得到其特征值,与特征库中的信息进行比较;\n如果达到预定的相似度,则赋予第二网页相应的权重值。\n当然,上述分析步骤完成之后,对第一网页的权重值是没有影响的,如果达到预定的相似度,则仅仅向第二网页赋予较低的权重值即可。如果该权重值低于预定值,则可以在之后的词频统计步骤中去除该网页即可。所述特征值可以包括:正文标题用词、正文内容用词、段落数量、长度以及正文词的出现频率等等。\n例如,对于网页A:http://tech.qq.com/a/20050825/000125.htm和网页B:http://it.sohu.com/20050825/n240298921.shtml,对网页A的分析已经完成,将得到的网页A的特征值保存至网页特征库中,所述特征值可以根据需要由本领域技术人员选择即可,本发明并不对此加以限定。\n对网页B进行页面分析后,并与网页特征库保存的特征值进行比较,可以得出两个网页中,正文标题都是“百度Q2财报显示净利润同比增长6倍”,正文内容也完全相同。对于这种情况,如果重复统计网页内容中词的出现频率,必定使得最终的统计结果不客观。所以优选的,需要将赋予网页B较低的权重值,甚至为零,从而降低网页B在词频统计中的影响,提高词频统计的准确度。\n上述分析过程中,提取特征值的方法可以为:首先抽取网页中的内容信息(包括正文标题和正文的内容);然后提取正文的长度、段落数量等信息,接着对内容信息进行分词处理,统计正文中出现的词及其出现频率;最后根据正文标题、正文长度、段落数量、正文词的出现频率等网页特征与根据对A网页的分析提取特征值建立的特征库信息进行比较,如果达到预定的相似度,则赋予第二网页相应较低的权重值.\n当然,在分析上述两个网页的相似度时,还可以首先对第二个网页的一些冗余的信息进行过滤,比如广告、链接、每个网站特有的内容等等,得到基本内容,再抽取标题的用词,正文的用词,段落的数量等和现有的特征库里保存的第一个网页的信息进行比较,在一定的数值结果以上就算是重复的网页。至于,达到怎样的相似度或者匹配程度,就可以认为是重复的网页,或者应该赋予怎样的权重值,这些具体的数据可以由本领域技术人员根据需要或者根据经验进行选择即可,本发明在此并不加以限定。\n在权重值设定步骤中,本发明还可以对垃圾网页进行分析,可以通过以下几种方式进行分析判断:\n通过域名分析的方式:预置域名规则库,如果被分析网页的域名符合预置规则,则赋予该网页相应的权重值。因为本领域技术人员根据经验建立了一个域名数据库或者域名规则库,符合这些规则的域名一般都可以认为是垃圾网页,即对词频统计的准确性没有任何意义。一般经验认为,大量数字内容的域名就是一个垃圾网页的域名特征。例如,域名不全、主要部分数字过多、无规律、和现有网页正常网页不相似、网页内容比较杂乱等等特征。\n通过关键词匹配方式:如果被分析网页中同一关键字出现的次数大于或者等于预置值,则赋予该网页相应的权重值。因为该网页中同一关键字出现的次数过多,此网页和此网页中的链接的网页都可以看作是垃圾网页则认为该关键字并非正常使用,故该网页中的信息对词频统计的准确性意义不大,可以赋予较低的权重值。\n通过链接分析的方式:如果被分析网页的相关链接为循环链接,则赋予该网页相应的权重值。因为,如果网页信息的作用就在于交流互通,如果该网页内的链接都为循环链接,或者在网页链接中的域名信息和此网页的域名具有同等特征的,或者没有前置域名的数字域名的,则该网页中的信息对词频统计的准确性意义不大,此网页和此网页中的链接的网页都可以看作是垃圾网页,可以赋予较低的权重值。\n以上三种方式择一进行或者组合进行,都可以达到找出垃圾网页的目的,即达到降低垃圾网页对词频统计的准确性的影响。当然,还可能存在其他的判定垃圾网页的方法,本发明在此不能一一列举。\n例如,http://www.rr3721.com/,这个网页就是一个词频统计中的典型的垃圾网页。首先可以先判别域名信息,大量数字内容的域名甄选出来,已经具备了垃圾网站的一项特征;然后再通过分析网页的结构,框架frame或者表格形式都是异常的,每个框架frame里的文字信息很少,而且字体很大,颜色很乱,这些都可以提取出来成为垃圾网页的特征;再通过分析链接,在网页链接中的域名信息和此网页的域名具有同等特征的,或者没有前置域名的数字域名的,此网页和此网页中的链接的网页都可以看作是垃圾网页。对文字信息进行分析的过程中,本网页中的“六合彩”一词在网页下部有上百处出现,重复率超过了一定的设定值,所以上述网页可以认为是垃圾网页。\n在权重值设定步骤中,本发明还可以对黄色网页进行分析,包括以下步骤:预置关键词库,如果被分析网页中出现的词与所述关键词库中的词的匹配程度大于或者等于预置值,则赋予该网页相应的权重值,从而减少黄色网页中某些关键词的频繁使用对正常的词频统计带来不好的影响。\n所述权重值设定步骤,除了上述几种网页的分析情况之外,本领域技术人员还可以根据需要设定各种不同的标准,用于给不同的网页赋予不同的权重值;但是,只要采用设定权重的方式提高输入法词频库中词频统计的准确性,则都属于本发明的构思之中.\n本发明上述的对不同页面设置权重的步骤、以及去除页面的冗余信息、去除或者降权重复网页和垃圾网页的步骤,其目的都是为了获得更为准确的输入法意义上的词频统计。要想得到的结果更准确,就需要统计的词汇尽量都是用户的“输入行为”,但是上述的页面冗余信息、重复页面以及垃圾信息等类别的网页都是机器模板自动生成,或者是复制,粘贴得到的,并不能反应用户的原始输入行为,因此如果不进行这些降权或者去除的操作会导致统计出来的词频不客观,结果不准确。例如,如果不进行上述优选的权重设置等操作,则导致某些广告或者网站标语(banner)里面的词频极大上升,从而导致词频统计结果的不准确。\n参照图2,示出了本发明输入法词频库的生成及更新方法的步骤流程图;参照图3,示出了图2所示输入法词频库的生成及更新方法的信息流程图。本实施例是图1所示实施例的一个补充,故本部分未详尽之处可以参见前述图1的相关描述。\n步骤201,在输入法系统中设置系统词频库;\n步骤202,通过网络爬虫技术获取互联网的网页;\n步骤203,对网页信息进行分词处理;\n步骤204,对词条进行词频统计,并保存形成互联网词频库。\n步骤205,由所述互联网词频库更新所述输入法系统中的系统词频库。\n优选的,所述输入法系统可以位于用户第一计算设备中;获取网页、分词处理以及词频统计步骤由第二计算设备完成;用户计算设备连接所述第二计算设备完成系统词频库的更新。优选的,第二计算设备采用服务器实现,由于服务器可以具有更高的数据处理能力、存储能力和稳定性,并且可以建立一个统一的词频平台,有益于用户输入法词频库的更新。\n当然,输入法系统中也可以不设置系统词频库,每次使用时,输入法系统直接连接第二计算设备,调用所述互联网词频库获取词频信息即可。\n图2所示的实施例中,所述更新的方式可以为:当输入法系统更新时,同时更新所述系统词频库;或者,由服务器主动推送的方式进行系统词频库的在线更新;或者,由用户发起请求,服务器根据请求返回数据进行系统词频库的更新。当然,也可以采用移动存储器更新的方式或者版本更新的方式。总之,可以采用各种数据更新的方式,本发明对此并不加以限定,本领域技术人员可以根据需要选择即可。\n图2所示实施例中,也可以优选的增加权重设置步骤,对所述获取的网页分别赋予相应的权重值,如果被统计网页的权重值低于预置值,则不统计该网页;如果被统计网页的权重值大于或者等于预置值,则对该网页的词条进行词频统计后,根据所述权重值进行修正,得到该网页的词频统计结果。由于前面已经对该步骤进行了详细描述,在此就不再赘述。\n在图3所示的信息流程图,首先从庞大的互联网的网页中抓取获得了原始的页面数据库301;然后,通过针对不同的网页设定相应的权重值,并且去除一些权重值较低的网页,则得到精选页面数据库302;然后,对该数据库中的页面进行结构分析,得到正文标题和正文内容,形成页面内容数据库303;对页面内容数据库中的信息进行中文分词和统计,得到需要的互联网词频库304;通过各种词频发布的方式将词频更新的信息发送至用户端的输入法系统词频库305中.至此,完成了基于互联网信息资源的输入法词频库的生成和更新.\n图2和图3示出的实施例中,完成输入法整体功能的程序块位于用户计算设备中,由服务器或者另一计算设备提供词频库生成和更新服务,但是本发明并不仅仅限于上述情况。下面举例进行说明:\n例如,输入法系统除了能够完成输入法整体功能,其自身就可以通过基于互联网信息完成互联网词频库的生成和更新,即输入法系统在现有基础上又集成了互联网词频库的生成功能。\n再例如,所述输入法系统中用于接收用户输入信息和显示相应字符的单元位于用户第一计算设备中;获取网页、分词处理以及词频统计步骤由第二计算设备完成,并且系统词频库或者所述互联网词频库位于所述第二计算设备中,用户计算设备连接所述第二计算设备获取词频信息。至于,一个完整的输入法系统还需要的判断识别等其他功能单元即可以位于第一计算设备中,也可以位于第二计算设备中,都属于本发明的应用范围。优选的,第二计算设备采用服务器实现。\n总之,本发明提出了一种互联网词频信息的生成方法,无论采用何种架构具体实现所述方法,以及采用何种方式传递该词频信息,都在本发明的构思之内。\n参照图4,示出了本发明输入法词频库的生成系统的结构示意图,包括以下部件:\n网页获取模块401,用于通过网络爬虫技术获取互联网的网页;\n分词处理模块402,用于对网页信息进行中文分词处理;\n词频统计模块403,用于对词条进行词频统计,并保存形成互联网词频库。\n信息在各模块之间依次传递:网页获取模块--分词处理模块--词频统计模块,从而得到以开放的、变化的互联网信息为文档集合的互联网词频库。\n图4所示的词频库生成系统,可以通过服务器的形式存在于网络中,向其他任何需要输入法词频库的客户端程序提供词频库生成服务。当然,图4所示的词频库生成系统,并不需要一定通过固定服务器的形式出现,也可以存在于某个本地计算设备中,通过P2P(点对点)技术向其他终端的任何需要输入法词频库的客户端程序提供词频库生成服务。总之,采用何种形式表现本发明所述的词频库生成系统并不是最重要的,只要具有本发明所述词频库生成系统的相关模块单元,并能够实现相应的功能,则属于本发明的保护范围。\n图4所示的词频库生成系统,还可以包括:权重值赋予模块404,对所述获取的网页分别赋予相应的权重值,所述权重值用以表示该网页在所有被分析网页词频统计中的重要性;所述词频统计模块对该网页的词条进行词频统计后,根据所述权重值进行修正,得到该网页的词频统计结果;其中,如果被统计网页的权重值低于预置值,则不统计该网页。所述权重值赋予模块404可以利用网页描述语言中的标识符号,解析出网页中的标题部分和正文部分,并对标题部分和正文部分分别设定权重值,所述权重值用于评价词条在该部分出现时对该网页词频统计的影响。\n其中,所述权重值赋予模块404可以用于重复网页分析:对第一网页进行分析,得到其特征值,保存至网页特征库中;对第二网页进行分析,得到其特征值,与特征库中的信息进行比较;如果达到预定的相似度,则赋予第二网页相应的权重值.所述特征值可以包括:标题用词、正文用词、段落数量、长度以及正文词的出现频率等等从网页提取的信息.\n其中,所述权重值赋予模块404还可以用于垃圾网页分析:预置域名规则库,如果被分析网页的域名符合预置规则,则赋予该网页相应的权重值;如果被分析网页中同一关键字出现的次数大于或者等于预置值,则赋予该网页相应的权重值;如果被分析网页的相关链接为循环链接,则赋予该网页相应的权重值。\n其中,所述权重值赋予模块404还可以用于黄色网页分析:预置关键词库,如果被分析网页中出现的词与所述关键词库中的词的匹配程度大于或者等于预置值,则赋予该网页相应的权重值。\n当然,所述权重值赋予模块404还可以用于对其他网页赋予相应的权重值,根据设定的标准进行即可,本发明在此不一一列举了。\n图4所示的输入法词频库生成系统,还可以包括:网络通信模块405,用于传送词频库信息,所述词频库信息用于更新用户输入法系统的系统词频库。\n图4所示的输入法词频库生成系统,还可以包括:识别模块,用于识别接收的用户输入信息,并根据互联网词频库对识别结果进行排序,以及返回排序后的识别结果。即图4所示的输入法词频库生成系统还可以集成一些输入法相关的其他功能。\n在上述基础上,图4所示的输入法词频库生成系统,还可以包括:输入信息接收模块,用于接收用户输入的键盘信息;以及显示模块,用于根据所述排序后的识别结果显示相应字符。此时,即相当于所述输入法词频库生成系统已经成为一个集成了输入法基本功能和基于互联网信息的词频库生成功能的大系统了。优选的,可以将上述集成的系统在拥有通信连接的两个计算设备中实现,例如,将输入信息接收模块和显示模块设置在用户第一计算设备中,其他功能模块设置在第二计算设备中,通过第一计算设备连接第二计算设备共同完成输入过程。\n参照图5,示出了本发明输入法系统的结构示意图,包括以下部件:\n系统词频库501,用于存储基于互联网信息统计得到的字词及其对应的词频,所述词频库中存储的信息就是某个字词的相应的使用次数,这个次数的数值基本上都是某个字词在文档集合里面的使用的次数,某些高频词的词频信息会有所不同,但绝大部分的字词都是使用的绝对次数。输入法系统是在音字输入匹配完成后调用相应的词频信息,然后根据词频排序列出需要显示的字词给用户。\n输入接口模块502,用于接收用户的输入信息,例如,各种键盘信息等。\n对比显示模块503,用于根据用户的输入信息,以及词频库中的词频信息进行排序显示相应的中文字符。接收到用户输入的键盘信息后,依据输入法系统的编码规则,将其转换为相应的中文字符,并查询词频库中的词频信息进行排序显示在相应的提示栏上。本发明的核心思想在于词频信息的准确和快速更新,所以无论所述输入法系统采用何种编码方式对本发明而言都是可行的,例如,拼音或者五笔等等。\n如果采用移动存储器或者随着系统更新时一同更新系统词频库的方式,则上述三个模块就可以组成完整的输入法系统,例如,每次都采用新的输入法系统覆盖原有的输入法系统,或者下载新的词频库覆盖原有的词频库等方式。\n如果采用更为便捷的在线更新,尤其是用于实时在线更新,则图5所示的输入法系统还可以包括:词频库更新模块504,用于接收更新信息,对所述系统词频库进行更新.该模块用于主动发起更新请求,或者响应服务器的请求,完成数据通讯和版本更新.优选的,所述词频库更新模块504还可以用于仅仅请求更新词频信息变化的部分,从而降低通信中的数据传输量.\n所述词频库的生成可以在另一服务器中完成或者在本地完成,总之,所述系统词频库的词频信息可以通过以下模块得到:网页获取模块,用于通过网络爬虫技术获取互联网的网页;分词处理模块,用于对网页信息进行中文分词处理;词频统计模块,用于对词条进行词频统计,并保存形成词频信息。\n如果词频库的生成在所示输入法系统中完成,则图5所示的输入法系统,还可以包括:权重值赋予模块,对所述获取的网页分别赋予相应的权重值,所述权重值用以表示该网页在所有被分析网页词频统计中的重要性;所述词频统计模块对该网页的词条进行词频统计后,根据所述权重值进行修正,得到该网页的词频统计结果;其中,如果被统计网页的权重值低于预置值,则不统计该网页。\n综上所述,使用本发明基于互联网信息的输入法词频库生成方法的技术方案,能够提高用户在计算机输入时首选词的命中率。例如“网游”和“财报”两个词,在其他常见主要输入法系统当中,这两个词的词频并不高,因此在候选词列表中排名很靠后,甚至由于词频过低而不出现在候选词列表中。而在对现在的用户而言,尤其是互联网用户,网游和财报都具有较高的关注度,是经常需要被输入的词汇。在本发明基于互联网信息的输入法词频库生成方法中,这两个词在候选词列表中具有很好的排名,能够满足使用者的需求。\n在本发明完成后,对本发明的首选词的准确率进行了测试,并同时对比测试了其他一些常用的输入法系统(测试方法为:使用每种输入法系统输入1万个随机选择的句子,当然,这1万个句子对每种输入法系统都是相同的样本),具体结果请见图6。在图6中,本发明的首选词准确率为63%,其他常用输入法系统的首选词准确率分别为49%、55%和41%。总之,从图6可以看出,本发明的技术效果还是非常明显的。\n以上对本发明所提供的一种基于互联网信息的输入法词频库的生成方法、生成系统以及一种输入法系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。授权
授权
实质审查的生效
实质审查的生效
公布
公布
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
---|---|---|---|---|---|
1
| 暂无 |
1996-01-30
| |||
2
|
2006-05-10
|
2005-09-29
| 内容评估失效专利 | ||
3
| 暂无 |
2005-03-16
|
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
---|---|---|---|---|---|
该专利没有被任何外部专利所引用! |
我浏览过的专利
专利服务由北京酷爱智慧知识产权代理公司提供
专属管家一对一服务
专利专业答疑和建议
已经帮助解决过
0个专利相关的问题
请问有什么能帮到你的吗?残忍拒绝
商标进度查询
风险动态监测预警
免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系删除:chatm@zbj.com