加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种基于中文分词的文本相似性识别方法及装置

发明专利有效专利
  • 申请号:
    CN201210033600.9
  • IPC分类号:G06F17/27;G06F17/30
  • 申请日期:
    2012-02-15
  • 申请人:
    深圳市腾讯计算机系统有限公司
著录项信息
专利名称一种基于中文分词的文本相似性识别方法及装置
申请号CN201210033600.9申请日期2012-02-15
法律状态授权申报国家中国
公开/公告日2013-08-21公开/公告号CN103257957A
优先权暂无优先权号暂无
主分类号G06F17/27IPC分类号G;0;6;F;1;7;/;2;7;;;G;0;6;F;1;7;/;3;0查看分类表>
申请人深圳市腾讯计算机系统有限公司申请人地址
广东省深圳市南山区高新区高新南一路飞亚达大厦5-10楼 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人深圳市腾讯计算机系统有限公司当前权利人深圳市腾讯计算机系统有限公司
发明人万波;曹训志;谢志远;陈盛荣;刘锐强
代理机构北京德琦知识产权代理有限公司代理人谢安昆;宋志强
摘要
本发明实施例公开了一种基于中文分词的文本相似性识别方法,其特征在于,该方法包括:对给定编码格式的文本中不能识别的字符以及无意义字符进行过滤,得到预处理文本;按照预设的分词模式对所述预处理文本进行分词;按照预设的策略从所述分词得到的单词中选择特征词;对选择的特征词进行排序得到特征字符串,并根据所述特征字符串计算文本的特征值;通过比较文本的特征值,确定文本之间的相似性。本发明还公开了一种基于中文分词的文本相似性识别装置,该方法及装置可以降低识别复杂度,提高识别效率,同时达到较高的识别正确率。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供