加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种基于特征扩展的中文短文本分类方法

发明专利无效专利
  • 申请号:
    CN201210446997.4
  • IPC分类号:G06F17/30
  • 申请日期:
    2012-11-09
  • 申请人:
    北京航空航天大学
著录项信息
专利名称一种基于特征扩展的中文短文本分类方法
申请号CN201210446997.4申请日期2012-11-09
法律状态权利终止申报国家中国
公开/公告日2013-03-06公开/公告号CN102955856A
优先权暂无优先权号暂无
主分类号G06F17/30IPC分类号G;0;6;F;1;7;/;3;0查看分类表>
申请人北京航空航天大学申请人地址
北京市丰台区广安路9号国投财富广场2号楼3层 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人北京洛克威尔科技有限公司当前权利人北京洛克威尔科技有限公司
发明人欧阳元新;袁满;罗建辉;刘文琦;熊璋
代理机构北京科迪生专利代理有限责任公司代理人杨学明;顾炜
摘要
本发明提供一种基于特征扩展的中文短文本分类方法,包括:步骤(1)建立背景知识库:从带有类别标注的长文本语料库中挖掘满足一定约束条件的特征词的二元组来生成背景知识库;步骤(2)扩展训练集中的短文本:根据背景知识库中的二元组,按照一定的扩展规则对训练集中的短文本添加扩展词;步骤(3)建立分类模型:用经过扩展的短文本训练集建立SVM分类模型;步骤(4)扩展待分类的短文本:根据背景知识库中的二元组和分类模型的特征空间,按照一定的扩展规则对待分类的短文本添加扩展词;步骤(5)产生分类结果:利用分类模型和扩展后的短文本来产生分类结果。本发明利用长文本语料库来丰富短文本的特征,提高了短文本分类的准确率和召回率。

专利服务由北京酷爱智慧知识产权代理公司提供