加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种基于数据选择改善英中机器翻译质量的方法

发明专利有效专利
  • 申请号:
    CN201710031264.7
  • IPC分类号:G06F40/58
  • 申请日期:
    2017-01-17
  • 申请人:
    中译语通科技(北京)有限公司
著录项信息
专利名称一种基于数据选择改善英中机器翻译质量的方法
申请号CN201710031264.7申请日期2017-01-17
法律状态授权申报国家中国
公开/公告日2017-06-13公开/公告号CN106844356A
优先权暂无优先权号暂无
主分类号G06F40/58IPC分类号G;0;6;F;4;0;/;5;8查看分类表>
申请人中译语通科技(北京)有限公司申请人地址
北京市石景山区中铁大厦16层 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人中译语通科技股份有限公司当前权利人中译语通科技股份有限公司
发明人程国艮;汪一鸣
代理机构北京万贝专利代理事务所(特殊普通合伙)代理人马红
摘要
本发明公开了一种基于数据选择改善英中机器翻译质量的方法,所述方法包括:将数据利用词袋的表现形式重新表现;再利用余弦的计算方法表现句子之间的距离,再通过对余弦的相关计算得到每个句对的最终得分;利用得分对通用数据进行排序,最终选择相关的数据进行机器翻译系统的系统训练。本发明一方面可以减少统计机器翻译系统训练过程中的时间成本以及存储空间成本,因为相比于用多领域通用数据训练的系统,该方法可以减少训练数据的数据量;另一方面由于选择出来的数据都是与待测试的数据来自于同一领域,是内容上比较相关的,所以理论上利用该方法选出的数据训练的系统的性能会优于用所有数据训练的机器翻译系统。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供