首页> 中文学位 >基于术语提取的跨语言信息匹配技术研究
【6h】

基于术语提取的跨语言信息匹配技术研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.2.1 领域术语获取研究现状

1.2.2 中-英文对齐研究现状

1.2.3 跨语言信息检索研究现状

1.2.4 存在问题分析

1.3 论文主要研究内容

1.4 论文组织结构

第2章 相关工作和理论基础

2.1 领域术语提取相关技术

2.1.1 领域术语的概念

2.1.2 术语的结构特征

2.1.3 术语提取方法

2.1.4 术语抽取的评价指标

2.2 术语翻译方法

2.3 跨语言信息匹配技术

2.3.1 同源匹配

2.3.2 文献翻译

2.3.3 中间语言技术

2.3.4 查询翻译

2.4 跨语言信息检索相关技术

2.5 本章小结

第3章 基于多特征融合的领域术语获取技术

3.1 文本预处理

3.2 领域术语提取

3.2.1 规则过滤

3.2.2 信息熵在术语中的应用

3.2.3 基于词语的领域相关度度量

3.2.4 基于多特征相融合提取领域术语

3.3 本章小结

第4章 基于术语提取的跨语言信息匹配技术

4.1 词共现概率的计算

4.2 基于词袋模型的中英文对齐

4.3 跨语言信息匹配模型

4.3.1 跨语言信息检索技术

4.3.2 检索结果排序

4.4 本章小结

第5章 实验结果验证及应用

5.1 系统工作流程及模块设计

5.2 实验环境与方案

5.3 实验结果及分析

5.3.1 文本的预处理

5.3.2 术语的获取

5.3.3 中英文术语的对齐

5.3.4 检索结果

5.4 本章小结

结论

参考文献

攻读硕士学位期间发表的论文和取得的科研成果

致谢

展开▼

摘要

随着互联网的飞速发展,术语在各个领域中被广泛的使用,领域术语提取技术受到学者们的密切关注,已经成为自然语言处理领域的一项重要任务。本文将术语提取技术应用到跨语言信息匹配技术中,解决如何在中-英文文本之间建立联系的难点。
  本文在分析和总结国内外领域术语提取研究现状和成果的基础上,提出了一种基于多特征相融合的领域术语提取方法。针对术语构词规则是根据词语词性问题,该方法首先利用自然语言处理技术对中文文本进行预处理,针对句子进行词性标注,为下一步的术语提取打下基础。在该过程中,该方法首先采用术语的构词规则对预处理结果进行词语过滤,然后通过信息熵确定词语的边界,针对信息熵无法提取出低频词语这一问题,采用领域语料库中词语的IDF值来衡量术语的领域相关度,将两组词语进行加权处理,最后根据设定的阈值,根据术语得分情况对候选术语进行取舍,这一算法解决了领域术语提取问题。然后在获取的领域术语的基础上,根据术语的领域性特点引入了词语共现这一概念,并结合术语翻译方法,对中英文术语进行对齐,得到术语在本领域对应的翻译。最后利用中英文术语对齐结果构建检索式,建立了中文与英文之间的联系,为了提高检索效率对英文文本建立索引,将检索式在英文文本中进行全文检索,根据匹配结果确定最匹配的英文文本,从而达到利用领域术语对齐结果实现跨语言信息检索的目的。
  最后,本文在实验数据集上进行了反复实验验证,并通过对比本文所提方法和其他的方法,验证了本文所提出方法的有效性。

著录项

  • 作者

    孙素艳;

  • 作者单位

    哈尔滨工程大学;

  • 授予单位 哈尔滨工程大学;
  • 学科 计算机科学与技术
  • 授予学位 硕士
  • 导师姓名 刘刚;
  • 年度 2016
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP391.43;
  • 关键词

    跨语言信息; 检索技术; 文本识别; 术语提取;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号