首页> 中文学位 >基于Web和信息抽取技术的自动术语翻译
【6h】

基于Web和信息抽取技术的自动术语翻译

代理获取

目录

文摘

英文文摘

声明

第一章 绪论

1.1课题研究背景

1.2自动术语翻译的研究现状

1.3本文主要研究工作和创新之处

1.4本文的组织结构

第二章 术语对抽取技术的研究现状

2.1基于平行语料的术语对抽取

2.2基于非平行语料的术语对抽取

2.2.1从平行语料到非平行语料

2.2.2基于非平行语料的术语对抽取技术及分析

2.3基于部分平行语料的术语对抽取

2.4本章小结

第三章 基于Web的自动术语翻译技术研究

3.1问题阐述

3.2部分平行的双语Web资源的可获取性分析

3.3基于Web的术语翻译系统的设计与实现

3.4实验结果与分析

3.5系统界面设计与说明

3.6本章小结

第四章 大规模网页术语对的抽取研究

4.1问题阐述

4.2大规模术语网页的发现

4.3基于正则表达式的Web术语抽取

4.3.1 HTML标记解析

4.3.2术语对在标记中的存在格式分析

4.3.3正则表达式简介

4.3.4利用正则表达式实现术语对抽取

4.4系统界面设计及性能评价

4.5本章小结

第五章 结论与未来工作展望

5.1结论

5.2未来工作展望

参考文献

致谢

展开▼

摘要

互联网上存在大量的多语语料资源。如何通过Web挖掘和信息抽取的相关技术,从非平行可比较或部分平行语料中抽取出术语的正确翻译,是当前研究者广为关注同时又极具挑战性的问题。 本文首先对目前的术语翻译技术进行了比较分析,总结了其各自的优缺点。然后针对中英术语翻译,分析了Web上部分平行语料的存在性和可用性,并实现了一个自动术语翻译系统。该系统利用一对源术语E及其正确翻译F作为输入,基于搜索引擎的查询结果来获取匹配模式,并以模式出现频率作为其评分。在候选答案的选择方面,确定了三条层次规则,依据这三条规则,建立候选答案的评分函数。实验结果表明,相对于已有的系统,本文系统可以有效地从Web上自动挖掘出术语的合理翻译。 在Web上还蕴含着大量包含术语的页面,如何自动发现此类页面并将其中的术语对抽取出来也是一个很有意义的研究课题。本文利用已有术语对(术语表或词典中的术语)作为“种子”词语,并以查询条件的形式提交给搜索引擎,而后采用简单的判断原则,对返回结果的Snippets进行分析,自动发现包含大量术语的网页。接着,利用正则表达式,将这些网页中的术语以规定的格式抽取出来,并添加到本地词库中,从而实现了本地词库的不断扩充。 最后本文给出了基于Web的自动术语翻译的一些建议,对今后的研究工作进行了展望,提出了若干值得研究的问题。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号