首页> 中文学位 >Corpus-Based Machine Translation of WebPages—A Suggestion on MT Model and Strategy to Disambiguation
【6h】

Corpus-Based Machine Translation of WebPages—A Suggestion on MT Model and Strategy to Disambiguation

代理获取

目录

文摘

英文文摘

独创性声明和关于论文使用授权的说明

ACKNOWLEDGEMENTS

INTRODUCTION

CHAPTER 1 BASIC INFORMATION ABOUT MACHINE TRANSLATION

1.1 WHAT IS MACHINE TRANSLATION

1.2 THE HISTORY AND PRESENT CONDITION OF MACHINE TRANSLATION

1.3 STRATEGIES FOR MACHINE TRANSLATION

1.4 MACHINE TRANSLATION VS. HUMAN TRANSLATION

1.5 THE IMPORTANT ROLE OF MT IN INFORMATION AGE

1.6 SUMMARY

CHAPTER 2 WEB PAGES TRANSLATION

2.1 PRESENT SITUATION OF THE INTERNET

2.2 PRESENT SITUATION OF WEBPAGE TRANSLATION

2.3 THE COMPOSITION OF WEB PAGES

2.4 SUMMARY

CHAPTER 3 MODEL OF WEBPAGE TRANSLATION SYSTEM

3.1 APPROACH TO TAGGED TEXT TRANSLATION IN WEB PAGES

3.1.1 The Classification of Tags

3.1.2 HTML tag manager

3.1.3 Tagged text translation

3.2 APPROACH TO PURE TEXT TRANSLATION

3.2.1 Domain identification

3.2.2 Corpus-based MT on the pure text

3.3 SUMMARY

CHAPTER 4 AMBIGUITIES IN WEBPAGES MACHINE TRANSLATION

4.1 TAGGING AMBIGUITY

4.2 SEMANTIC AMBIGUITY

4.3 SYNTACTIC STRUCTURE AMBIGUITY

4.3.1 Ambiguities from modifiers

4.3.2 Ambiguities from prepositional phrases

4.3.3 Ambiguities from adverbs

4.3.4 Ambiguities from Parallel Structure

CHAPTER 5 CORPUS-BASED STRATEGY TO AMBIGUITIES IN MT

5.1. CORPORA

5.1.1 Training corpora

5.1.2 Raw corpora

5.1.3 Artificial corpora

5.2 SEMANTIC DISAMBIGUATION OF WORD SENSE

5.2.1 Domain determination

5.2.2 Statistical approach

5.2.3 Example-based strategy

5.3 DISAMBIGUATION OF SYNTACTIC ANALYSIS

5.4 TRANSFER DISAMBIGUATION

5.4.1 Ada Semantic Restrictions in the corpus

5.4.2 Mark Syntactic or Semantic Categories in the corpus

5.5 PRAGMATICS AND MT DISAMBIGUATION IN WEBPAGES

5.6 SUMMARY

CONCLUSION

APPENDIX A: AN HTML DOCUMENT

APPENDIXB:

BIBLIOGRAPHY

个人简历

科研成果

展开▼

摘要

机器翻译已经经历了将近60的发展,虽然中间有波折,还是取得了显著的成就.随着互联网的普及,网络已经成为了一种新的媒体,是人们获取信息的重要途径.但是在国际互联网上,大部分信息都是以英语作为媒介语言的,这必然对以汉语为母语的我们造成一定的信息获取障碍.虽然国内外已有很多公司致力于网页机器翻译系统的研究,这其中也包括很多涉及到英文—中文翻译,但是其结果总是不尽如人意.作者首先简要介绍了机器翻译的历史,现状,比较了人机翻译的各自特点,从而指出了在信息时代中大力发展机器翻译的重要作用.在讨论了网页的特点及组成之后,作者提出了一种模型,用来解决在网页翻译中出现的困难.网页翻译实际上可以看成是两部分的组合:有标记文本和纯文本的翻译.针对前者,作者首先将网页设计中的标记进行分类,从而采取不同的措施,并提出了一个四步法将其正确的反映在译文当中.而对于纯文本的翻译,作者首先提出了一个域的选择,并以此提出了以语料库为基础的一个翻译模型,但是在网页翻译过程中不可避免的出现了歧义的问题,这是任何一个机器翻译系统都必须面对的.该文首先分析了存在的几种歧义,再分别对待.对于翻译标记文本中出现的歧义,基本上在第一个模型当中就已经得到了解决.因此作者将重点放到了纯文本翻译中的歧义问题解决上,并提出了一种以完善语料库为基础的消除歧义的方法.将这两者有机的结合在一起,才可以说是真正提高机器翻译的质量.

著录项

  • 作者

    陆正海;

  • 作者单位

    电子科技大学;

  • 授予单位 电子科技大学;
  • 学科 外国语言学与应用语言学
  • 授予学位 硕士
  • 导师姓名 张锦帆;
  • 年度 2004
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 英文
  • 中图分类 翻译;
  • 关键词

    机器翻译; 语料库; 歧义;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号