首页> 中文学位 >基于Web的大规模双语知识挖掘算法的研究与实现
【6h】

基于Web的大规模双语知识挖掘算法的研究与实现

代理获取

目录

文摘

英文文摘

声明

1绪论

1.1背景及研究现状

1.1.1基于平行语料的双语挖掘

1.1.2基于Web的双语挖掘

1.2支持向量机简介

1.3论文的主要工作及组织结构

2自适应双语知识挖掘系统框架

2.1动机

2.2系统架构

3预处理

3.1编码转换

3.2压缩与解压

3.3 HTML解析

3.4文本切割

3.5双语节点的选择

4种子挖掘

4.1翻译验证模型

4.2音译验证模型

4.3双语对齐模型

5模式学习和应用

5.1模式学习

5.1.1候选模式生成

5.1.2候选模式泛化

5.1.3模式抽取

5.2模式选择

5.3模式应用

5.4噪音过滤

6实验设置

6.1人类对翻译模式的理解

6.2大规模数据集评估

6.3人工标定数据集评估

6.4阈值设置

6.5运行性能

6.6系统运行界面

7总结和未来工作

致 谢

参考文献

附录 作者在攻读学位期间发表的论文目录:

展开▼

摘要

双语知识就是同时以源语言和目标语言来表述同一概念的知识。在很多自然语言相关的研究领域里面,双语知识都是一种极其重要的资源,比如统计机器翻译利用双语知识作为训练语料,跨语言信息检索利用双语知识来查询使用不同语言编辑的网页,等等。
   当前双语知识抽取的研究工作主要集中在两个方面,一是使用对齐算法从平行语料中抽取双语知识,二是使用基于预定义模式的匹配算法从双语网页中抽取双语知识。本文使用双语网页为数据源,提出了一种基于自适应模式的双语知识挖掘(Adaptive Pattern Data Mining)框架,该算法可以从不同的网页中自动地学习到该页面中双语知识的翻译模式,之后再利用模式匹配方法将当前页面上所有与学习到的翻译模式兼容的双语知识提取出来,这样我们就可以得到大量的双语知识。
   本文提出的方法主要包含四个步骤:1)预处理:处理编码格式转换、HTML文件解析,以及将网页文本按照语言属性进行切割;2)种子挖掘:利用双语对齐模型识别双语翻译对,双语对齐模型的优点是将翻译和音译过程统一考虑,一定程度上解决了“混合翻译”和“意译”的识别问题;3)模式学习:从种子挖掘模块得到的双语翻译对中学习翻译模式,使用Ranking-SVM对所有抽取出来的翻译模式排序,保留最优模式(TOP1);4)基于模式的挖掘:将学习得到的翻译模式在当前网页文本上进行匹配,保存所有能够匹配成功的文本作为双语知识,该模块能够保证我们得到大量的双语知识。
   基于以上四个流程,本文实现了一个实际运行的系统,并在此基础上,给出了一系列的实验,这些实验从宏观和微观两个方面证明了本文提出的方法是切实可行的。宏观上,利用本文提出的挖掘系统,我们在不到3天的时间处理了超过30亿的Web页面,得到了千万级的双语知识,而且人工抽样评测的准确率超过80%;微观上,在人工标定的测试数据集上,我们定量的分析了系统各个模块对系统最终挖掘结果的实际影响,同时,微观方面的评估也帮助我们优化了系统运行参数。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号