基于Web的大规模双语知识挖掘算法的研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

双语知识就是同时以源语言和目标语言来表述同一概念的知识。在很多自然语言相关的研究领域里面，双语知识都是一种极其重要的资源，比如统计机器翻译利用双语知识作为训练语料，跨语言信息检索利用双语知识来查询使用不同语言编辑的网页，等等。
　　当前双语知识抽取的研究工作主要集中在两个方面，一是使用对齐算法从平行语料中抽取双语知识，二是使用基于预定义模式的匹配算法从双语网页中抽取双语知识。本文使用双语网页为数据源，提出了一种基于自适应模式的双语知识挖掘(Adaptive Pattern Data Mining)框架，该算法可以从不同的网页中自动地学习到该页面中双语知识的翻译模式，之后再利用模式匹配方法将当前页面上所有与学习到的翻译模式兼容的双语知识提取出来，这样我们就可以得到大量的双语知识。
　　本文提出的方法主要包含四个步骤：1)预处理：处理编码格式转换、HTML文件解析，以及将网页文本按照语言属性进行切割；2)种子挖掘：利用双语对齐模型识别双语翻译对，双语对齐模型的优点是将翻译和音译过程统一考虑，一定程度上解决了“混合翻译”和“意译”的识别问题；3)模式学习：从种子挖掘模块得到的双语翻译对中学习翻译模式，使用Ranking-SVM对所有抽取出来的翻译模式排序，保留最优模式(TOP1)；4)基于模式的挖掘：将学习得到的翻译模式在当前网页文本上进行匹配，保存所有能够匹配成功的文本作为双语知识，该模块能够保证我们得到大量的双语知识。
　　基于以上四个流程，本文实现了一个实际运行的系统，并在此基础上，给出了一系列的实验，这些实验从宏观和微观两个方面证明了本文提出的方法是切实可行的。宏观上，利用本文提出的挖掘系统，我们在不到3天的时间处理了超过30亿的Web页面，得到了千万级的双语知识，而且人工抽样评测的准确率超过80％；微观上，在人工标定的测试数据集上，我们定量的分析了系统各个模块对系统最终挖掘结果的实际影响，同时，微观方面的评估也帮助我们优化了系统运行参数。

著录项

作者
杨世泉;
展开▼
作者单位

重庆大学;

展开▼
授予单位重庆大学;
学科计算机软件与理论
授予学位硕士
导师姓名朱庆生;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类翻译机;
关键词
双语知识; 数据挖掘算法; Web页面; 自适应模式; 翻译模式;

相似文献

中文文献
外文文献
专利

1. 基于WebGL大规模3D场景加载渲染优化算法的研究与实现 [J] . 方杰 . 黑龙江科技信息 . 2021,第013期
2. 基于WebGL大规模3D场景加载渲染优化算法的研究与实现 [J] . 方杰 . 科学技术创新 . 2021,第013期
3. 基于Web Service的大规模网络测量平台的研究与实现 [J] . 孙小宁 ,康建初 . 计算机工程与应用 . 2003,第012期
4. 基于LDA模型的大规模文本挖掘算法研究 [J] . 董薇 ,庞峰 ,顾炜江 . 软件 . 2020,第012期
5. 基于解耦概要图的大规模图数据高效分布式挖掘算法 [J] . 李玲 ,印莹 ,赵宇海 . 计算机学报 . 2020,第007期
6. 大规模不确定图上的Top-k极大团挖掘算法 [C] . ZOU Zhao-Nian ,邹兆年 ,ZHU Rong . 2013中国计算机大会 . 2013
7. 基于WEB挖掘算法的电子商务推荐系统研究与实现 [A] . 汤晓龙 . 2008

基于Web的大规模双语知识挖掘算法的研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅