首页> 中文学位 >融合译文和双语特征的跨语言抄袭检测方法研究
【6h】

融合译文和双语特征的跨语言抄袭检测方法研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第1章 绪论

1.1 研究背景、目的和意义

1.2 国内外研究现状

1.3 存在的问题

1.4 本文的创新工作

1.5 本文组织结构

1.6 本章小结

第2章 相关技术研究

2.1 相关定义

2.2 跨语言抄袭检测

2.3 文本相似度计算

2.4 双语对齐

2.5 本章小结

第3章 源检索方法研究

3.1 源检索相关背景

3.2 研究框架

3.3 关键词提取方法

3.4 实验结果与分析

3.5 本章小结

第4章 种子搜索方法研究

4.1种子搜索框架结构

4.2 特征提取方法研究

4.3 种子过滤方法研究

4.4 实验与分析

4.5 本章小结

第5章 片段合并方法研究

5.1 双向交替合并算法

5.2 基于动态规划的合并方法研究

5.3 片段合并方法实验

5.4 本章小结

结论

参考文献

攻读硕士学位期间发表的论文和取得的科研成果

致谢

展开▼

摘要

抄袭是指使用其他作者的内容、思想或观念等作为自己的原创作品,而不做任何引用或参考标志的现象。当今是一个全球化的信息世界,互联网已经成为主要信息访问媒介。无论是用户的母语或非母语信息,几乎都可以在互联网上得到,这便使得抄袭现象日益加剧。抄袭几乎可以在每一个领域中找到,但它是在学术方面的问题更为严重。目前,有许多可用的商业性和非商业性抄袭检测软件。然而,大部分抄袭检测系统只针对于单一语言抄袭的现象,只能检测出完全复制或简单修改行为的抄袭文本,对于隐蔽性较大跨语言的抄袭案件,则很少有学者进行研究。
  根据研究任务的不同,Pan@CLEF2012将抄袭检测可以分为源检索和文本对齐个子任务。而文本对齐任务又可以分为种子搜索和文本合并两个子阶段。本文以跨语言抄袭检测为研究对象,针对跨语言抄袭检测中的源检索与文本对齐任务展开研究,具体研究内容包括:
  首先,针对源检索阶段,尚无有效的关键词提取方法的问题,本文结合文本的特点,实现了一种基于小片段的关键词提取方法。
  第二,本文针对跨语言抄袭检测的种子搜索阶段,仅采用译文文本的特征,未能全面的考虑文本的译文和双语特征这一问题,本文提出了一种将译文和双语特征相融合的种子搜索算法。
  最后,针对Pan@CLEF2012第一名的抄袭检测方法的片段合并阶段,在时间效率上尚有提高的空间。本文提出了一种基于动态规划思想的合并算法,在合并过程中采用动态规划的思想,通过减少文本合并时的重复计算时间,来优化合并算法。
  实验证明,本文提出的基于小片段的关键词提取方法,用于跨语言抄袭检测的数据,使得跨语言源检索任务上的性能得以提升;本文提出的融合译文和双语特征的种子搜索方法,使得跨语言抄袭检测的整体评测指标得以明显提升;另外,本文提出的基于动态规划的合并算法,在时间性能上不仅对合并阶段的时间进行了优化,还对整个跨语言抄袭检测系统的时间进行了优化。
  本文的研究成果不仅为跨语言抄袭检测提供新的解决策略、具体方法和支撑技术,提升文本抄袭检测的质量,弥补了跨语言抄袭检测系统的不足,提高了跨语言抄袭检测的检索速度、召回率和精确率,同时,还为众多以文本相似度计算为研究内容的问题,提供了新的解决思路和重要参考。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号