首页> 中文学位 >基于汉字部件直方图的文本复制检测技术研究
【6h】

基于汉字部件直方图的文本复制检测技术研究

代理获取

目录

声明

摘要

1 绪论

1.1 论文的研究背景和意义

1.2 国内外研究现状

1.2.1 国内外研究现状

1.2.2 现行研究存在的问题

1.3 研究内容和章节安排

1.3.1 论文的研究内容

1.3.2 论文的章节安排

2 复制检测技术概述

2.1 复制检测的基本含义

2.1.1 文本相似度检测

2.1.2 复制检测

2.1.3 复制检测算法的性质

2.1.4 复制检测技术的应用

2.2 现有文本复制检测算法

2.2.1 文本复制检测算法的分类

2.2.2 基于字符串比较的方法

2.2.3 基于词频统计的方法

2.3 本章小结

3 基于汉字部件直方图的文本复制检测模型

3.1.1 汉字的基本知识

3.1 相关理论

3.1.2 汉字的数学表达式理论

3.2 汉字部件直方图的构造方法

3.2.1 部件频次统计方法

3.2.2 部件直方图的相关概念

3.2.3 部件直方图的性质

3.3 部件直方图的距离计算

3.4 本章小结

4 算法描述和分析

4.1 算法描述

4.2 算法分析

4.2.1 时间复杂度分析

4.2.2 空间复杂度分析

4.3 本章小结

5 实验研究与对比

5.1 实验准备

5.2 实验结果与分析

5.2.1 参数分析

5.2.2 对比实验分析

5.3 本章小结

6 总结与展望

6.1 总结

6.2 展望

参考文献

附录 攻读学位期间的主要学术成果

致谢

展开▼

摘要

文本复制检测技术是文本相似度计算的一项基础应用,在网页去重、知识产权保护、搜索引擎、数字图书馆等方面发挥着重要作用。但是针对中文文本的复制检测技术起步较晚,且由于中文文本的精深复杂,中文文本复制检测技术更难于实现。因此,该领域值得我们进一步开展研究和探讨。
  本文首先对该领域内基于字符匹配和基于词频统计的两类复制检测算法做了较为详细的论述,归纳和总结了现有算法各自的特点和不足。针对其文本特征表示向量高维且稀疏、相似度计算复杂、资源利用率低等问题,本文提出了一种新的基于汉字部件直方图的文本复制检测模型。论文的主要工作如下:
  1)提出了以汉字部件直方图作为文本指纹特征的提取方法。首先根据汉字的结构特征和汉字的数学表达式理论将整个文本中出现的所有汉字进行部件拆分,接着分别对每种汉字部件进行计数统计,通过概率计算公式得到每种汉字部件在该文本中出现的概率,然后以汉字的部件编号为横坐标,以部件概率为纵坐标,做出统计图,称为文本汉字部件直方图,最终以此汉字部件直方图作为该文本的指纹特征标识。
  2)提出了通过计算部件直方图间的距离匹配值作为待检测文本之间复制检测结果的判断标准。本文分别设计了4种距离对比标准进行文本部件直方图间的距离匹配值运算,并通过实验分析最终选取了最合适的巴氏距离作为衡量直方图相似度距离的计算公式。
  3)采集了一定规模的数据源进行算法的模拟和实现。本文通过搜集400个词条文档作为数据源开展实验,实验结果表明基于汉字部件直方图的文本复制检测算法具有较好的查准率、召回率和F1值,同时在与基于余弦定理和基于Jaccard系数的复制检测方法对比实验中也进一步验证,新的复制检测方法不仅在时间复杂度和空间复杂度方面具有优势,在综合评价指标F1值上也具有可取性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号