首页> 中文学位 >基于多粒度偏好的网络文本抄袭检测系统的研究与实现
【6h】

基于多粒度偏好的网络文本抄袭检测系统的研究与实现

代理获取

目录

声明

第一章 绪 论

1.1 研究工作的背景与意义

1.2 文本相似度检测的国内外研究历史与现状

1.3 本文的主要内容

1.4 本论文的结构安排

第二章 相关技术介绍

2.1 网络爬虫

2.2 文本相似度算法

2.3 非关系型数据库

2.4 Apache Shiro

2.5 本章小结

第三章 需求分析

3.1 需求概述

3.2 系统功能性需求分析

3.3 系统性能性需求分析

3.4 本章小结

第四章 基于多粒度偏好的网络文本抄袭检测系统的设计与实现

4.1 系统总体设计

4.2 数据库的设计与实现

4.3 网络爬虫部分的设计与实现

4.4 多粒度检测文本相似度算法部分的设计与实现

4.5 用户权限管理部分的设计与实现

4.6 用户缴费部分的设计与实现

4.7 本章小结

第五章 系统测试

5.1 系统算法测试

5.2 系统基本功能测试

5.3 系统性能测试

5.4 本章小结

第六章 全文总结与展望

6.1 全文总结

6.2 后续工作展望

致谢

参考文献

展开▼

摘要

随着网络时代的到来,人们获取信息的方式从以前的报纸、杂志等发展到了现在的博客、论坛、微博等网络途径,人们可以随时随地的获取最新的消息。人们对于优质信息的需求也不断的变大,因此许多新闻网站、博客牛人应运而生,一篇好的文章,在带来巨大的阅读量的同时还能带来巨大的收益。与此同时,科技发展也让搜索变得更为方便,抄袭盗用的成本也大大降低,因此,侵权问题时常发生,这不仅仅是对原创作者利益的侵害,而且在这种不道德的行为蔓延到整个行业后,对整个中国的创新氛围也会产生极为不利的影响。
  基于以上背景,本文设计并实现了一个基于多粒度偏好的网络文本抄袭检测系统,该系统的主要功能在于根据用户提交的文本或 URL,检测网络上是否存在抄袭与被抄袭现象,并生成相似度报告与相似文本来源占比图表。该系统的用户主要分为个人与企业,个人用户使用系统为网络文本的原创作者提供被抄袭证据,保护原创作者的权益;企业级用户使用系统检测企业站点文章是否存在抄袭其他站点文章的情况,避免企业因此陷入法律纠纷。
  本文主要工作内容总结如下:
  1)提出了一种基于《同义词词林》对传统的基于空间向量的余弦算法进行改进的文本相似度算法,并从理论和实验结果两个方面对该算法可行性进行证实。
  2)提出以多粒度的方式进行文本相似度检测。其中,多粒度表现在网络爬虫与文本相似度计算两个方面。具体表现分别为:根据文本类型的粒度选择爬取相应的网络站点文本,如技术类文本选择主要爬取CSDN、新浪博客等技术型站点,新闻类文本主要爬取腾讯新闻等新闻网站等;根据用户选择的检测粒度调用不同的算法对文本进行相似度计算,如“快速检测”粒度采用传统的余弦算法,“普通检测”粒度采用改进的余弦算法,“详细检测”粒度则采用基于语义理解的文本相似度算法。
  3)根据文本聚类结果检测系统中使用的文本相似度算法的性能,通过与传统余弦算法比较P、R、F三个评估参数值,确保系统中使用的算法在文本相似度检测方面能达到用户的需求。
  4)对系统的功能和性能方面进行评估,分析系统的优势以及不足之处,并对系统的后续改进提出想法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号