基于多粒度偏好的网络文本抄袭检测系统的研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着网络时代的到来，人们获取信息的方式从以前的报纸、杂志等发展到了现在的博客、论坛、微博等网络途径，人们可以随时随地的获取最新的消息。人们对于优质信息的需求也不断的变大，因此许多新闻网站、博客牛人应运而生，一篇好的文章，在带来巨大的阅读量的同时还能带来巨大的收益。与此同时，科技发展也让搜索变得更为方便，抄袭盗用的成本也大大降低，因此，侵权问题时常发生，这不仅仅是对原创作者利益的侵害，而且在这种不道德的行为蔓延到整个行业后，对整个中国的创新氛围也会产生极为不利的影响。
　　基于以上背景，本文设计并实现了一个基于多粒度偏好的网络文本抄袭检测系统，该系统的主要功能在于根据用户提交的文本或 URL，检测网络上是否存在抄袭与被抄袭现象，并生成相似度报告与相似文本来源占比图表。该系统的用户主要分为个人与企业，个人用户使用系统为网络文本的原创作者提供被抄袭证据，保护原创作者的权益；企业级用户使用系统检测企业站点文章是否存在抄袭其他站点文章的情况，避免企业因此陷入法律纠纷。
　　本文主要工作内容总结如下：
　　1)提出了一种基于《同义词词林》对传统的基于空间向量的余弦算法进行改进的文本相似度算法，并从理论和实验结果两个方面对该算法可行性进行证实。
　　2)提出以多粒度的方式进行文本相似度检测。其中，多粒度表现在网络爬虫与文本相似度计算两个方面。具体表现分别为：根据文本类型的粒度选择爬取相应的网络站点文本，如技术类文本选择主要爬取CSDN、新浪博客等技术型站点，新闻类文本主要爬取腾讯新闻等新闻网站等；根据用户选择的检测粒度调用不同的算法对文本进行相似度计算，如“快速检测”粒度采用传统的余弦算法，“普通检测”粒度采用改进的余弦算法，“详细检测”粒度则采用基于语义理解的文本相似度算法。
　　3)根据文本聚类结果检测系统中使用的文本相似度算法的性能，通过与传统余弦算法比较P、R、F三个评估参数值，确保系统中使用的算法在文本相似度检测方面能达到用户的需求。
　　4)对系统的功能和性能方面进行评估，分析系统的优势以及不足之处，并对系统的后续改进提出想法。

著录项

作者
马瑞霜;
展开▼
作者单位

电子科技大学;

展开▼
授予单位电子科技大学;
学科软件工程
授予学位硕士
导师姓名佘堃;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.09;
关键词
文本相似度算法; 余弦算法; 多粒度偏好; 语义理解; 网络文本; 抄袭检测;

相似文献

中文文献
外文文献
专利

1. 基于深度学习的网络文本多粒度情感提取 [J] . 万红新 ,彭欣悦 . 信息与电脑 . 2021,第012期
2. 一种基于多粒度语言偏好矩阵的多属性群决策方法 [J] . 张园林 ,匡兴华 . 控制与决策 . 2008,第11期
3. 基于网络文本分析的历史名园游客偏好研究 [J] . 胡杜娟 ,刘是亨 ,李倩 . 建材技术与应用 . 2021,第002期
4. 基于网络文本分析法下的阳朔乡村旅游游客偏好分析 [J] . 卢帅涛 . 南宁职业技术学院学报 . 2019,第001期
5. 基于组策略的SDN多粒度流量检测系统 [J] . 杜瑞颖 ,胡力 ,陈晶 . 计算机工程 . 2017,第004期
6. 请不要抄袭和使用抄袭的石灰窑 [C] . . 2008年中国石灰工业技术交流与合作大会 . 2008
7. 基于UML的C语言程序代码防抄袭检测系统的研究与实现 [A] . 单树倩 . 2013

基于多粒度偏好的网络文本抄袭检测系统的研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅