基于XML文档相似度与聚类相结合的代码抄袭检测研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

目前，在这个信息化迅速发展的时代，随着计算机的广泛应用和互联网技术的普及，人们互相交流思想获取信息变得更加快速和便捷，抄袭现象也越来越普遍，手段也越来越隐蔽。在各个高校中，有很多非计算机专业和计算机专业的课程常依赖计算机进行考核和实践教学，从而导致作业中程序代码抄袭、克隆等现象越来越普遍。为了能够合理、有效的检验学生对所学课程的态度以及在课上的真实收获，就迫切需要一种能够检测代码相似度的工具来判断学生代码间是否存在抄袭。
　　本文在深入分析目前国内外程序代码相似度研究的基础上，提出一种基于XML文档相似度与聚类相结合的代码抄袭检测方法。该方法包含以下五个步骤：①预处理。将待检测的源程序进行格式化处理并去掉一些对程序语义无关的内容，提取将C程序转化为XML文本时所需的特定程序代码标记字符串以及行号等属性特征，并将程序的关键结构信息与对应的行号匹配。②构建XML文本。将处理后的源程序转换成对应的XML文本。③计算相似度值。根据构建的XML文本来计算对应的文本的相似度结果。④聚类分析。根据程序的相似度计算结果和程序的特征属性，采用聚类分析的方法找出抄袭集群以及抄袭的“源头”。⑤汇总结果。根据程序相似度计算结果来生成对应的可视化检测报告，高亮显示出抄袭部分程序的具体位置等属性信息。
　　在上述理论研究的基础上，设计并实现了一个基于XML文档相似度与聚类相结合的代码抄袭检测实验系统。实验表明，该系统能有效的检测出常见的抄袭现象，准确找到并显示抄袭部分的程序，并将待检测的程序按抄袭结构的不同分类，最终找到抄袭的“源头”。

著录项

作者
贾胜颖;
展开▼
作者单位

内蒙古师范大学;

展开▼
授予单位内蒙古师范大学;
学科计算机科学与技术;计算机应用技术
授予学位硕士
导师姓名刘东升;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP391.78;
关键词
XML文档; 相似度特征; 代码抄袭检测; 可视化报告; 聚类分析;

相似文献

中文文献
外文文献
专利

1. 基于加权余弦相似度的XML文档聚类研究 [J] . 李巍 ,孙涛 ,陈建孝 . 吉林大学学报（信息科学版） . 2010,第001期
2. 基于直觉模糊聚类的电子作业抄袭检测研究 [J] . 张洁 ,鱼先锋 . 计算机与现代化 . 2014,第006期
3. 基于聚类方法的源代码相似度检测系统研究 [J] . 冯新 . 佳木斯大学学报：自然科学版 . 2016,第4期
4. 一种结构与内容相结合的XML文档聚类方法 [J] . 谌志群 ,王小华 ,王荣波 . 情报学报 . 2009,第005期
5. 基于DBSACN聚类算法的XML文档聚类 [J] . 张鑫 . 电子测试 . 2017,第015期
6. 基于加权层次结构的XML文档相似度算法 [C] . 孙霞 ,程宏斌 . 2009年湖北省计算机学会年会 . 2009
7. 基于代码相似度和机器学习的编程题分类及抄袭检测研究 [A] . 方国正 . 2020

基于XML文档相似度与聚类相结合的代码抄袭检测研究

摘要

著录项

相似文献

相关主题

期刊订阅