首页> 中文学位 >基于XML文档相似度与聚类相结合的代码抄袭检测研究
【6h】

基于XML文档相似度与聚类相结合的代码抄袭检测研究

代理获取

摘要

目前,在这个信息化迅速发展的时代,随着计算机的广泛应用和互联网技术的普及,人们互相交流思想获取信息变得更加快速和便捷,抄袭现象也越来越普遍,手段也越来越隐蔽。在各个高校中,有很多非计算机专业和计算机专业的课程常依赖计算机进行考核和实践教学,从而导致作业中程序代码抄袭、克隆等现象越来越普遍。为了能够合理、有效的检验学生对所学课程的态度以及在课上的真实收获,就迫切需要一种能够检测代码相似度的工具来判断学生代码间是否存在抄袭。
   本文在深入分析目前国内外程序代码相似度研究的基础上,提出一种基于XML文档相似度与聚类相结合的代码抄袭检测方法。该方法包含以下五个步骤:①预处理。将待检测的源程序进行格式化处理并去掉一些对程序语义无关的内容,提取将C程序转化为XML文本时所需的特定程序代码标记字符串以及行号等属性特征,并将程序的关键结构信息与对应的行号匹配。②构建XML文本。将处理后的源程序转换成对应的XML文本。③计算相似度值。根据构建的XML文本来计算对应的文本的相似度结果。④聚类分析。根据程序的相似度计算结果和程序的特征属性,采用聚类分析的方法找出抄袭集群以及抄袭的“源头”。⑤汇总结果。根据程序相似度计算结果来生成对应的可视化检测报告,高亮显示出抄袭部分程序的具体位置等属性信息。
   在上述理论研究的基础上,设计并实现了一个基于XML文档相似度与聚类相结合的代码抄袭检测实验系统。实验表明,该系统能有效的检测出常见的抄袭现象,准确找到并显示抄袭部分的程序,并将待检测的程序按抄袭结构的不同分类,最终找到抄袭的“源头”。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号