融合文本与分类信息的重复缺陷报告检测方法

范道远; 孙吉红; 王炜; 涂吉屏; 何欣

首页> 中文期刊> 《计算机科学》 >融合文本与分类信息的重复缺陷报告检测方法

融合文本与分类信息的重复缺陷报告检测方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

团队文献服务 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

cqvip:软件缺陷是软件出现错误、故障的根源。软件缺陷是需求分析不合理、编程语言不严谨、开发人员缺少经验等因素导致的。软件缺陷不可避免,提交缺陷报告是发现缺陷并改进缺陷的重要途径。缺陷报告是描述缺陷的载体,对缺陷报告的修复是完善软件的必要手段。维护人员和用户因同一缺陷重复提交报告,导致缺陷报告库中存在大量冗余的报告,手动分诊已无法适应越来越复杂的软件系统。重复缺陷报告检测能过滤缺陷报告库中冗余的重复报告,并将人力与时间投入到新的缺陷报告上。当前研究方法的预测准确率始终不高,其难点在于寻找一个合适且全面的方法来衡量缺陷报告之间的相似性。借鉴集成方法的思想,提出了一种基于文本信息、分类信息相融合的重复缺陷报告检测方法——BSO(combination of BM25F、LSI and One-Hot)。在数据预处理的基础上,文中将重复缺陷报告分割为文本信息域与分类信息域。在文本信息域上使用BM25F与LSI算法,得到两个方法的相似性打分,运用相似性融合方法将两个方法的相似性打分进行整合;在分类信息域上使用One-Hot算法得到相似性打分。运用相似性融合方法,融合文本信息域与分类信息域的相似性打分,为每个缺陷报告对应一个重复缺陷报告推荐列表,并计算重复缺陷报告检测的准确率。利用Python语言,在公开的数据集OpenOffice上与基线方法以及较新水平方法REP、DBTM进行对比。实验结果表明,与DBTM相比,本文方法的准确率平均提高了4.7%;与REP方法相比,本文方法的准确率平均提高了6.3%;与基线方法相比,本文方法的准确率提升较高。实验结果充分证明了BSO方法的有效性。

著录项

来源
《计算机科学》 |2019年第12期|192-200|共9页
作者
范道远; 孙吉红; 王炜; 涂吉屏; 何欣;
展开▼
作者单位

云南大学软件学院昆明 650500;

云南省科学技术院昆明 650091;

云南省软件工程重点实验室昆明 650500;

展开▼
原文格式 PDF
正文语种 chi
中图分类软件工程 ;
关键词
重复缺陷报告; 信息检索方法; 主题模型 ; One-Hot; 相似性融合;

相似文献

中文文献
外文文献
专利

1. 融合文本分布式表示的重复缺陷报告检测 [J] . 曾杰 ,贲可荣 ,张献 . 计算机工程与科学 . 2021 ,第004期
2. 一种新的基于N-gram模型的重复软件缺陷报告检测方法 [J] . 李宁 ,李战怀 ,张利军 . 西北工业大学学报 . 2010 ,第002期
3. 融合用户信息和评价对象信息的文本情感分类 [J] . 李俊杰 ,宗成庆 . 厦门大学学报（自然科学版） . 2018 ,第006期
4. 基于EMD和Snakes模型信息融合的表面缺陷检测方法 [J] . 乐静 ,郭俊杰 ,朱虹 . 仪器仪表学报 . 2006 ,第12期
5. 补充语义信息的多特征融合模糊文本分类 [J] . 张萌萌 ,梁艳红 . 信息技术与信息化 . 2021 ,第006期
6. 多分类器融合的文本分类技术研究 [C] . 陈庆轩 ,郑德权 ,赵铁军 . 2008年中国信息技术与应用学术论坛 . 2008
7. 融合知识库统计信息与概念信息的短文本分类方法 [A] . 王静 . 2020

融合文本与分类信息的重复缺陷报告检测方法

摘要

著录项

相似文献

相关主题

期刊订阅