基于监督学习的bug报告和源代码摘要

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

开发者在执行软件任务时，需要与软件工件如bug报告、源代码仓库等进行交互，为了获取所需要的信息，也许需要彻底地通读整个工件。然而，从bug报告和源代码中提取有价值的信息是一项十分繁琐且耗时的任务。为了高效地求解这个任务，研究者建议为软件工件自动化地建立摘要信息。
　　在本文，为了方便开发者从bug报告和源代码仓库中高效地提取所需要的信息，我们提出使用有监督的学习技术来建立摘要信息。我们使用重复的bug报告来建立bug报告摘要信息，作为自然语言文本摘要任务的一个实例。在另一个调研中，我们执行源代码片段摘要，作为源代码到源代码摘要任务的一个实例。
　　对于bug报告，我们开发了一种基于PageRank的bug报告摘要算法(PageRankbased Summarization Technique)，简称为PRST。该算法使用三种不同的相似度度量方法，分别基于VSM、Jaccard和WordNet，来计算主bug报告和对应的重复的bug报告之间的相似度。由于公共可用的bug报告语料库中缺乏主bug报告和重复bug报告的对应关系，无法利用重复bug报告中包含的信息来执行bug报告摘要任务。因此，我们从Mozilla、KDE、Gnome和Eclipse项目中抽取出59个bug报告并建立了一个独立的bug报告语料库，称为OSCAR。同时，我们通过增加重复的bug报告来重构已有的BRC语料库，并将其作为对比语料库。我们采用几种先进的统计评价指标，即精度(Precision)、召回率(Recall)，F-Score和Pyramid Precision，外在地评价所提出的算法的有效性。结果显示我们提出的算法能够获得相对准确的bug报告摘要信息，并且，提高了已有的有监督的bug报告和精度。
　　同样地，为了建立源代码摘要信息，我们开发了一种基于SVM和NB分类器的代码片段摘要算法（Code Fragment Summarization，CFS）自动生成源代码片段中源到源摘要信息。在软件工件摘要范式中，我们首次引入了基于数据驱动的小规模的众包方法来帮助我们抽取源代码句法特征。我们从Eclipse和NetBeans官方FAQs中检索到127个代码片段并构建一个用于测试的代码片段语料库。我们同样采用先前提到的统计评价指标并比较已有的方法来验证我们提出的方法的有效性。结果显示我们的代码片段摘要器在精度上超过已有的代码片段摘要生成方法，同时句法特征对生成的摘要信息上的准确度有着重要的影响。生成的摘要信息能够有效地帮助开发者解决在手的软件任务，并有效地改善软件的性能和质量。

著录项

作者
NAJAM NAZAR;
展开▼
作者单位

大连理工大学;

展开▼
授予单位大连理工大学;
学科软件工程
授予学位博士
导师姓名江贺;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.52;
关键词
软件开发; bug报告; 源代码摘要; 监督学习;

相似文献

中文文献
外文文献
专利

1. 基于有监督学习方法的多文档文本情感摘要 [J] . 李艳翠 ,林莉媛 ,周国栋 . 中文信息学报 . 2014,第006期
2. 基于神经网络的自动源代码摘要技术综述 [J] . 宋晓涛 ,孙海龙 . 软件学报 . 2022,第1期
3. 基于源代码的ASP.NET HTTP Runtime分析摘要 [J] . 陈刚 . 价值工程 . 2012,第003期
4. 硬件产品BUG透视——显示卡BUG报告(一) [J] . 镜子 . 微型计算机 . 2002,第016期
5. 硬件产品bug透视——显示卡BUG报告(二) [J] . 三叶虫 . 微型计算机 . 2002,第019期
6. 基于政务应用系统源代码检测平台的软件安全评分系统设计 [C] . 刘凯俊 ,李晨旸 ,赵章界 . 第七届全国网络安全等级保护技术大会 . 2018
7. 基于缺陷报告和源代码的相似缺陷识别方法 [A] . 董美含 . 2018

基于监督学习的bug报告和源代码摘要

目录

摘要

著录项

相似文献

相关主题

期刊订阅