首页> 中文学位 >基于概率潜在语义分析的软件变更分类研究
【6h】

基于概率潜在语义分析的软件变更分类研究

代理获取

目录

封面

中文摘要

英文摘要

目录

1 绪 论

1.1 研究背景与意义

1.2 国内外研究现状

1.3 论文研究内容

1.4 论文组织结构

2 相关理论与技术

2.1 软件工程的数据挖掘概述

2.2 软件变更概述

2.3 主题模型概述

2.4 主题模型在软件工程中的应用概述

2.5 本章小结

3 软件变更日志数据抽取与预处理

3.1 实验数据集

3.2 软件变更日志抽取

3.3 软件变更日志预处理

3.4 本章小结

4 基于无监督PLSA的软件变更分类

4.1 PLSA主题模型

4.2 无监督PLSA主题建模

4.3 实验结果与分析

4.4 本章小结

5 基于半监督PLSA的软件变更分类

5.1 半监督PLSA主题模型

5.2 半监督PLSA主题建模

5.3 本章小结

6 总结与展望

6.1 总结

6.2 展望

致谢

参考文献

展开▼

摘要

软件变更是指软件开发者对软件系统的一次更改,在软件的整个生命周期中,追踪和理解软件变更发生的原因是一项重要且困难的任务。当前已经有研究者提出了基于关键词检索的方法来识别软件变更发生的原因,也取得了一定的成果,然而仍然存在一些尚未解决的问题,如在分析软件变更日志中存在的同义词与多义词问题。本文提出了一种基于半监督主题模型的方法来识别软件变更发生的原因,根据其原因对软件变更进行分类。研究对象为存储在软件版本控制系统(如SVN)中的软件变更日志,应用半监督主题模型对软件变更日志进行挖掘和分析,在主题提取上,采用了概率潜在语义分析Probabilistic Latent Semantic Analysis(PLSA)技术。主要工作内容如下:
  1.在软件版本库变更日志的数据抽取与预处理上,提出了联合 CvsAnaly, GATE, Wordnet三个工具的解决方案,并通过引用工具提供的API包实现了软件变更日志的数据抽取、存储与预处理;
  2.为解决以往基于关键词检索的软件变更分类中存在的同义与多义问题,提出了基于PLSA主题模型的解决方法,并利用Eclipse和MATLAB平台完成核心算法的编写;
  3.在应用PLSA主题模型时,针对原始的PLSA对方法进行了两点改进:第一则是单词本的构建上,在基于原始 PLSA的文本分析方法中,单词本是根据单词的频率排序进行构建,但软件工程领域的文本有着其特殊性,本文提出了一种基于软件变更先验知识的关键单词本构建方法;第二是在构建主题模型时,加入了软件变更领域的先验知识,通过加入部分带类标签的样本进行半监督主题建模来初始化词频矩阵,增加属于同一类别的关键单词的共现程度。
  4.通过在五个大型开源软件项目上的实验与验证,相比以往基于关键词检索的方法,本文所提出的基于半监督PLSA的分类方法能得到一个基于概率的,更恰当的以及更符合实际意义的分类结果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号