首页> 中文期刊> 《计算机工程与应用》 >基于主题的文档与代码间关联关系的提取研究

基于主题的文档与代码间关联关系的提取研究

         

摘要

In order to establish traceability between Chinese documentations and source codes more effectively, this paper proposes one method based on LDA model. It names the topic word-based Traceability Retrieval Method (TRM) in which the topic words are extracted according to Shannon information. Experimental result shows that, compared with the LSI method, the topic word method can increase the recall and precision from 2% to 5%.%软件文档及其程序代码之间的关联性或可追踪性分析是软件分析、理解的重要基础.探讨了软件的中文文档和程序代码中蕴含的主题及其相关性.针对软件文档的章节结构和词汇空间,以及程序代码结构、标识符命名空间、注释风格等方面的特点,在LDA模型的基础上提出了一种基于主题词的软件中文文档与代码间关联关系的分析方法.该方法依据词汇的香农信息提取文本段的主题词.实验结果表明,主题词分析方法与LSI模型分析方法相比在查全率和查准率上均有2%到5%的提高.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号