首页> 中文学位 >知识驱动的文本分析软件生成方法及关键技术研究
【6h】

知识驱动的文本分析软件生成方法及关键技术研究

代理获取

目录

声明

致谢

摘要

图目录

表目录

1 绪论

1.1 研究背景

1.2 相关研究

1.2.1 知识驱动相关思想

1.2.2 代码选择方法

1.2.3 软件自动生成方法

1.2.4 文本分析软件

1.3 难点及创新点

1.3.1 创新点

1.3.2 难点

1.4 研究思路

1.5 内容安排

2 软件数据收集提取及关键技术研究

2.1 软件数据获取

2.1.1 教材示例代码获取

2.1.2 软件源码获取

2.2 代码解析

2.2.1 教材代码解析

2.2.2 软件源码解析

2.2.3 解析实例

2.3 关键技术

2.3.1 Java要素研究

2.3.2 软件逻辑研究

2.3.3 代码模块提取

2.3.4 实例

2.4 小结

3 知识驱动模型及其关键技术研究

3.1 模型构建方法

3.2 模型构建关键技术

3.2.1 Java基本模型构建

3.2.2 模型框架构建

3.3 代码评价方法

3.3.1 分词方法评价方法

3.3.2 代码相似度计算

3.3.3 代码评价指标

3.4 知识驱动模型构建方法

3.5 小结

4 软件生成平台开发

4.1 平台结构

4.2 功能模块

4.3 页面设计

4.4 关键技术

4.4.1 标签提取

4.4.2 软件生成思路

4.4.3 软件生成原理

4.4.4 软件结构研究

4.4.5 软件生成方法

4.5 小结

5 文本分析软件生成实例及结果分析

5.1 实验设计

5.2.1 软件数据获取及解析

5.2.2 知识驱动模型构建

5.2.3 软件生成

5.3 实验结果

5.4 小结

6 结语

6.1 总结

6.2 展望

参考文献

附录

书目

作者简历

学位论文数据集

展开▼

摘要

技术工具化,工具业务化,业务自动化成为情报学研究领域的一种趋势,同时也是情报学科近几年来研究的重点和热点之一。由于计算机的大量普及,在情报学的研究中,使用大量的软件工具开展研究成为了一种趋势,其中涉及了大量与自然语言处理相关的技术。一方面,传统的情报分析人员对技术和工具的研究并不深入,无法选择合适的技术和工具定制化的解决情报研究中出现的问题。另一方面,市场上存在着大量工具可供情报分析人员使用,但是随着情报研究的不断深入,研究对工具定制化的需求也越来越高,要在当前大量的工具中找到适合处理当前资源的工具比较困难,并且市场上的工具都是面向通用资源的,软件普遍的自适应性比较差,具有一定的局限性,对某种特定资源的处理效果并不理想。因此,本文基于这种大量使用软件的趋势和软件普遍自适应性较差的现状,借助自然语言处理的方法,开展了软件自动生成相关的研究。
  通过大量的调研发现,知识驱动的方法针对性较强,能够有效的适应不同环境下的需求,能够对当前环境下的需求做出分析并提出解决方案,与本文的研究目的相符合,所以,本文将文本分析软件作为研究对象,主要研究知识驱动的软件生成方法和关键技术。研究成果有以下几点:
  对软件数据的收集和提取的方法及关键技术进行了研究,包括各类软件数据的获取、清洗和解析过程中使用的方法和关键技术。本文的软件数据主要有两个来源,教材示例代码和开源软件,共获取到9349个类,将这两种不同来源的代码使用自然语言处理的方法进行不同颗粒度的解析和标注。教材代码在“方法”颗粒度上解析,使用字符串匹配的方法将每个代码文件中的每个单独的方法提取出来,以便对java代码的基本结构进行分析;软件源码在“代码行”颗粒度上解析并标注,根据java代码的特点和软件生成的特点,定义了一系列的标签,使用标签对每代码行进行标注,为知识驱动的软件生成提供规范化的软件语料,这种语料是经过深加工的、以代码生成为目标进行规范化处理的。其中的关键技术包括Java要素分析、软件逻辑提取和代码模块提取;
  对知识驱动模型的构建及其关键技术进行了介绍,用知识驱动模型指导规范的软件语料,能够实现软件的自动生成。首先使用自然语言处理的方法分析上文得到的语料,构建Java基本模型,在Java基本模型的基础上结合软件逻辑构建知识驱动模型框架。知识驱动模型的构建过程中需要对代码进行评价和选择,使用三种方法对代码模块进行评价:分词方法评价、代码相似度计算和代码指标评价。最后,研究了三种知识驱动模型的构建方法,分别是:通用知识驱动模型、文本语言驱动模型和软件复杂程度驱动模型。根据要处理的文本的特点及用户的需求,结合代码分析的结果,用知识驱动模型框架作为指导,能够得到特定的知识驱动模型;
  搭建了一个软件生成平台,将本文研究的内容集成到平台中,该平台分为4个功能模块:原料软件管理模块、代码模块管理模块、文本分析模块和软件生成管理模块,能够实现软件的自动生成和生成代码的修改。
  以文本分析软件为研究对象,分别解析了9种分词软件,并根据解析的结果构建了知识驱动模型,设计了两组实验,第一组进行了文本语言驱动的软件生成,第二组进行了软件复杂程度驱动软件的生成,取得了很好的效果,并对结果进行了分析。

著录项

  • 作者

    贾艾婧;

  • 作者单位

    中国科学技术信息研究所;

  • 授予单位 中国科学技术信息研究所;
  • 学科 情报学
  • 授予学位 硕士
  • 导师姓名 刘耀,屈宝强;
  • 年度 2017
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.52;
  • 关键词

    文本分析软件; 自动生成; 模块化设计; 知识驱动;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号