首页> 中文学位 >大规模链接开放模式的构建及其在软件工程中的应用
【6h】

大规模链接开放模式的构建及其在软件工程中的应用

代理获取

目录

声明

1绪 论

1.1 研究背景

1.2 研究目标和关键问题

1.3 论文结构

2相关技术与研究现状分析

2.1 本体学习

2.2 本体对齐

2.3 软件编程概念网络构建

2.4 本章小结

3大规模链接开放模式的构建

3.1 问题定义和总体方案

3.2 类别标签的结构化分析

3.3 数据分块和候选对的生成

3.4 转换模式的生成

3.5 基于机器学习的语义关系发现

3.6 基于规则的语义约束

3.7 实验

3.8 本章小结

4大规模软件编程概念网络的构建

4.1 挑战和总体方案

4.2 训练数据的生成

4.3 特征抽取

4.4 上下位关系的发现

4.5 同义关系的发现

4.6 有向无环图的构建

4.7 实验

4.8 大规模软件编程概念网络的发布

4.9 软件编程概念网络的应用示例

4.10 本章小结

5总结与展望

5.1 本文工作小结

5.2 展望

参考文献

致谢

攻读学位期间发表的学术论文

展开▼

摘要

近年来,随着语义技术的发展,越来越多的链接开放数据(Linked Open Data,LOD)被发布到互联网上。互联网正从原来的网页之间的“文档互联网”转向结构知识互联的“数据万维网”。然而,尽管目前公开的LOD数据集中有数以亿记的三元组和实体,但其中的层次化知识和模式层的公理却非常有限。
  为了填补轻量级的LOD数据和重量级本体表达之间的鸿沟,本文提出了链接开放模式(Linked Open Schema)的概念,并将其作为LOD数据的一种补充。本文以21个流行的英文社交站点中收集的类别和标签作为数据源,使用机器学习的方法,自动挖掘类别和标签的语义关系(如上下位关系,同义关系和相关性关系),构建了一个大规模的英文链接开放模式。在此基础上,本文将上下位关系挖掘的方法应用于软件工程领域,并针对Stackoverflow这一特殊的数据集,在机器学习框架内加入了新的特征,构建了一个软件编程概念网络。
  本文的主要贡献和创新点包括:
  1)研究提出了异构数据源的统一语义表示的方法。该方法分析数据源中概念的常见构词方法,对其进行分词并结构化,提取出中心词和修饰词,完成对概念的结构化表示;利用维基百科,将所有的类别和标签统一映射到维基百科中的概念,同时加入概念的上下层次和共现信息,以此作为概念的上下文表示。
  2)研究提出了基于统一表示的多种语义关系度量。针对已有的LOD数据集中的数据,分析各种语义关系的数据对之间的内在语义和外在形式的特点,提出了基于外部知识库的语义计算方法,分析不同知识库的优劣,并能结合多种方法,最大限度地保证准确率和覆盖率;特别的,还将研究基于语义转换的语义关系度量方法,定量衡量语义关系。此外,还利用社交网站中概念的共现信息,提出基于统计的语义相关性度量方法。
  3)研究提出了仅利用少量训练数据和全局结构信息的语义关系发现的方法。本文将关系发现问题转换成机器学习中的分类问题,为了解决训练数据的不足,本文采用了一种迭代的半监督的学习框架,并利用规则和全局结构信息,进行误分类和冗余的过滤,保证了迭代过程中发现的关系的质量。
  作为上述研究的成果,本文构建和发布了两个大规模链接开放模式:Zhishi.schema,这是第一个公开的中英文链接开放模式数据集,包含了25,474个同义关系,1,047,801个上下位关系和1,327,631个相关关系;Software.zhishi.schema,一个大规模软件编程概念网络,包含了57,322个概念以及36,249个上下位关系和23,811个同义关系。相比于传统的数据集如DBpedia,Yago,BabelNet等,本文所构建的数据集拥有更多的概念和更细粒度的语义关系。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号