大规模链接开放模式的构建及其在软件工程中的应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近年来，随着语义技术的发展，越来越多的链接开放数据（Linked Open Data，LOD）被发布到互联网上。互联网正从原来的网页之间的“文档互联网”转向结构知识互联的“数据万维网”。然而，尽管目前公开的LOD数据集中有数以亿记的三元组和实体，但其中的层次化知识和模式层的公理却非常有限。
　　为了填补轻量级的LOD数据和重量级本体表达之间的鸿沟，本文提出了链接开放模式（Linked Open Schema）的概念，并将其作为LOD数据的一种补充。本文以21个流行的英文社交站点中收集的类别和标签作为数据源，使用机器学习的方法，自动挖掘类别和标签的语义关系（如上下位关系，同义关系和相关性关系），构建了一个大规模的英文链接开放模式。在此基础上，本文将上下位关系挖掘的方法应用于软件工程领域，并针对Stackoverflow这一特殊的数据集，在机器学习框架内加入了新的特征，构建了一个软件编程概念网络。
　　本文的主要贡献和创新点包括：
　　1)研究提出了异构数据源的统一语义表示的方法。该方法分析数据源中概念的常见构词方法，对其进行分词并结构化，提取出中心词和修饰词，完成对概念的结构化表示；利用维基百科，将所有的类别和标签统一映射到维基百科中的概念，同时加入概念的上下层次和共现信息，以此作为概念的上下文表示。
　　2)研究提出了基于统一表示的多种语义关系度量。针对已有的LOD数据集中的数据，分析各种语义关系的数据对之间的内在语义和外在形式的特点，提出了基于外部知识库的语义计算方法，分析不同知识库的优劣，并能结合多种方法，最大限度地保证准确率和覆盖率；特别的，还将研究基于语义转换的语义关系度量方法，定量衡量语义关系。此外，还利用社交网站中概念的共现信息，提出基于统计的语义相关性度量方法。
　　3)研究提出了仅利用少量训练数据和全局结构信息的语义关系发现的方法。本文将关系发现问题转换成机器学习中的分类问题，为了解决训练数据的不足，本文采用了一种迭代的半监督的学习框架，并利用规则和全局结构信息，进行误分类和冗余的过滤，保证了迭代过程中发现的关系的质量。
　　作为上述研究的成果，本文构建和发布了两个大规模链接开放模式：Zhishi.schema，这是第一个公开的中英文链接开放模式数据集，包含了25,474个同义关系，1,047,801个上下位关系和1,327,631个相关关系；Software.zhishi.schema，一个大规模软件编程概念网络，包含了57,322个概念以及36,249个上下位关系和23,811个同义关系。相比于传统的数据集如DBpedia，Yago，BabelNet等，本文所构建的数据集拥有更多的概念和更细粒度的语义关系。

著录项

作者
朱剑钢;
展开▼
作者单位

上海交通大学;

展开▼
授予单位上海交通大学;
学科软件工程
授予学位硕士
导师姓名赵建军,沈备军;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类软件工程;
关键词
链接开放模式; 本体学习; 层次关系构建; 同义关系发现; 软件编程概念网络;

相似文献

中文文献
外文文献
专利

1. 大规模在线开放课程(MOOCs)背景下高职院校课堂教学模式的反思与构建 [J] . 张慧慧 . 科技风 . 2017,第015期
2. 开放式应用型软件工程人才培养模式创新 [J] . 韩利凯 . 科技广场 . 2013,第007期
3. 基于CDIO的软件工程专业创新应用型人才培养模式的构建与实践 [J] . 王立娟 ,刘丹妮 ,陶晓霞 . 价值工程 . 2017,第010期
4. 开放链接技术及其在数字图书馆中的应用 [J] . 路莹 . 中华医学图书情报杂志 . 2010,第007期
5. 引领式SPOC教学模式构建及在开放大学中的应用研究 [J] . 王朋娇 ,崔璨 ,姜爽 . 中国电化教育 . 2018,第009期
6. NIIT嵌入式教学模式在普通本科院校软件工程人才培养中的应用探索 [C] . 纪兆辉 ,伍俊明 . 2007年全国高校软件工程专业教育年会 . 2007
7. 构建中文大规模开放链接模式关键问题的研究 [A] . 吴天星 . 2014

大规模链接开放模式的构建及其在软件工程中的应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅