首页> 中文学位 >语义网图中文本相似度方法的应用研究
【6h】

语义网图中文本相似度方法的应用研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景

1.2 国内外研究现状

1.3 本文的主要工作内容

1.4 论文的组织结构

第二章 文本相似度及语义网

2.1 文本相似度算法

2.2 本体论和概念相似度

2.3 本体版本

2.4 语义网络文档的变化计算

第三章 语义网络图相似度和变量增量

3.1 问题的提出及处理

3.1.1 标准表示

3.1.2 简化形式

3.1.3 相似度度量

3.1.4 分类

3.2 计算两个版本之间的向量δ

3.2.1 原始变量δ

3.2.2 演绎闭包的向量δ

3.2.3 本体论的类级别变量δ

3.2.4 检测类重命名的启发式方法

第四章 实验及结果

4.1 实验

4.2 成对探测相似度

4.2.1 检测文字内容的区别

4.2.2 检测基本URI的区别

4.2.3 检测版本关系

4.3 变量δ的正确性

第五章 总结与展望

5.1 总结

5.2 展望

5.2.1 稳定性

5.2.2 变量δ准确性

5.2.3 预测两个版本之间的变化方向

参考文献

致谢

攻读学位期间发表的学术论文列表

展开▼

摘要

随着大数据时代的到来和教育水平的不断提高,重复文档的数量也正与日俱增,文档和论文相似度查重也越发迫在眉睫。文档的相似度计量主要是通过进行转换,将其转化成距离、角度或弯曲度等来度量,从而实现较好的计量效果。余弦相似度,一种计量文档相似度的常用方法,能较好的反应文档的相似程度。但其本身对数量和比重不敏感,这给相似度度量带来了不少麻烦。据2008年不完全统计,在Internet上有大约40%的网络资源跟其他的网络资源是重复的。重复资源或者近似重复的资源增加了搜索引擎的索引数量,并且对检索结果也产生了不小的影响。近似重复检测问题在信息检索领域已经是家喻户晓了。在这里希望改进相似度判别算法以及改进爬虫来实现避免对重复资源的爬取。
  网络资源和网络图表在一定程度上比纯文本信息要复杂的多,在一个文本文件中,语句顺序可以被转换成含义,而网络资源不可以被转换成含义,最终,相似语义网络资源将拥有复杂的不同语句顺序。同样的,在基于文本的近似重复检测中,内容的含义查重并不是太大的问题,但是语义网络文档,这个问题很突出,假设有两个不同的语义网络文档,如果计算它们的演绎闭包很可能是一样的。在语义网络图片中,除了语句顺序之外,同时需要验证空节点。空节点是不具有URI的匿名资源,并且没有文字含义。
  1998年提出万维网的互联网专家蒂姆·伯纳斯-李提出了语义网络的概念,它现在已经发展成为自然语言理解和认知科学领域研究的一个概念,用它来表达那些复杂概念及其它们之间的关系。语义网的表示形式是一个有向图,其中点代表概念,边代表这些概念之间的语义关系,这样来形成一个由节点和弧组成的语义网络描述图。蒂姆·伯纳斯-李提出了另一个关于语义网的概念,那就是我们现在家喻户晓的万维网(World Wide Web),语义网络只是其相关的基础理论。语义网相比于传统的互联网具有较好的语义判别和交互性。
  两个语义网络文档或者网络语图是相似的,描述它们的不同之处在检索、更新、版本控制等方面有很大的作用。在本文中,描述了一些列的文本相似度度量方法,用来表达它们之间的关系,并且计量它们的不同。本研究通过对语义网图进行标准化处理、简化处理、相似度度量以及分类等相关的操作来进行语义网图相似度的判别。同时,为了区分两个语义网图之间的相似度,定义了一个变量来表示它们之间的版本关系。这个变量通过对其元组进行添加和删除来保持两者的平衡,并且此变量是通过判断RDF图表序列化,而不仅仅根据文档的URI来判定两者之间的相似度。
  最后,通过实验验证了提出了语义网相似度度量具有较好的实验效果。但是由于时间比较仓促所以难免存在其他的一些问题,像稳定性等有待我们后期继续完善。

著录项

  • 作者

    李明;

  • 作者单位

    山东大学;

  • 授予单位 山东大学;
  • 学科 软件工程
  • 授予学位 硕士
  • 导师姓名 赵合计;
  • 年度 2015
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP391.43;
  • 关键词

    语义网图; 文本相似度; 判别算法; 网络资源;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号