首页> 中文学位 >Web旅游文化挖掘中的实体关系抽取及知识链接系统构建
【6h】

Web旅游文化挖掘中的实体关系抽取及知识链接系统构建

代理获取

目录

声明

摘要

1 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.2.1 旅游网站现状

1.2.2 命名实体识别研究现状

1.2.3 实体关系抽取研究现状

1.3 本文主要研究内容

1.4 论文结构安排

2 相关理论与技术简介

2.1 命名实体识别简介

2.2 实体关系抽取简介

2.3 SVM分类器

2.4 哈工大LTP系统

2.5 本章小结

3 基于词法和句法的旅游实体识别

3.1 引言

3.2 数据集构建

3.2.1 数据收集

3.2.2 数据预处理

3.2.3 人工标注

3.2.4 数据二次处理

3.3 基于词法和句法的旅游实体识别

3.3.1 旅游文本实体特征分析

3.3.2 候选实体提取

3.3.3 实体分类和剪枝

3.4 实验评测

3.4.1 评测指标

3.4.2 实验结果及分析

3.5 本章小结

4 实体关系抽取

4.1 引言

4.2 最近句法依赖动词特征

4.2.1 最近句法依赖动词特征简介

4.2.2 最近句法依赖动词特征提取

4.2.3 抽取效果的实验评测

4.3 实体关系抽取的实验结果及分析

4.3.1 词特征在实体关系抽取中的影响

4.3.2 句法特征在实体关系抽取中的影响

4.3.3 语义特征在实体关系抽取中的影响

4.4 本章小结

5 旅游文化知识链接系统构建

5.1 总体功能框架

5.1.1 时间数据处理

5.1.2 系统功麓模块

5.2 数据库设计

5.3 界面设计与部分功能展示

5.4 本章小结

6 总结与展望

6.1 工作总结

6.2 未来工作展望

参考文献

攻读硕士学位期间科研成果

致谢

展开▼

摘要

随着社会的不断发展和工作压力的不断增加,旅游成为了人们释放压力和享受生活的一种方式。人们的文化程度越来越高,在观光旅游时不仅寻求美丽的自然景观,还期待着丰富的文化体验。Web中含有大量的文化旅游信息,包括自然景观介绍、名人趣事、景点相关诗歌、电影等等。如何从杂乱的、无结构的文本中识别和挖掘出游客们感兴趣的文化信息,丰富景点的文化内涵昵?利用信息抽取技术就可以提取到上述相关信息。本文从旅游文化挖掘的角度出发,对Web旅游信息文本进行命名实体识别和实体关系抽取,并将抽取的知识构建成关系网络(即知识图谱)。
  命名实体识别主要有基于规则和机器学习两种方法。基于机器学习的方法虽然有很好的统计基础,但需要大量的人工标注语料,且特征的好坏直接影响到性能。基本上,要是能够设计制定出合适的规则,那基于规则的方法在效率和准确性方面,都会比基于机器学习的方法更好。本文的Web旅游信息文本数据句型单一,内容耦合度相对较高,且本文关注的5类实体均含有组合实体和泛指实体。但这5类实体在词、词性组合和依存关系路径上存在着共同点,如:动词只能作为修饰成分或者状语成分出现在实体中;实体首部和尾部大都为名词等等。因而,本文在对文本进行分句、分词、词性标注、依存句法分析和语义角色标注后,结合词、词性组合和依存句法结构提出了候选实体抽取算法,实验结果表明实体召回率能够达到96%。然后,用实体后缀词规则和机器学习的方法对实体进行分类剪枝,最终性能F值能够达到91%,基本上能够识别和分类出所有的实体。
  通过分析Web旅游文本的句式特点,提出了最近句法依赖动词特征,并通过实验验证了其有效性。本文在命名实体识别的基础上,对数据进行二次处理,最后使用基于特征向量的机器学习方法进行关系抽取。同时,为了寻求最优特征,本文综合了以往研究中提出的词、句法和语义特征。本文一共进行了14组实验对比,探讨和分析了不同特征对关系抽取的影响,并找出了最适合Web旅游信息文本的特征。
  为了更加丰富关系抽取的结果,本文设计了3条时间填充原则,为关系抽取的结果加入时间元组。将数据文本、实体、实体关系和景区包含关系构建成知识库,最终以文字、表和图形化的形式呈现出来,开发出了旅游文化知识链接系统。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号