Web旅游文化挖掘中的实体关系抽取及知识链接系统构建

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着社会的不断发展和工作压力的不断增加，旅游成为了人们释放压力和享受生活的一种方式。人们的文化程度越来越高，在观光旅游时不仅寻求美丽的自然景观，还期待着丰富的文化体验。Web中含有大量的文化旅游信息，包括自然景观介绍、名人趣事、景点相关诗歌、电影等等。如何从杂乱的、无结构的文本中识别和挖掘出游客们感兴趣的文化信息，丰富景点的文化内涵昵？利用信息抽取技术就可以提取到上述相关信息。本文从旅游文化挖掘的角度出发，对Web旅游信息文本进行命名实体识别和实体关系抽取，并将抽取的知识构建成关系网络（即知识图谱）。
　　命名实体识别主要有基于规则和机器学习两种方法。基于机器学习的方法虽然有很好的统计基础，但需要大量的人工标注语料，且特征的好坏直接影响到性能。基本上，要是能够设计制定出合适的规则，那基于规则的方法在效率和准确性方面，都会比基于机器学习的方法更好。本文的Web旅游信息文本数据句型单一，内容耦合度相对较高，且本文关注的5类实体均含有组合实体和泛指实体。但这5类实体在词、词性组合和依存关系路径上存在着共同点，如:动词只能作为修饰成分或者状语成分出现在实体中;实体首部和尾部大都为名词等等。因而，本文在对文本进行分句、分词、词性标注、依存句法分析和语义角色标注后，结合词、词性组合和依存句法结构提出了候选实体抽取算法，实验结果表明实体召回率能够达到96％。然后，用实体后缀词规则和机器学习的方法对实体进行分类剪枝，最终性能F值能够达到91％，基本上能够识别和分类出所有的实体。
　　通过分析Web旅游文本的句式特点，提出了最近句法依赖动词特征，并通过实验验证了其有效性。本文在命名实体识别的基础上，对数据进行二次处理，最后使用基于特征向量的机器学习方法进行关系抽取。同时，为了寻求最优特征，本文综合了以往研究中提出的词、句法和语义特征。本文一共进行了14组实验对比，探讨和分析了不同特征对关系抽取的影响，并找出了最适合Web旅游信息文本的特征。
　　为了更加丰富关系抽取的结果，本文设计了3条时间填充原则，为关系抽取的结果加入时间元组。将数据文本、实体、实体关系和景区包含关系构建成知识库，最终以文字、表和图形化的形式呈现出来，开发出了旅游文化知识链接系统。

著录项

作者
钟青;
展开▼
作者单位

江西财经大学;

展开▼
授予单位江西财经大学;
学科计算机科学与技术
授予学位硕士
导师姓名万常选;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
信息处理; 文本识别; 数据挖掘; 关系抽取; 知识链接系统;

相似文献

中文文献
外文文献
专利

1. Web结构挖掘中基于熵的链接分析法 [J] . 王勇 ,杨华千 ,李建福 . 计算机工程与设计 . 2006,第009期
2. Web使用模式挖掘在商务网站链接结构优化中的应用 [J] . 王玉珍 . 计算机时代 . 2006,第005期
3. 文本数据挖掘技术在Web知识库中的应用研究 [J] . 蔡立斌 . 科技通报 . 2012,第12期
4. WEB文本挖掘在客户知识管理中的应用 [J] . 景艳 . 合作经济与科技 . 2009,第016期
5. 利用Web挖掘技术加强电子商务中的知识管理 [J] . 王鸿彬 ,吴中元 . 商场现代化 . 2007,第03S期
6. 基于链接分析的WEB社区挖掘探讨 [C] . YAO Aiguo ,姚爱国 ,DENG Zhen . 第18届全国计算机新科技与计算机教育学术大会 . 2007
7. Web链接结构挖掘中HITS算支的分析与改进 [A] . 张阿红 . 2009

Web旅游文化挖掘中的实体关系抽取及知识链接系统构建

目录

摘要

著录项

相似文献

相关主题

期刊订阅