基于实体的XML关键字搜索问题研究

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

XML(eXtensible Markup Language)即可扩展标记语言,是W3C定义的一套语义标记规范。随着网络应用的快速发展,Web上的数据成指数级增长,XML逐渐成为Internet上数据交换和描述信息的标准格式,广泛应用于数字图书馆、数据集成、Web服务等领域,这使得XML类型数据成为网络上主流数据形式,从XML数据中提取有用信息成为了当前研究的重要方向。
　　相较于XML结构化查询,XML关键字查询成为XML数据检索的重要分支。XML关键字搜索方法都是以LCA(Lowest Common Ancestor)为基础形成的。为了提高搜索质量和效率,研究人员又提出了许多查询语义,包括SLCA(SmallestLCA),MLCA(Meaningful LCA)、VLCA(Valuable LCA)等。这些查询语义及实现算法在实际应用中可能存在一些问题,如返回无意义结果、丢失有意义信息等。
　　本文考虑到一个XML文档可以看作现实世界中实体、属性、值构成的集合,这与关系数据库中ER模型相似。XML文档中不同元素代表不同信息类型,将XML文档元素进行分类,以实体作为基本查询单元来定义XML关键字搜索的查询语义,提出了最低公共实体祖先LCEA的概念,一个LCEA结点是描述现实世界完整信息单元的实体对象。在LCEA的基础上,提出了最小的最低公共实体祖先SLCEA(Small Lowest Common Entity Ancestor),为用户提供了简单易用搜索方法,解决了返回结果不完全和返回结果无意义的问题。
　　在实体概念的基础上,根据元素之间关系改进了XML关键字搜索方法,使之不仅支持明确查询,而且支持XML关键字模糊查询和高级搜索。首先根据不同实体对查询关键字进行分区,然后过滤实体分区倒排表,最后采用ILE算法计算最小最低共同实体祖先。在输出结果时,根据SLCEA不同情况分别推断出不同的输出信息。对于模糊查询处理,本文的方法能够识别和排序不同的搜索意图,并分别返回每个搜索意图的结果。最后实验验证了本文方法在搜索质量和执行效率方面的性能。

著录项

作者
刘朝锋;
展开▼
作者单位

山东大学;

展开▼
授予单位山东大学;
学科计算机软件与理论
授予学位硕士
导师姓名洪晓光;
年度 2012
页码
总页数
原文格式 PDF
正文语种 chi
中图分类检索机;
关键词
关键字查询; 可扩展标记语言; 搜索质量; 执行效率;

相似文献

中文文献
外文文献
专利

1. 基于RANK和结果缓存的XML关键字搜索引擎 [J] . 高锦涛 ,高腾 ,李威 . 计算机应用与软件 . 2012,第005期
2. 基于结构语义的XML关键字搜索 [J] . 杨晓东 ,朱皓 ,杨卫东 . 计算机应用与软件 . 2009,第010期
3. 一种基于XLCA的XML关键字搜索方法 [J] . 许建军 ,汪卫 ,施伯乐 . 小型微型计算机系统 . 2008,第001期
4. 融合关键字搜索的XML非结构化查询 [J] . 李寅珠 . 知识经济 . 2011,第013期
5. XML关键字搜索技术 [J] . 王星军 ,李振芳 . 山西大学学报：自然科学版 . 2009,第A01期
6. Ropeway:基于语义相关的XML关键字搜索引擎 [C] . 郭文琪 ,温馨 ,王鹏 . 第27届中国数据库学术会议 . 2010
7. XML关键字搜索结果排序问题研究 [A] . 苑志朋 . 2017

基于实体的XML关键字搜索问题研究

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅