基于多粒度特征的XML关键字检索研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

近年来，XML的广泛运用使其迅速成为互联网上数据表达和交换的标准，网络中XML文档的数目以指数级形式不断增加。而关键字检索作为一种高效的信息检索模式，目前已经广泛应用到XML文档检索领域中。最近的研究大多围绕“近似关键字查询”主题展开了研究，但是由于关键字本质上具有一定的模糊性和不精确性，因而不能准确地描述用户真实的查询意图，检索结果也不尽如人意。一方面，执行关键字检索时可能返回大量的检索结果，因而检索结果聚类是返回高质量检索结果的重要手段;另一方面，同一个聚集中必然存在多个候选结果能够匹配关键字查询，基于聚类内部的排序机制也是实现高效查询的重要途径。
　　本文围绕解决“返回有意义的XML聚类结果”现象展开了研究，针对XML检索结果聚类和聚类内部检索结果排序这两个方面进行了数学建模和算法分析。因此，提出了基于多粒度特征的XML关键字检索方法。在该方法中，提出了聚类紧密度(ClusterCompactnessGranularity，CCG)的聚类相似性度量方法，从而将相似的检索结果聚簇在一起，形成了若干与查询意图相关的聚集。此外，提出了子树紧密度（SubtreeCompactnessGranularity，SCG）的查询相关性度量方法，区别于传统的信息检索排序机制，该粒度实现了基于聚类内部的候选匹配子树的排序。其次，本文定义了紧密LCA(CompactLCA，CLCA)语义，通过消除冗余的LCA节点从而解决了识别相关匹配的问题，其次识别出错误过滤掉的LCA节点进而解决识别相关不匹配的问题，并且从本质上避免了基于SLCA方法的屏蔽效应以及隔离性的问题。
　　本文设计实现了基于图的算法XEdge，将CLCA语义、CCG以及SCG粒度三个特征有机地融合在一起，并且将其与算法XSeek与XKLUSTER在聚类数量、查准率和查全率三个方面进行了对比和分析。实验结果表明XEdge能产生高质量的XML聚类结果，同时具有更好的检索性能。

著录项

作者
甘园园;
展开▼
作者单位

大连理工大学;

展开▼
授予单位大连理工大学;
学科计算机应用技术
授予学位硕士
导师姓名梁文新;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类检索机;
关键词
XML关键字检索; 多粒度特征; 聚类紧密度; 数学建模; 算法分析;

相似文献

中文文献
外文文献
专利

1. 基于关键字密度的XML关键字检索 [J] . 覃遵跃 ,汤庸 ,徐洪智 . 软件学报 . 2019,第004期
2. 基于关键字权重及结构扩展的XML检索 [J] . 路芳瑞 . 陕西科技大学学报（自然科学版） . 2011,第006期
3. MXDR:一种基于关键字的XML多文档分布式检索方法 [J] . 李霞 ,李战怀 ,张利军 . 计算机科学 . 2011,第010期
4. MXDR:一种基于关键字的XML多文档分布式检索方法 [J] . 李霞 ,李战怀 ,张利军 . 计算机科学与探索 . 2011,第010期
5. 一种基于XML文档关键字检索的结构索引 [J] . 娄颖 ,李战怀 ,郭文琪 . 计算机科学 . 2010,第012期
6. 基于关键字的XML信息检索反馈技术的研究 [C] . 温馨 ,王鹏 ,李少亮 . 第27届中国数据库学术会议 . 2010
7. 基于最紧致片段XML关键字检索研究 [A] . 杨善勇 . 2011

基于多粒度特征的XML关键字检索研究

摘要

著录项

相似文献

相关主题

期刊订阅