首页> 中文学位 >Web文档查询与信息检索导航技术的研究与实现
【6h】

Web文档查询与信息检索导航技术的研究与实现

代理获取

目录

文摘

英文文摘

独创性声明及学位论文版权使用授权书

第一章绪论

1.1问题提出

1.2课题来源

1.3本文的研究工作

1.4本文的组织结构

第二章相关概念与技术

2.1数据挖掘

2.2文本挖掘

2.2.1文本预处理

2.2.2文本聚类

2.2.3文本分类

2.3.1 Web挖掘技术

2.3.2 Web信息检索

2.4 XML文档查询

2.4.1 XML文档模型

2.4.2 XML文档编码

2.4.3 XML文档索引

2.4.4 XML文档查询

2.5本章小结

第三章基于语义的XML文档关键词查询

3.1问题提出

3.2相关工作

3.3基于语义的XML文档关键词查询相关性判别

3.3.1 LCA和PLCA

3.3.2语义相关的关键词查询结果判别准则

3.4基于语义的XML文档关键词查询

3.4.1 PN倒排索引的创建

3.4.2基于语义的XML文档关键词查询算法

3.5实验分析与比较

3.6本章小结

第四章基于XML文档模式与实体的半结构查询

4.1问题提出

4.2相关工作

4.2.1 XML文档检索

4.2.2结构查询扩展

4.2.3相关工作小结

4.3半结构查询的查询语法

4.4基于XML文档模式与实体的半结构查询相关性判别

4.4.1模式和实体

4.4.2相关性判断PE规则

4.4.3等价模式的判别方法

4.5基于PE索引的相关性判别

4.5.1 PE索引

4.5.2基于PE索引的相关性判别方法

4.5.3索引创建算法

4.6 XML文档半结构查询算法

4.7实验分析与比较

4.7.1实验设计

4.7.2实验结果

4.8本章小结

第五章 基于Web文档特征层次的信息检索导航

5.1问题提出

5.2最大序列频繁词组挖掘

5.2.1最大序列频繁词组定义

5.2.2最大序列频繁词组挖掘算法

5.3 Web文档特征层次结构创建

5.3.1 Web文档特征层次结构定义

5.3.2 Web文档特征层次的创建

5.4.1关键词—关键词导航

5.4.2关键词—文档导航

5.4.3文档—关键词导航

5.4.4基于Web文档特征层次结构的信息检索导航小结

5.5原型系统和用例

5.5.1原型系统设计

5.5.2用例分析

5.6相关工作及讨论

5.7本章小结

第六章结束语

6.1本文的主要贡献

6.2进一步的工作

参考文献

致谢

攻硕期间参与项目及发表论文

展开▼

摘要

在Internet上充斥着海量的信息,这些信息一方面为人们的生活提供了方便和帮助,另一方面也使得人们淹没在信息的海洋中而无所适从,无法有效地获取有用的信息。为了解决这些问题,数据挖掘和信息检索技术应运而生。尽管以往的研究人员在Web数据挖掘和信息检索领域取得了丰硕的成果,为用户提供了巨大的方便,但现有的技术仍然存在着不足,例如:XML格式文档的查询及Web信息检索导航等方面存在着不能很好满足用户需求的问题。 针对这些问题,本文首先介绍了数据挖掘和文本挖掘、Web数据挖掘和信息检索、XML文档及其查询的相关概念和技术,并将研究重点放在XML文档查询和Web文档检索导航上。在XML文档查询方面,针对关键词查询和半结构查询,分别提出了有效的索引结构和查询算法。介绍了LCA(LowestCommonAncestor)的概念并将其扩展到PLCA(LCAofLabelPath),提出了PLCA规则用于有效地判断XML文档节点间的语义相关性,利用XML文档模式与实体的概念进一步提高查询的准确率;提出了PN倒排索引和PE索引,并基于此设计了XML文档关键词查询算法和半结构查询算法。对于本文提出的各种算法,作了充分全面的实验,用于验证结果和比较其性能。 在Web文档检索导航方面,本文提出了在文献中挖掘最大序列频繁词组作为文献的特征,从而为用户提供辅助的Web文档检索结构;根据特征之间的层次关系建立扩展的特征层次树,依据树中特征与文献的关系推导出文献之间的关系,从而使用户在查询时根据上述关系,借助于搜索引擎尽快地获得所需的文献。在系统实现时,我们设计了基于Web文档特征层次结构的三种检索导航方式,并实现了一个原型系统将这三种导航方式有机地结合在一起,以简洁有效的方式为用户的检索过程提供帮助。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号