首页> 中文学位 >面向Web的XML文档数据管理及分类检索技术研究
【6h】

面向Web的XML文档数据管理及分类检索技术研究

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1选题的研究背景和意义

1.2 XML数据库相关技术及国内外研究现状

1.2.1 XML数据库管理系统

1.2.2 XML数据库分类及存储

1.2.3 XML数据索引

1.2.4 XML数据模式

1.2.5 XQuery查询语言及查询代数

1.3 Web信息检索技术

1.4 XML为Web信息检索带来的希望和挑战

1.5本文的主要工作和创新点

1.5.1主要研究内容和成果

1.5.2论文安排

1.5.3创新点

第二章XML数据库的存储结构和索引技术

2.1纯XML数据库的存储结构和检索技术

2.1.1纯XML数据库的存储结构

2.1.2纯XML数据库的索引技术

2.2使能XML数据库的存储结构和检索技术

2.2.1基于关系的XML数据存储

2.2.2 X-RESTORE数据模型

2.2.3一种基于关系的XML数据索引和查询

2.3纯XML数据库和使能XML数据库技术的比较

2.4本章小结

第三章基于关系数据库的XML文档管理技术

3.1XML数据模型

3.1.1对象交换模型

3.1.2 XQuery数据模型

3.2基于Schema约束的XML文档存储和索引技术

3.2.1对现有XML数据存储管理技术的分析

3.2.2基于Schema约束的XML数据存储和索引

3.3基于SBXI存储策略的XQuery查询处理

3.3.1查询路径有效性检验

3.3.2XML文档查询处理

3.4基于关系存储的XML文档更新

3.4.1基于扩展XQuery数据模型的文档更新操作

3.4.2 XUL操作语义和实例

3.4.3基于触发器机制的更新实现

3.5本章小结

第四章面向Web的XML信息检索模型

4.1信息检索模型(IR-Model)

4.2信息检索模型的分类

4.2.1集合模型

4.2.2代数模型

4.2.3概率模型

4.2.4概念模型

4.3向量空间模型

4.3.1向量空间

4.3.2权重

4.3.3文档与查询之间的相关性

4.4频繁结构向量模型

4.4.1问题的提出

4.4.2频繁结构向量模型的相关概念

4.4.3 XML文档的结构向量表示

4.4.4文档相似性度量

4.5本章小节

第五章频繁模式挖掘算法TreeMiner+

5.1频繁模式挖掘算法TreeMiner

5.1.1频繁子树扩展的相关技术

5.1.2 TreeMiner频繁子树挖掘算法

5.2 TreeMiner算法的改进

5.3 TreeMiner+算法挖掘处理实例

5.4文档结构的相似度计算处理实例

5.5 TreeMiner挖掘算法及结构相似度量实验

5.5.1数据集与实验设计

5.5.2实验结果分析

5.6本章小结

第六章基于频繁模式挖掘的XML网页分类技术

6.1基于结构和内容联合提取的XML文档相似度量

6.1.1 XML文档模型及特征分析

6.1.2频繁结构层次向量模型

6.1.3 XML文档结构和内容联合相关度计算

6.2基于粗糙集理论的网页分类技术

6.2.1基于结构的分类

6.2.2基于内容的分类

6.2.3基于结构和内容联合的分类

6.3实验结果及分析

6.3.1实验数据和实验结果

6.3.2实验分析

6.4本章小结

第七章基于频繁模式的Web信息分类检索

7.1 Web信息检索(WebIR)的特点

7.2 Web搜索引擎的工作原理和检索技术

7.2.1各种搜索引擎的工作原理

7.2.2全文检索和目录检索的优势融合

7.2.3搜索引擎的检索技术

7.3检索结果的排序和反馈

7.4按主题分类的文献全文检索系统

7.4.1基于结构和内容特征提取的网页分类器

7.4.2基于SBXI索引结构的索引器

7.4.3搜索引擎的工作流程

7.5本章小结

参考文献

攻读博士期间发表的论文和参加的科研项目

致谢

展开▼

摘要

随着计算机和互联网技术的发展,网络已经成为资源数量最多、种类最全、规模最大的综合信息库,这些信息大致可分为两类:结构化数据和非结构化数据,据统计,非结构化数据占有整个信息量的80%以上,在信息传递过程中,80%的时间是用来获取信息,因此,如何从Web网上科学高效地获取信息即是本文研究的意义所在。
   XML数据库技术和Web搜索引擎技术的发展为提高Web信息检索特别是非结构化数据的检索效率带来了希望。因为XML数据库技术提供了信息存储和管理的技术保障,而搜索引擎技术为Web信息检索构建了操作平台。基于此,本文针对XML文档数据管理技术及面向Web的分类检索技术做了深入细致的研究。本文主要研究内容和创新性工作如下:
   首先,综述和分析了纯XML数据库和使能XML数据库的管理技术及索引机制,在分析各种数据模型特点基础上,研究讨论了以关系数据库作为存储源、扩展XQuery作为数据模型的优势,通过对XQuery数据模型的扩展,提出了基于Schema模式约束的XML数据存储和索引结构SBXI,从用户逻辑层面定义了XML文档更新语言XUL,并应用Kweelt查询系统和JAVA技术实现了文档更新的关键技术。
   然后,解决了XML网页分类的关键技术一信息检索模型问题。由于传统的向量空间模型不能适用于XML文档结构相似度比较,提出了基于Tree Miner算法的频繁结构向量模型,构建了文档特征矩阵的表示方法和相似度函数;并对该模型拓展,进一步提出频繁结构层次向量模型,不仅挖掘XML文档的结构信息,同时抽取表征文档内容的关键词信息,提高了相似度量的准确率。通过对频繁结构挖掘算法TreeMiner进行改进,使其更适合大文档集合的频繁结构挖掘,实验证明基于频繁模式的检索模型具有很好的网页分类效果。
   最后,提出了分类检索与全文检索结合的二次检索策略,从系统设计角度构架了以频繁结构层次向量模型作为信息检索模型、SBXI作为索引结构的基于主题分类的Web文献全文检索搜索引擎的系统结构,并讨论了其主要构件的功能和工作流程。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号