面向Web的XML文档数据管理及分类检索技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着计算机和互联网技术的发展，网络已经成为资源数量最多、种类最全、规模最大的综合信息库，这些信息大致可分为两类：结构化数据和非结构化数据，据统计，非结构化数据占有整个信息量的80％以上，在信息传递过程中，80％的时间是用来获取信息，因此，如何从Web网上科学高效地获取信息即是本文研究的意义所在。
　　 XML数据库技术和Web搜索引擎技术的发展为提高Web信息检索特别是非结构化数据的检索效率带来了希望。因为XML数据库技术提供了信息存储和管理的技术保障，而搜索引擎技术为Web信息检索构建了操作平台。基于此，本文针对XML文档数据管理技术及面向Web的分类检索技术做了深入细致的研究。本文主要研究内容和创新性工作如下：
　　首先，综述和分析了纯XML数据库和使能XML数据库的管理技术及索引机制，在分析各种数据模型特点基础上，研究讨论了以关系数据库作为存储源、扩展XQuery作为数据模型的优势，通过对XQuery数据模型的扩展，提出了基于Schema模式约束的XML数据存储和索引结构SBXI，从用户逻辑层面定义了XML文档更新语言XUL，并应用Kweelt查询系统和JAVA技术实现了文档更新的关键技术。
　　然后，解决了XML网页分类的关键技术一信息检索模型问题。由于传统的向量空间模型不能适用于XML文档结构相似度比较，提出了基于Tree Miner算法的频繁结构向量模型，构建了文档特征矩阵的表示方法和相似度函数；并对该模型拓展，进一步提出频繁结构层次向量模型，不仅挖掘XML文档的结构信息，同时抽取表征文档内容的关键词信息，提高了相似度量的准确率。通过对频繁结构挖掘算法TreeMiner进行改进，使其更适合大文档集合的频繁结构挖掘，实验证明基于频繁模式的检索模型具有很好的网页分类效果。
　　最后，提出了分类检索与全文检索结合的二次检索策略，从系统设计角度构架了以频繁结构层次向量模型作为信息检索模型、SBXI作为索引结构的基于主题分类的Web文献全文检索搜索引擎的系统结构，并讨论了其主要构件的功能和工作流程。

著录项

作者
阎红灿;
展开▼
作者单位

天津大学;

展开▼
授予单位天津大学;
学科管理科学与工程
授予学位博士
导师姓名李敏强;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算机情报检索系统;
关键词
文档数据; 分类检索; XML数据库; Web搜索引擎;

相似文献

中文文献
外文文献
专利

1. 面向XML文档的时态访问控制技术研究 [J] . 道炜 ,汤庸 . 计算机研究与发展 . 2006,第0z3期
2. 面向Web服务的空间元数据管理研究 [J] . 李振华 ,刘鹏 ,王真 . 计算机与现代化 . 2009,第006期
3. 基于Web面向AutoCAD图纸管理的产品数据管理系统 [J] . 邹红艳 ,来可伟 . 计算机辅助工程 . 2003,第003期
4. 基于WEB 3D的倾斜三维数据管理与发布技术研究 [J] . 彭晖儿 ,徐佳沅 . 测绘与空间地理信息 . 2020,第008期
5. 语义传感器Web中的数据管理技术研究 [J] . 李琪 ,吴刚 . 计算机科学 . 2013,第006期
6. 面向XML文档的时态访问控制技术研究 [C] . 道炜 ,广东天讯电信科技有限公司 ,汤庸 . 第二十三届中国数据库学术会议（NDBC2006） . 2006
7. 面向Web大规模移动对象轨迹数据管理与聚集技术研究 [A] . 许弘琛 . 2014

面向Web的XML文档数据管理及分类检索技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅