首页> 中文学位 >基于主题和结构的XML网页的数据抽取
【6h】

基于主题和结构的XML网页的数据抽取

代理获取

目录

文摘

英文文摘

原创性声明和学位论文版权使用授权声明

第一章引言

1.1问题的提出

1.2本文的主要工作

第二章XML技术的发展和前景

2.1 XML简介

2.2支持XML的公司和它们的开发工具

2.3 XML文档组成

2.3.1标记和字符数据

2.3.2独立文档中结构完整的XML

2.4 XML作为数据交换格式的主要特点

2.5 XML用于WEB的发展前景

第三章WEB数据挖掘综述

3.1数据挖掘的概念

3.1.1数据挖掘的定义

3.1.2数据挖掘的分类

3.1.3数据挖掘的方法和技术

3.2 WEB数据挖掘

3.2.1 Web挖掘的对象

3.2.2 Web挖掘的分类

3.2.3 Web数据挖掘的特点

3.2.4 XML在Web数据挖掘中的应用

3.3 WEB信息抽取技术现状

3.3.1 XWrap

3.3.2利用网站查询表格进行信息抽取

3.3.3抽取多媒体文档模式

第四章基于主题和结构的XML数据抽取系统的设计与实现

4.1系统功能结构

4.2构建主题关系

4.3解析XML文档

4.3.1文档对象模型(DOM)

4.3.2 XML简单API(SAX)

4.3.3本系统采用的技术

4.4模式抽取

4.4.1问题描述

4.4.2发现包含关系信息的语义块

4.4.3区分实体

4.4.4模式推导

4.5信息抽取示例

第五章总结与展望

5.1工作总结

5.2进一步的工作

参考文献

致谢

展开▼

摘要

本文重点研究如何从同一主题的XML网页中抽取出该类主题网页的一般模式,核心技术是通过解析XML文档,按用户主题对解析后的样本XML文档进行模式抽取以及按照模式信息对目标XML文档进行数据抽取。在这里,模式信息实际上就是根据样本文档中符合用户主题的语义块,得到样本页包含相关信息的结构模式,样本页中的所有用户兴趣区域构成一组语义块,通过对语义块的比较和归纳学习,得到我们所需的该类主题的模式信息。然后根据得到的规则,从目标XML文档中寻找与之匹配的信息,抽取出来提交给用户。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号