文摘
英文文摘
原创性声明和学位论文版权使用授权声明
第一章引言
1.1问题的提出
1.2本文的主要工作
第二章XML技术的发展和前景
2.1 XML简介
2.2支持XML的公司和它们的开发工具
2.3 XML文档组成
2.3.1标记和字符数据
2.3.2独立文档中结构完整的XML
2.4 XML作为数据交换格式的主要特点
2.5 XML用于WEB的发展前景
第三章WEB数据挖掘综述
3.1数据挖掘的概念
3.1.1数据挖掘的定义
3.1.2数据挖掘的分类
3.1.3数据挖掘的方法和技术
3.2 WEB数据挖掘
3.2.1 Web挖掘的对象
3.2.2 Web挖掘的分类
3.2.3 Web数据挖掘的特点
3.2.4 XML在Web数据挖掘中的应用
3.3 WEB信息抽取技术现状
3.3.1 XWrap
3.3.2利用网站查询表格进行信息抽取
3.3.3抽取多媒体文档模式
第四章基于主题和结构的XML数据抽取系统的设计与实现
4.1系统功能结构
4.2构建主题关系
4.3解析XML文档
4.3.1文档对象模型(DOM)
4.3.2 XML简单API(SAX)
4.3.3本系统采用的技术
4.4模式抽取
4.4.1问题描述
4.4.2发现包含关系信息的语义块
4.4.3区分实体
4.4.4模式推导
4.5信息抽取示例
第五章总结与展望
5.1工作总结
5.2进一步的工作
参考文献
致谢