文摘
英文文摘
第1章 绪论
1.1 本课题研究的背景和意义
1.2 国内外研究现状
1.3 本文研究的内容和结构组织
1.4 本章小结
第2章 相关的技术介绍
2.1 Web挖掘概述
2.1.1 Web挖掘的定义
2.1.2 Web挖掘的分类
2.2 Web信息抽取
2.2.1 Web信息抽取的定义及特点
2.2.2 Web信息抽取的分类
2.2.3 现有信息抽取技术的内容对比
2.3 新闻网页的特征和结构分析
2.4 XML技术分析
2.4.1 XML的特点
2.4.2 XML在信息抽取系统中的优势及其应用
2.5 DOM、XPath与XSLT
2.5.1 DOM
2.5.2 XPath
2.5.3 XSLT
2.6 本章小结
第3章 基于XPath的信息抽取方法的实现与优化
3.1 目前信息抽取存在的问题
3.2 基于XPath的信息抽取方法
3.2.1 抽取方法概述
3.2.2 基于XPath的信息抽取模型整体框架
3.2.3 抽取规则描述
3.2.4 抽取规则优化
3.3 本章小结
第4章 台职院新闻抽取系统的设计与实现
4.1 系统目标分析
4.2 系统开发环境的构建
4.2.1 操作系统平台的选择
4.2.2 Web服务器的选择
4.2.3 数据库软件的选择
4.2.4 编程语言的选择
4.3 系统的组成
4.4 系统的实现过程
4.4.1 采集数据
4.4.2 数据预处理
4.4.3 抽取规则
4.4.4 信息抽取
4.4.5 XML文档导入MySQL数据库
4.4.6 系统定时任务设置
4.5 用户使用前端页面组成结构
4.6 本章小结
第5章 系统的运行流程及结果分析
5.1 系统运行流程
5.1.1 系统登录与新用户注册
5.1.2 数据采集模块
5.1.3 数据清理模块
5.1.4 生成抽取规则
5.1.5 抽取数据
5.1.6 查看数据与导出数据表
5.2 系统运行结果分析
5.2.1 测试指标分析
5.2.2 二级网站单独测试分析
5.2.3 二级网站整体测试分析
第6章 总结与展望
6.1 论文总结
6.2 进一步的研究工作
参考文献
致谢