文摘
英文文摘
南开大学学位论文版权使用授权书及南开大学学位论文原创性声明
第一章绪论
第一节信息时代的新技术
第二节数据挖掘技术
1.2.1数据挖掘技术概述
1.2.2数据挖掘的任务
1.2.3数据挖掘对象
1.2.4数据挖掘流程
1.2.5数据挖掘的方法
第三节Web数据挖掘技术
1.3.1 Web数据挖掘的定义
1.3.2 Web数据挖掘的分类
1.3.3 Web数据挖掘的步骤
1.3.4 Web数据挖掘面临的技术难点
1.3.5研究Web数据挖掘的意义和应用前景
第四节本文的研究内容
第五节论文的组织结构
第二章页面信息提取技术的相关研究
第一节RoadRunner
2.1.1基本思想
2.1.2 RoadRunner生成Web页面包装器
第二节PAEs方法
第三节IEPAD
第四节tpGrid
第五节基于XML技术的Web页面信息提取工具
2.5.1 XWrap
2.5.2 Lixto
第三章基于模板的页面信息提取技术
第一节基本思想
第二节基本概念
第三节生成Web页面模板
3.3.1基本思想
3.3.2等频记号集合与频繁多记号集合
3.3.3多义性记号
3.3.4 Web页面文本信息类型的提取与模板生成
第四节页面信息的提取
第五节页面信息属性名的提取
3.5.1 Web页面信息分类
3.5.2 Web页面信息分类和信息属性提取方法
第四章Web页面信息提取系统模型及关键问题的处理
第一节系统模型
第二节页面预处理
第三节页面模板生成
第四节页面信息提取
第五节页面信息属性名的提取
第六节数据存储
第五章系统的实现与实验结果分析
第一节系统的实现
第二节系统测试结果分析
5.2.1测试结果衡量指标
5.2.2基于非空记号间隔的元组型提取算法的效率分析
5.2.3 Web页面模板生成算法的效率分析
5.2.3基于模板的页面信息提取算法效率分析
5.2.4页面信息提取的准确率和页面信息的发现率
第三节Web页面信息提取系统演示
第六章总结
第一节进一步工作
第二节总结
参考文献
致谢
作者简历