声明
摘要
第1章 绪论
1.1 研究背景及意义
1.2 研究的主要问题
1.3 本文的主要工作
1.4 本文的结构
第2章 网页信息抽取综述
2.1 信息抽取概念
2.2 Web信息抽取评价标准
2.3 相关技术规范
2.4 网页信息抽取技术
2.4.1 基于对象树模型的抽取方法
2.4.2 基于理解模型的抽取方法
2.4.3 基于视觉模型的抽取方法
2.4.4 自动化的web信息抽取方法
2.4.5 总结
第3章 基于CCM树的相似网页聚类方法
3.1 网页脚本代码
3.2 CCM树定义、表示及构建算法
3.3 CCM树聚类
3.4 ECCM树
第4章 基于局部数据匹配的抽取方法
4.1 关键数据区域
4.2 TOP-DOWN树匹配算法
4.3 ETD局部特征匹配算法
4.4 数据保存和信息标记
第5章 实验结果与评价
5.1 实验数据集及环境
5.2 实验结果与分析
5.2.1 树大小对比
5.2.2 阈值分析与准确性对比
5.2.3 聚类时间
5.2.4 抽取效果对比
第6章 总结与展望
6.1 总结
6.2 未来的工作
参考文献
致谢
攻读学位期间参与科研项目情况
学位论文评阅及答辩情况表