声明
摘要
第1章 引言
1.1 课题背景
1.2 国内外研究现状
1.3 本文研究的内容
1.4 本文研究思路及组织结构
第2章 相关概念与技术
2.1 Web相关技术
2.1.1 HTML技术
2.1.2 XHTML技术
2.1.3 XML技术
2.1.4 DOM技术简介
2.1.5 XPath技术
2.2 决策树
2.2.1 决策树简介
2.2.2 决策树表示方法
2.2.3 决策树适用的问题
2.2.4 基本的决策树学习算法
2.3 本章小结
第3章 基于实体的数据抽取方法
3.1 基于实体的Web数据抽取模型
3.2 自底向上抽取方法面临的问题和挑战
3.3 实体抽取策略
3.3.1 文本划分策略
3.3.2 实体属性标注
3.4 本章小结
第4章 重复模式抽取与数据抽取策略
4.1 重复模式抽取
4.1.1 确定关键属性
4.1.2 候选重复模式提取
4.1.3 确定实体属性
4.1.4 生成重复模式
4.2 抽取模式化简
4.3 数据抽取
4.3.1 构建抽取模式树
4.3.2 数据抽取策略
4.4 页面分层思想
4.5 本章小结
第5章 实验与分析
5.1 实验环境
5.2 评价标准
5.3 实验结果及分析
5.3.1 二级抽取模型实验
5.3.2 抽取模式生成策略
5.3.3 数据抽取实验
5.4 本章小结
第6章 结论
6.1 本文的主要贡献与结论
6.2 进一步的工作
参考文献
致谢
攻硕期间参加的项目及发表的论文