文摘
英文文摘
图目录
表目录
第1章 绪论
1.1 研究背景
1.2 论文课题背景与主要工作
1.3 论文章节安排
第2章 相关技术及国内外现状
2.1 XML及其相关技术介绍
2.1.1 HTML、XML及XHTML
2.1.2 DOM模型
2.1.3 XPath
2.2 Hadoop相关介绍
2.2.1 Hadoop简介
2.2.2 Map-Reduce分布式计算模型
2.2.3 Hadoop分布式文件系统(HDFS)
2.3 国内外研究现状
2.3.1 WEB信息抽取技术
2.3.2 数据清洗研究
2.4 总结
第3章 基于DOM的动态Anchor-Hop模型
3.1 Anchor-Hop模型
3.1.1 相关概念
3.1.2 Anchor-Hop模型假设条件
3.1.3 Anchor-Hop模型应用举例
3.1.4 Anchor-Hop模型存在的问题
3.2 动态Anchor-Hop模型
3.2.1 相关概念
3.2.2 动态Anchor-Hop模型假设
3.2.3 动态Anchor-Hop模型算法
3.3 带权值的Anchor点匹配
3.3.1 权值来源及其用户配置
3.3.2 权值计算公式
3.3.3 Anchor点匹配算法
3.3.4 动态Anchor-Hop模型与用户的反馈设计
3.3.5 动态Anchor-Hop模型与Anchor-Hop模型的理论分析
3.4 实验及分析
3.4.1 信息抽取评价标准
3.4.2 实验环境
3.4.3 实验结果及分析
3.5 总结
第4章 数据校验与去重
4.1 数据校验
4.1.1 相关概念
4.1.2 已有研究
4.1.3 带反馈的数据校验
4.2 数据去重
4.2.1 相关定义及研究
4.2.2 SNM改进算法(SSNM)
4.2.3 SSNM算法的理论分析
4.2.4 基于Map-Reduce的SSNM算法
4.3 实验及分析
4.3.1 数据去重的评价标准
4.3.2 实验结果及分析
4.4 总结
第5章 钱塘个性化商务信息融合系统设计及实现
5.1 钱塘个性化商务信息融合系统
5.1.1 简介
5.1.2 系统体系结构
5.2 网络爬虫
5.3 信息抽取融合
5.4 信息检索及存储
5.4.1 信息检索
5.4.2 信息存储模块
5.5 系统运行结果
5.6 总结
第6章 总结与展望
6.1 论文总结
6.2 展望
参考文献
攻读硕士学位期间主要的研究成果
致谢