文摘
英文文摘
声明
第1章绪论
1.1研究背景
1.2研究现状
1.2.1结果抽取
1.2.2语义标识
1.2.3实体识别与数据去重
1.3研究目标
1.4论文结构
1.5本章小结
第2章相关知识介绍
2.1 HTML
2.1.1 HTML标签
2.2 XML
2.2.1 XML概念和特性
2.2.2 XML文档结构
2.3正则表达式
2.4信息抽取技术
2.4.1信息抽取与信息检索的区别
2.4.2信息抽取的历史
2.4.3 Web为信息抽取带来的挑战
2.4.4信息抽取的评价指标
2.5本章小结
第3章 Deep Web数据集成系统概述
3.1 Deep Web的概念
3.2 Deep Web不可见的原因
3.3 Deep Web数据集成系统结构
3.3.1 Web数据库的发现与分类
3.3.2接口抽取与集成
3.3.3查询映射与Web数据库选择
3.4本章小结
第4章基于探测查询的结果抽取及实体识别
4.1系统流程
4.2获取各站点属性位置
4.2.1统一接口的建立
4.2.2建立领域属性高频词库
4.2.3 Deep Web站点响应查询表单的基本工作原理
4.2.4响应页面的获取
4.2.5页面结构分析
4.2.6最长公共子序列
4.3结果抽取及标识
4.3.1异常响应页面的识别
4.3.2提取返回页面中“下一页”中的信息
4.4结果数据的XML存储
4.4.1数据存入XML
4.4.2 XML到数据库的转换
4.5实体识别
4.5.1相似度的选择
4.5.2实体相似程度
4.6本章小结
第5章实验与分析
5.1提取实体属性值
5.2实体识别
5.2.1分块计算相似度
5.2.2余弦相似度
5.2.3匹配结果
5.3本章小结
第6章总结与展望
参考文献
攻读硕士学位期间科研工作情况
致谢