声明
摘要
第1章 前言
1.1 研究背景及意义
1.2 主要研究内容
1.3 论文的主要工作
1.4 论文的组织结构
第2章 现有研究综述
2.1 引言
2.2 聚焦搜索概述
2.2.1 聚焦搜索的体系结构
2.2.2 聚焦爬虫的原理
2.2.3 信息抽取的原理
2.3 聚焦爬虫研究现状
2.4 信息抽取研究现状
第3章 面向企业信息的聚焦爬虫设计与实现
3.1 引言
3.2 聚焦爬虫的基本流程
3.3 含企业信息网页特征分析
3.3.1 Web页面结构
3.3.2 POT企业信息页面的特点
3.3.3 TOI企业信息页面的特点
3.4 面向POI的聚焦爬虫
3.4.1 分类模型算法
3.4.2 页面相关性分析
3.4.3 URL优先级判断
3.4.4 实验及结果分析
3.5 面向TOI的聚焦爬虫
3.5.1 页面相关性分析及其改进
3.5.2 URL优先级判断
3.5.3 实验及结果分析
3.6 本章小结
第4章 企业信息抽取
4.1 引言
4.2 企业信息抽取的任务描述与基本流程
4.2.1 企业信息抽取的基本流程
4.2.2 POI域内的企业信息抽取
4.2.3 TOI域内的企业信息抽取
4.3 基于包装器方式的POI信息抽取
4.3.1 包装器模型简介
4.3.2 包装器规则的构建
4.3.3 实验及结果分析
4.4 TOI信息的抽取
4.4.1 基于规则的TOI信息抽取
4.4.2 基于联合概率模型的TOI信息抽取
4.4.3 实验及结果分析
4.5 本章小结
第5章 总结与展望
5.1 论文工作总结
5.2 下一步工作
参考文献
附录:在读期间公开发表的论文
致谢
南京师范大学;