声明
摘要
1.绪论
1.1.研究背景和目的
1.2.国内外发展现状
1.3.课题研究的思路
1.4.论文结构
2.网页信息抽取相关技术简介
2.1.信息抽取简介
2.1.1.信息抽取与信息检索
2.1.2.网页信息抽取工具
2.1.3.制定网页信息抽取规则
2.2.网页信息抽取相关技术
2.2.1.基于自然语言的网页信息抽取
2.2.2.基于包装器的网页信息抽取
2.2.3.基于Ontology的网页信息抽取
2.2.4.基于模板的网页信息抽取
2.3.页面结构介绍
2.3.1.基于DOM树页面结构分析
2.3.2.基于HTML标签页面结构划分
2.3.3.基于视觉特征的页面结构划分
2.4.文本密度介绍
2.5.网页信息抽取评价标准
2.6.本章小结
3.页面分块算法研究
3.1.网页预处理
3.1.1.网页编码格式检测
3.1.2.网页标准化
3.1.3.清除冗余块
3.2.定义网页标签种类
3.2.1.块级元素
3.2.2.内联元素
3.2.3.排版元素
3.3.定义分块原则
3.4.分块算法
3.5.本章小结
4.基于文本密度的网页信息抽取
4.1.定义文本密度的测量方法
4.2.文本密度的算法原理及流程
4.3.根据文本密度抽取信息
4.4.阈值设定
4.4.1.样本数据来源
4.4.2.性能指标
4.4.3.实验结果分析
4.5.本章小结
5.基于文本密度和页面结构的网页信息抽取技术验证与实现
5.1.系统设计目标
5.2.系统总体框架
5.3.系统模块的设计与实现
5.3.1.网页预处理
5.3.2.网页分块
5.3.3.网页信息提取测试
5.4.结果演示
5.5.本章小结
6.总结与展望
6.1.论文工作总结
6.2.未来研究与展望
参考文献
致谢
个人简历