声明
摘要
第1章 绪论
1.1 研究背景
1.2 研究意义
1.3 研究目标与内容
1.4 论文的组织结构
第2章 Web信息自动标引相关研究
2.1 Web信息采集的研究
2.2 Web信息抽取的研究
2.3 自动标引的研究
2.4 众多研究所涉及的算法
第3章 Web构架分析及信息采集
3.1 HTML、XML和DOM
3.2 HTML转换为XML
第4章 Web信息抽取关键技术:信息块判析
4.1 网页坐标系
4.2 VIPS算法
4.3 网页九宫格
4.4 网页信息去噪技术
第5章 三种类型网站的关键信息块判定
5.1 新闻类站点
5.1.1 网站特点简介
5.1.2 基于不同分割比例的信息块提取实验
5.2 体育类站点
5.2.1 网站特点简介
5.2.2 基于不同分割比例的信息块提取实验
5.3 科学类网站
5.3.1 网站特点简介
5.3.2 基于不同分割比例的信息块提取实验
第6章 标引词抽取及实现技术
6.1 标引词
6.1.1 标引词的来源
6.1.2 标引词的评价
6.2 科学类、新闻类网页标引源权重的探析
6.2.1 网页标引源权重设计
6.2.2 科学类站点网页各标引源表达能力统计与分析
6.2.3 新闻类站点网页各标引源表达能力统计与分析
6.3 自动标引的实现与评价
6.3.1 自动标引实现步骤
6.3.2 实验结果评价
第7章 Web信息自动标引系统设计与实现
7.1 系统开发环境
7.1.1 系统硬件配置
7.1.2 系统开发软件环境
7.2 系统开发工作流程
7.3 系统简介
7.4 系统模块功能介绍
7.4.1 Web页面采集及预处理模块
7.4.2 Web页面数据处理及检验模块
7.4.3 数据浏览模块
7.4.4 标引模块
7.4.5 标引结果查询模块
7.4.6 参数设置模块
7.4.7 帮助模块
7.5 系统数据库结构
7.5.1 数据库设计
7.5.2 数据库实现
第8章 总结与展望
8.1 论文工作总结
8.2 工作展望
参考文献
攻读博士学位期间主要研究成果
致谢