摘要
ABSTRACT
1 绪论
1.1 选题背景和意义
1.2 主题搜索引擎简介
1.3 信息抽取技术
1.3.1 信息抽取与信息检索
1.3.2 信息抽取与自动摘要
1.4 本文的研究内容
1.5 本文的组织结构
2 Web 信息抽取技术概述
2.1 Web 信息抽取技术分类
2.2 包装器概念(wrapper)
2.3 wrapper 构建技术的分类
2.4 几种基于HTML 的信息抽取系统
2.4.1 W4F
2.4.2 XWRAP
2.4.3 EXALG
2.4.4 Road Runner
2.4.5 国内的信息抽取研究
2.5 Web 信息抽取存在的问题
2.6 本章小结
3 Web 信息抽取的原理和方法
3.1 XML 相关标准
3.1.1 XML
3.1.2 XHTML
3.1.3 DOM
3.1.4 XPath
3.1.5 XSLT
3.1.6 用Java 进行XSLT 扩展
3.2 系统的设计目标与思路
3.2.1 系统的设计目标
3.2.2 系统设计的基本思路
3.2.3 XML 和XSLT 在系统中的角色
3.3 抽取系统的总体框架
3.4 系统中的知识库与数据库
3.4.1 抽取规则库
3.4.2 抽取结果数据库和Web 页面数据库
3.5 页面优化模块
3.5.1 XHTML 页面转化
3.5.2 页面解析
3.6 信息抽取模块
3.6.1 规则学习的依据
3.6.2 规则学习的步骤
4 抽取规则的优化
4.1 优化问题的提出
4.2 改进的定位方法
4.2.1 路径与内容结合方法
4.2.2 完全基于文本的方法
4.2.3 基于属性的方法
4.2.4 几种方法的比较
4.3 各种方法的组合
4.4 优化的抽取规则
5 倒排索引技术研究
5.1 倒排索引概念
5.2 中文分词技术
6 结论
6.1 总结
6.2 下一步工作
致谢
参考文献
附录
重庆大学;