声明
摘要
第1章 绪论
1.1 课题背景
1.2 本文研究内容
1.3 本文的组织
第2章 相关技术的研究综述
2.1 信息抽取介绍
2.2 自由文本信息抽取技术
2.3 命名实体识别技术
2.4 web半结构化信息抽取技术
2.5 数据集成
2.6 本章小结
第3章 基于自然语言处理的自由文本信息抽取
3.1 自由文本信息抽取实现概述
3.2 中文分词与词性标注
3.3 命名实体识别
3.4 语义规则的组成
3.5 自由文本抽取规则归纳
3.6 本章小结
第4章 基于包装器归纳的半结构化文本信息抽取
4.1 包装器归纳方法概述
4.2 训练集标注
4.3 抽取规则设计
4.4 包装器归纳算法
4.5 本章小结
第5章 企业注册信息抽取系统设计与实现
5.1 企业注册信息抽取系统框架
5.2 网页URL收集
5.3 网页段落筛选
5.4 数据语义集成
5.5 系统实现
5.6 实验结果与分析
5.6.1 自由文本信息抽取结果与分析
5.6.2 半结构化文本信息抽取结果与分析
5.6.3 综合方法信息抽取结果与分析
5.7 本章小结
第6章 总结与展望
6.1 总结
6.2 展望
参考文献
攻读硕士学位期间主要的研究成果
致谢