首页> 中文学位 >面向中文网页的信息抽取关键技术研究与实现
【6h】

面向中文网页的信息抽取关键技术研究与实现

代理获取

目录

声明

摘要

第1章 绪论

1.1 课题背景

1.2 本文研究内容

1.3 本文的组织

第2章 相关技术的研究综述

2.1 信息抽取介绍

2.2 自由文本信息抽取技术

2.3 命名实体识别技术

2.4 web半结构化信息抽取技术

2.5 数据集成

2.6 本章小结

第3章 基于自然语言处理的自由文本信息抽取

3.1 自由文本信息抽取实现概述

3.2 中文分词与词性标注

3.3 命名实体识别

3.4 语义规则的组成

3.5 自由文本抽取规则归纳

3.6 本章小结

第4章 基于包装器归纳的半结构化文本信息抽取

4.1 包装器归纳方法概述

4.2 训练集标注

4.3 抽取规则设计

4.4 包装器归纳算法

4.5 本章小结

第5章 企业注册信息抽取系统设计与实现

5.1 企业注册信息抽取系统框架

5.2 网页URL收集

5.3 网页段落筛选

5.4 数据语义集成

5.5 系统实现

5.6 实验结果与分析

5.6.1 自由文本信息抽取结果与分析

5.6.2 半结构化文本信息抽取结果与分析

5.6.3 综合方法信息抽取结果与分析

5.7 本章小结

第6章 总结与展望

6.1 总结

6.2 展望

参考文献

攻读硕士学位期间主要的研究成果

致谢

展开▼

摘要

随着互联网技术的发展,网络中web页面的数量规模越来越庞大,在这些海量的web页面中,包含着许多用户需要的信息。通常情况下,能够为用户所直接使用的信息都是以结构化的形式组织,而web页面中用户需要的信息通常都包含在大量的页面无结构化或半结构化文本中,因此用户难以直接利用web页面的信息。为了更好的利用web页面中包含的信息,就需要从web页面中抽取出用户所需要的信息,并将其以结构化的形式存储。
   网页信息抽取旨在从网页中抽取出结构化信息,网页中不仅仅包含由自然语言构成的自由文本(无结构化文本),同时也包含如表格、列表等半结构化文本。本文主要针对从中文网页中抽取信息进行研究,采用一种结合网页段落筛选和数据集成的技术同时从网页自由文本和半结构化文本中抽取信息的综合方法进行中文网页信息抽取。该方法采用启发式规则从网页中筛选出自由文本和半结构化文本,之后针对自由文本采用分词、词性标注、基于规则的命名实体识别技术等自然语言处理技术和语义抽取规则进行信息抽取,同时采用包装器归纳的方法归纳出单槽规则用于半结构化文本信息抽取,最终将从两种文本中抽取出的信息转换为规范化数据以解决数据冲突从而实现数据集成。本文也将上述方法应用于针对网页中企业注册信息抽取的系统实现并进行相关实验,并对其抽取效果进行评估,实验数据表明该方法从网页中抽取信息的平均准确率和查全率分别为93.41%和87.44%,并且该方法信息抽取的F-value值比单独采用自由文本或半结构化文本信息抽取方法都有了非常显著的提高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号