首页> 中文学位 >网页地理信息抽取系统中相关模块的设计与实现
【6h】

网页地理信息抽取系统中相关模块的设计与实现

代理获取

目录

网页地理信息抽取系统中相关模块的设计与实现

DESIGN AND IMPLIMENTATION OF MODULARS FOR WEB GEOGRAPHICAL INFORMATION EXTRACTION SYSTEM

摘 要

Abstract

第1章 绪论

1.1 课题的背景及研究目的

1.2 与课题相关的国内外研究综述

1.3 本论文的主要工作内容

第2章 网页地理信息抽取的研究内容及相关算法

2.1 文本内容提取

2.2 命名实体识别

2.3 地物信息及关系抽取

2.4 本章小结

第3章 网页地理信息抽取系统相关模块的分析与设计

3.1 系统需求

3.2 系统整体分析

3.3 系统功能设计与业务流程

3.4 本章小结

第4章 网页地理信息抽取系统相关模块的实现

4.1 三个模块的实现

4.2 系统测试

4.3 本章小结

结论

参考文献

哈尔滨工业大学硕士学位论文原创性声明

哈尔滨工业大学硕士学位论文使用授权书

致 谢

个人简历

展开▼

摘要

当前,随着互联网的飞速发展,信息的重要性日益增强,从纷繁的网络资源中获得有用的信息就显得越来越重要。网页地理信息作为重要的一种市场资源,在工作和生活中为越来越多的企业和个人所需要。因此,我们借助已经了解和掌握的一些信息抽取方面的技术,对这类信息进行抽取和处理。
  本文在深入调查研究网页地理信息抽取的各种有效技术的基础上,研究和实现了一些重要的算法方法。同时,在系统的设计和实现的方方面面,也充分考虑了系统对于准确性和高效率兼顾的性能需求。设计实现了文本内容提取、命名实体识别、地物信息及关系抽取等功能模块,为整个系统所有功能的完整实现以及上线使用做出贡献。
  在命名实体识别模块,基于统计部分选用对序列标注问题具有很好性能的隐马尔科夫模型方法,识别比较复杂的人名、地名、机构名和地址。而且根据各类NE的特点分别提取出了具有很强指示性的NE外部特征和内部特征,编写若干规则。我们以统计方法为基础,再在统计识别的基础上利用规则的方法对统计识别的结果进行确认、修正以及弥补统计中的漏标情况。对于基于地名和机构名的地址以及比较简单的电话号码、传真、邮编和E-mail,则完全采用规则的方法识别。
  地物信息及关系抽取模块中,首先确定出当前文本是关于单一地物还是多个地物,然后根据单地物与多地物各自的特点进行文本过滤。接着进行简称/别称的识别,确定出单地物中的待处理地物。最后,对已明确待处理地物的文本进行地物信息抽取,以及地物关系的抽取。
  在内容组织上,首先介绍了相关背景和国内外相关技术的发展现状。第二章开始首先介绍了文本内容提取模块、命名实体识别模块、地物信息及关系抽取模块在设计和实现过程中所用到的相关技术。第三章对三个模块进行了需求分析和详细设计。第四章给出了这三个功能模块的详细实现过程,并给出了测试结果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号