网页地理信息抽取系统中相关模块的设计与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

当前，随着互联网的飞速发展，信息的重要性日益增强，从纷繁的网络资源中获得有用的信息就显得越来越重要。网页地理信息作为重要的一种市场资源，在工作和生活中为越来越多的企业和个人所需要。因此，我们借助已经了解和掌握的一些信息抽取方面的技术，对这类信息进行抽取和处理。
　　本文在深入调查研究网页地理信息抽取的各种有效技术的基础上，研究和实现了一些重要的算法方法。同时，在系统的设计和实现的方方面面，也充分考虑了系统对于准确性和高效率兼顾的性能需求。设计实现了文本内容提取、命名实体识别、地物信息及关系抽取等功能模块，为整个系统所有功能的完整实现以及上线使用做出贡献。
　　在命名实体识别模块，基于统计部分选用对序列标注问题具有很好性能的隐马尔科夫模型方法，识别比较复杂的人名、地名、机构名和地址。而且根据各类NE的特点分别提取出了具有很强指示性的NE外部特征和内部特征，编写若干规则。我们以统计方法为基础，再在统计识别的基础上利用规则的方法对统计识别的结果进行确认、修正以及弥补统计中的漏标情况。对于基于地名和机构名的地址以及比较简单的电话号码、传真、邮编和E-mail，则完全采用规则的方法识别。
　　地物信息及关系抽取模块中，首先确定出当前文本是关于单一地物还是多个地物，然后根据单地物与多地物各自的特点进行文本过滤。接着进行简称/别称的识别，确定出单地物中的待处理地物。最后，对已明确待处理地物的文本进行地物信息抽取，以及地物关系的抽取。
　　在内容组织上，首先介绍了相关背景和国内外相关技术的发展现状。第二章开始首先介绍了文本内容提取模块、命名实体识别模块、地物信息及关系抽取模块在设计和实现过程中所用到的相关技术。第三章对三个模块进行了需求分析和详细设计。第四章给出了这三个功能模块的详细实现过程，并给出了测试结果。

著录项

作者
杨宁;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科软件工程
授予学位硕士
导师姓名李生;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类程序语言、算法语言 ;
关键词
网页地理信息抽取系统; 功能模块; 隐马尔科夫模型方法; 文本过滤;

相似文献

中文文献
外文文献
专利

1. 新闻网页内容抽取模块的设计与实现 [J] . 罗超然 ,王纯 ,廖建新 . 电信技术 . 2014 ,第005期
2. 基于网页数据抽取技术的图书著录系统设计与实现 [J] . 屈武江 . 辽宁师专学报（自然科学版） . 2012 ,第002期
3. 甘肃省测绘地理信息双随机抽取系统的设计与实现 [J] . 李治明 ,胡天明 . 矿山测量 . 2018 ,第003期
4. 基于主题描述模型的相关性判断在网页信息抽取中的应用 [J] . 谭胜 ,马静 ,吴一占 . 情报学报 . 2011 ,第002期
5. 地理信息野外采集系统加密模块的设计与实现 [J] . 唐先龙 . 国土资源导刊 . 2019 ,第003期
6. 大庆油田水域地理信息系统基本模块的设计与实现 [C] . 马洪滨 ,何群 ,陈蕊 . 第八届东北三省测绘学术与信息交流会 . 2005
7. 人力资源管理系统中数据抽取模块的设计与实现 [A] . 孟菲 . 2005

网页地理信息抽取系统中相关模块的设计与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅