首页> 中文学位 >面向经济普查项目需求的模糊中文地址匹配方法研究
【6h】

面向经济普查项目需求的模糊中文地址匹配方法研究

代理获取

摘要

地理(地址)编码技术是GIS中的一项基础性技术,它是将自然语言描述的地址信息,通过地址标准化、地址分词、数据库匹配、空间定位等一系列处理操作,赋予其空间位置信息,并最终定位到电子地图上的过程。随着GIS技术的不断发展与推广,越来越多的行业应用中出现了对于地理编码技术的需求,例如公共卫生、犯罪分析、政治科学、灾害管理、交通预测等领域。国外的地理编码技术已经日趋成熟,逐步迈向了市场化、产业化。但是由于国情的不同,国外的现有技术无法直接应用于我国的地理编码需求。因此,针对中文的地理编码技术有待于我们的进一步研究和完善。
   本文利用北京市的部分经济普查统计数据进行了相关的地址匹配研究,并最终开发实现了面向经济普查的地理编码工具软件。在研究过程中,本文主要针对地理编码技术中的以下几个方面进行了探索与改进:
   (1)由于目前地址匹配过程中,对于地址残缺与地址歧义两类模糊地址的匹配成功率与准确率偏低,所以本文提出了一种基于规则的地址分词匹配方法,通过对算法的改进,加入规则树与歧义存储等机制,提高了对于这两类模糊地址的匹配成功率。
   (2)由于传统地址匹配过程中,地址分词与数据库匹配两个步骤相对独立,导致数据库访问次数过多,系统运行效率低下。为此,本文在所提出的基于规则的地址分词匹配方法中,将两个过程合二为一,边分词边匹配,实现了在最终分词结束的同时获得匹配结果的目的,从而提高了地址匹配的效率。
   (3)对于目前已有的地址模型进行了部分改进,根据地址记录中存在行政区划部分与街道信息部分的区别,对两部分信息分别进行处理与存储,提高了地址数据的匹配速度。
   (4)为了减少地址数据采集和地址标准化的成本与工作量,本文有效利用了经济普查项目中的已有数据,通过数据挖掘,建立了标准地址库并完成了地理编码任务。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号