首页> 中文学位 >基于条件随机场的中文地址解析
【6h】

基于条件随机场的中文地址解析

代理获取

目录

第一个书签之前

摘要

1绪论

1.1研究背景与意义

1.2研究现状

1.3研究现状分析

1.4研究内容及论文组织框架

2 地址解析和条件随机场理论研究

2.1地址解析

2.2条件随机场

2.3 本章小结

3 中文地址解析原理及标注体系的构建

3.1 中文地址解析原理

3.2 地址标注体系的构建

3.3 地址标注语料库的构建

3.4 本章小结

4 中文地址解析模型的构建

4.1 地址解析流程分析

4.2地址语料库预处理

4.3 地址模型特征选择

4.4 地址特征模版

4.5 本章小结

5 基于CRF++的地址解析实现

5.1 CRF++介绍

5.2 数据准备

5.3地址解析性能测试

5.4本章小结

6 总结与展望

6.1论文主要工作

6.2存在问题及展望

致谢

参考文献

攻读硕士期间主要成果

展开▼

摘要

目前存在大量的地址描述类信息,然而这类信息往往需要先转化为空间坐标才能有助于分析研究,地理编码就是一项将地址描述信息转化为空间点位的技术。地址编码一般来说包括地址解析和地址匹配两个主要过程。地址解析性能的好坏直接影响匹配的准确性,最终影响整个编码系统的质量。  地址解析的过程一般就是分词以及地址成分类型识别的过程。地址分词分为基于规则的分词和基于统计的分词,基于规则的分词是在地址分词词典的基础上,采用一些检索算法进行词典的查询,其分词的准确性完全依赖于词典的准确性和完善性。基于统计的分词方式是通过训练已标注的地址语料库,将地址作为观察序列,分词标注集作为标注序列得到训练模型,通过模型对地址进行标注,得到的标注结果就可以转化为分词结果。基于统计的分词方式虽然训练语料需要耗费一定的时间,但其可解决部分地址分词歧义问题,且标注结果不仅可输出为分词标注而且可输出为地址成分类型的标注,利用统计的方式可同时解决地址分词和地址成分类型识别问题。而在统计标注方法中,条件随机场是目前最为常用的一种统计模型。因此本文提出了一种基于条件随机场的地址解析方法。该方法将地址解析要解决的地址分词和地址成分类型识别问题转化为分词和地址成分的标注问题,并将分词和地址成分标注结合在一起形成输出序列的标注数据集。充分考虑地址的构成和使用习惯,设定对地址解析有帮助的特征。通过构建地址语料库和建立相应的特征模版,训练得到适用于中文非规范地址的条件模型,通过地址模型即可对未标注的中文地址进行序列标注,得到最优的地址标注输出序列,最终转化为分词和地址成分类型识别结果。  本文采用CRF++作为建模工具,通过对高德提取的济南市的282257条地址数据进行标注,建立标注语料库,通过对语料库训练得到地址条件模型,并将80000条人工标注好的地址作为测试集进行测试,以验证模型的性能。实验表明,条件随机场的标注准确率基本符合地址匹配的要求,准确率达到了80%以上,其中将上下文窗口设置为[-2,2],采用综合词性特征与地址用词特征的特征模版作为训练模版得到的标注结果最好,准确率达到了89.02%。

著录项

  • 作者

    赵英;

  • 作者单位

    山东科技大学;

  • 授予单位 山东科技大学;
  • 学科 地图学与地理信息系统
  • 授予学位 硕士
  • 导师姓名 李云岭;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类
  • 关键词

    地理编码,地址解析,语料库,条件随机场;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号