基于条件随机场的中文地址解析

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

目前存在大量的地址描述类信息，然而这类信息往往需要先转化为空间坐标才能有助于分析研究，地理编码就是一项将地址描述信息转化为空间点位的技术。地址编码一般来说包括地址解析和地址匹配两个主要过程。地址解析性能的好坏直接影响匹配的准确性，最终影响整个编码系统的质量。　　地址解析的过程一般就是分词以及地址成分类型识别的过程。地址分词分为基于规则的分词和基于统计的分词，基于规则的分词是在地址分词词典的基础上，采用一些检索算法进行词典的查询，其分词的准确性完全依赖于词典的准确性和完善性。基于统计的分词方式是通过训练已标注的地址语料库，将地址作为观察序列，分词标注集作为标注序列得到训练模型，通过模型对地址进行标注，得到的标注结果就可以转化为分词结果。基于统计的分词方式虽然训练语料需要耗费一定的时间，但其可解决部分地址分词歧义问题，且标注结果不仅可输出为分词标注而且可输出为地址成分类型的标注，利用统计的方式可同时解决地址分词和地址成分类型识别问题。而在统计标注方法中，条件随机场是目前最为常用的一种统计模型。因此本文提出了一种基于条件随机场的地址解析方法。该方法将地址解析要解决的地址分词和地址成分类型识别问题转化为分词和地址成分的标注问题，并将分词和地址成分标注结合在一起形成输出序列的标注数据集。充分考虑地址的构成和使用习惯，设定对地址解析有帮助的特征。通过构建地址语料库和建立相应的特征模版，训练得到适用于中文非规范地址的条件模型，通过地址模型即可对未标注的中文地址进行序列标注，得到最优的地址标注输出序列，最终转化为分词和地址成分类型识别结果。　　本文采用CRF++作为建模工具，通过对高德提取的济南市的282257条地址数据进行标注，建立标注语料库，通过对语料库训练得到地址条件模型，并将80000条人工标注好的地址作为测试集进行测试，以验证模型的性能。实验表明，条件随机场的标注准确率基本符合地址匹配的要求，准确率达到了80%以上，其中将上下文窗口设置为[-2,2]，采用综合词性特征与地址用词特征的特征模版作为训练模版得到的标注结果最好，准确率达到了89.02%。

著录项

作者
赵英;
展开▼
作者单位

山东科技大学;

展开▼
授予单位山东科技大学;
学科地图学与地理信息系统
授予学位硕士
导师姓名李云岭;
年度 2018
页码
总页数
原文格式 PDF
正文语种 chi
中图分类
关键词
地理编码,地址解析,语料库,条件随机场;

相似文献

中文文献
外文文献
专利

1. 基于条件随机场的非规范化中文地址解析方法 [J] . 许也 ,申柏希 ,徐翔 . 地理与地理信息科学 . 2019,第2期
2. 基于BERT-BiLSTM-CRF的中文地址解析方法 [J] . 吴恪涵 ,张雪英 ,叶鹏 . 地理与地理信息科学 . 2021,第4期
3. 基于 Trie 树和有限状态自动机的中文地址解析模型 [J] . 汪洋 ,刘师培 ,王峥 . 计算机与现代化 . 2016,第007期
4. 基于条件随机场模型的中文地址分词研究 [J] . 杨德彬 ,马卫春 . 测绘与空间地理信息 . 2021,第011期
5. 基于词向量和条件随机场的中文命名实体分类 [J] . 马孟铖 ,杨晴雯 ,艾斯卡尔·艾木都拉 . 计算机工程与设计 . 2020,第009期
6. 基于条件随机场的中文地址要素识别研究 [C] . 黄炳耀 . 2015年度浙江省测绘与地理信息学会年会 . 2015
7. 基于BERT模型和条件随机场的中文分词研究分析 [A] . 陈晨 . 2020

基于条件随机场的中文地址解析

目录

摘要

著录项

相似文献

相关主题

期刊订阅