首页> 中文学位 >基于分层标注的地理领域嵌套命名实体识别研究
【6h】

基于分层标注的地理领域嵌套命名实体识别研究

代理获取

目录

第一个书签之前

摘 要

Abstract

术语与符号约定

绪论

研究背景

研究内容

论文组织结构

相关研究

地理领域命名实体识别

命名实体识别任务描述

命名实体识别研究现状

地理领域命名实体识别任务描述

地理领域命名实体识别研究现状

地理领域命名实体识别的主要问题和挑战

嵌套命名实体识别

嵌套命名实体识别任务描述

将NNER作为序列标注问题的研究

将NNER作为分类问题的研究

基于规则的NNER问题研究

嵌套命名实体标注策略

分层标注

级联标注

串联标签标注

串联Token标注

解析树标注

本章小结

地理领域嵌套命名实体语料库构建

语料库构建过程

地理命名实体的特点

地理命名实体类别的划分

标注粒度的选择

数据预处理

分层BIO标注

一致性检验和非法标记修正

本章小结

地理领域嵌套命名实体识别研究方法

基线方法

基于条件随机场的分层标注NNER

条件随机场模型

特征选择

特征模板设计

实现过程

基于双向门递归单元神经网络的分层标注NNER

双向门递归单元神经网络模型

词嵌入

学习算法

Dropout

实现过程

本章小结

地理领域嵌套命名实体识别实验与分析

实验设置

实验数据集

评价方法

基线方法实验

实验

实验结果分析

实验结果分析

基于双向门递归单元神经网络的分层标注NNER实验

实验

实验结果分析

实验结果对比分析

三种方法的层次依赖评价对比分析

三种方法的层次独立评价对比分析

三种方法对各类别的识别性能对比分析

本章小结

总结与展望

工作总结

未来展望

致 谢

参考文献

展开▼

摘要

命名实体识别是构建高考地理问答系统的基础任务。近年来命名实体识别的研究对自然语言处理技术走向实用化起到了助推作用。然而大部分命名实体识别研究只针对文本中的非嵌套命名实体,而忽视嵌套命名实体,导致信息大量丢失。此外,中文嵌套命名实体语料库极为匮乏,尤其是在中文地理领域,目前为止没有中文地理领域嵌套命名实体识别的相关研究。基于上述问题,本文首先分析了地理领域命名实体的特点,然后对地理领域嵌套命名实体识别做了研究,充分识别地理文本中的命名实体,提升了传统命名实体识别的性能。本文主要工作如下: (1)针对地理领域语料库缺乏的问题,本文面向中文高中地理课本,采用分层标注的方式构建了包含9758个命名实体的地理领域嵌套命名实体语料库,为中文地理领域的嵌套命名实体识别工作提供了数据。 (2)针对目前中文地理领域没有嵌套命名实体相关研究的问题,本文首次在地理领域对嵌套命名实体识别任务进行分层建模,采用条件随机场和双向门递归单元神经网络两种模型展开研究。 实验表明,采用分层标注的方式进行嵌套命名实体识别,将大大提升地理领域命名实体识别的性能,两种模型的F1值分别达到60.13%和50.28%,且都比原来不采用分层标注的基线方法取得了更高的召回率。此外,在地理领域嵌套命名实体识别任务中,采用分层标注的方式,条件随机场模型的综合性能优于双向门递归单元神经网络模型的综合性能。但在个别类的识别上,双向门递归单元神经网络模型的性能优于条件随机场模型的性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号