融合外部知识的中文命名实体识别研究及其医疗领域应用

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

命名实体识别的主要任务是将文本中的人名、地名、机构名等有特殊意义的实体识别出来，作为自然语言处理领域的基础任务之一，命名实体识别几十年来始终是研究热点之一。随着基于统计的机器学习方法的发展，在训练语料中出现过的实体的识别效果已经很好，但未登陆词的识别仍是命名实体识别的难点之一。
　　针对这个问题，我们首先对传统的条件随机场（CRF，Conditional Random Fields）模型融入词表的方式进行研究，希望使CRF模型可以识别出词表中的实体，并使用维基词表在通用领域进行了实验。
　　之后，我们注意到了近年来深度神经网络的迅猛发展，其中循环神经网络（RNN，Recurrent Neural Network）和RNN的一个改进LSTM（Long-Short Term Memory）在自然语言处理领域有着十分优秀的表现。LSTM在训练中理论上可以使用全部的前文信息，而双向LSTM可以使用整个序列的信息。
　　我们接下来使用双向LSTM模型进行了命名实体识别的识别器的设计，其中引入了Dropout、转移代价计算等各种技术，并按照该模型使用Python
　　Theano实现了一个命名实体识别工具。我们使用这个工具在通用领域做了大量的实验，证明了双向LSTM模型在命名实体识别任务中效果远远优于CRF模型，在多组实验中提升了2％左右的F值。
　　此外，我们还利用深度神经网络的预训练技巧在双向LSTM模型中添加了更多的外部信息，实验表明也有一定的效果。
　　最后，我们利用前面提出的CRF模型和LSTM模型对医疗领域的语料进行了实验。CRF加入词表的实验对于识别出词表中的实体有效果，双向LSTM模型与CRF模型的效果相比仍有一定的提升。双向LSTM模型加入风格不一致的开放领域文本的预训练向量后，虽然牺牲了一定的性能，但能够提升模型对于非专业医疗语料实体的识别效果。

著录项

作者
李剑风;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机科学与技术
授予学位硕士
导师姓名李生;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
中文命名; 实体识别; 条件随机场; 时间递归神经网络;

相似文献

中文文献
外文文献
专利

1. 基于循环和卷积神经网络融合的中文命名实体识别与应用 [J] . 汪小龙 ,吴曲宁 ,范佳佳 . 兰州工业学院学报 . 2021,第003期
2. 基于循环和卷积神经网络融合的中文命名实体识别与应用 [J] . 汪小龙 ,吴曲宁 ,范佳佳 . 兰州工业学院学报 . 2021,第003期
3. 融合字词模型的中文命名实体识别研究 [J] . 殷章志 ,李欣子 ,黄德根 . 中文信息学报 . 2019,第011期
4. 融合外部语义知识的中文文本蕴含识别 [J] . 李世宝 ,李贺 ,赵庆帅 . 计算机工程 . 2021,第001期
5. 知识图谱在医疗领域的应用研究 [J] . 王西锋 ,张晓孪 . 宝鸡文理学院学报:自然科学版 . 2021,第4期
6. 基于深度学习的电子病历命名实体识别及其在知识发现中的应用 [C] . 欧阳恩 ,李作高 ,李昱熙 . 2018（13th）中国卫生信息技术/健康医疗大数据应用交流大会 . 2018
7. 面向医疗领域的中文命名实体识别方法研究 [A] . 容汉铿 . 2020

融合外部知识的中文命名实体识别研究及其医疗领域应用

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅