基于最大熵模型的中文命名实体识别方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

命名实体识别是信息抽取的子任务，同时也是机器翻译、自动问答等多种自然语言处理技术的基础。由于受中文自身特点的限制，中文命名实体识别一直相当困难。为了促进其它中文自然语言处理技术和应用的发展，研究中文命名实体的识别技术是很有意义，也是非常重要的。本文利用最大熵模型(Maximum Entropy，ME )进行中文命名实体识别。尝试了在不同特征模板集下，命名实体识别的性能，深入研究了最大熵模型在中文命名实体识别中的特点，发现最大熵模型不能自动组合特征，模型性能很大程度上依赖于特征模板。因此，设计合理的特征模板是基于最大熵模型中文命名实体识别的关键。汉语中存在大量的隐含语义特征，可以帮助命名实体的识别，而最大熵模型的一个重要优点就是能融合不同粒度和不同层次的特征。针对这一特点，本文通过从语料库中抽取信息的方式，建立了大量的中文命名实体语义知识库。但是，由于语料库的规模有限，并且基于统计的方法普遍存在数据稀疏的问题，导致很多重要的知识不能被挖掘出来。为了解决这一问题，本文首次将语义扩展的思想应用在命名实体识别中，充分发挥了有限语言资源的作用，深度挖掘了有限资源的信息和知识，在不扩大语料库的前提下，挖掘出更丰富的知识，一定程度上缓解了数据稀疏问题。实验证明，相对于扩展前的知识库，利用扩展后的知识库，平均识别召回率提高了1.17％，F值提高了0.41％。特别是结构比较复杂的机构名识别准确率提高了0.24％，召回率提高了1.39％，F值提高了0.86％。

著录项

作者
杨华;
展开▼
作者单位

哈尔滨工程大学;

展开▼
授予单位哈尔滨工程大学;
学科计算机应用技术
授予学位硕士
导师姓名宁慧;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;信息论（信息论的数学理论）;
关键词
最大熵模型; 中文命名实体识别; 信息抽取; 自然语言处理; 语义扩展;

相似文献

中文文献
外文文献
专利

1. 基于不同模型的中文命名实体识别方法研究 [J] . 宫义山 ,段亚奇 . 信息通信 . 2021,第001期
2. 中文医疗命名实体识别方法研究综述 [J] . 王红 ,王彩雨 . 山东师范大学学报（自然科学版） . 2021,第002期
3. 中文电子病历命名实体识别方法研究 [J] . 马欢欢 ,孔繁之 ,高建强 . 医学信息学杂志 . 2020,第004期
4. 中文命名实体识别方法研究 [J] . 刘璟 . 电脑知识与技术 . 2019,第009期
5. 中文在线健康社区中的医疗命名实体识别方法研究 [J] . 杨杭州1 ,刘凯2 ,颜志军1 . 信息系统学报 . 2018,第001期
6. 基于最大熵模型的中文阅读理解技术研究 [C] . . 第四届全国学生计算语言学研讨会(SWCL-2008) . 2008
7. 基于最大熵模型的中文命名实体识别研究及系统实现 [A] . 葛金虎 . 2012

基于最大熵模型的中文命名实体识别方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅