中文分词及词性标注中领域自适应的研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

在自然语言处理领域，中文分词和词性标注是其它中文信息处理任务的前提和基础，而基于统计机器学习的中文分词及词性标注方法以其良好的性能成为主流的技术之一。然而，研究发现，当训练语料和测试语料的性质（如文体、规模大小、分词标准等）不相同时，以大规模语料为基础的统计机器学习方法的性能会大大降低。为此，人们提出了领域自适应技术，它能够有效解决训练语料和测试语料因性质的不同而造成分词及词性标注正确率下降的问题。
　　本文首先介绍了课题研究背景、国内外研究现状和课题研究意义，然后详细论述了领域自适应技术中用到的统计语言模型条件随机场CRFs以及领域不相适应的因素，并总结了目前已有的几种具有代表性的领域自适应算法，同时对各种算法进行了分析、研究和比较。
　　接着，针对中文分词中的领域自适应问题，做了如下工作：首先对中文分词作了简要概述，然后在现有算法的基础上，根据数据标记边缘概率，本文提出了基于标记转换的领域自适应算法，利用少量已标记测试语料中的语言信息对训练语料中的数据标记进行相应的转换，使获得的训练模型能够较好的适应测试语料。实验结果表明，该算法能够有效的提高中文分词的性能。同时，对现有算法进行改进，提出了基于改进的数据加权的领域自适应方法，通过设定一个门限值来提取未标记测试语料中的候选词，对其数据加权后进行中文分词。实验结果表明，该方法也是一种能够提高中文分词正确率的有效途径。在上述两种算法的基础上，本文设计了基于标记转换和改进的数据加权的联合算法，通过把两种算法有效的结合起来进行中文分词。实验结果表明，该算法能够有效的提高分词的正确率。
　　最后，针对词性标注中的领域自适应问题，做了如下工作：首先对词性标注做了简要概述，然后利用少量已标记测试语料中的信息，使用基于数据加权的领域自适应算法对词性标注进行了分析和研究。实验结果表明，相比只注重从训练语料中获得语言信息的方法，从测试语料中获取信息的方法更有助于词性标注正确率的提高。

著录项

作者
龚敏;
展开▼
作者单位

南京邮电大学;

展开▼
授予单位南京邮电大学;
学科信号与信息处理
授予学位硕士
导师姓名颜永红;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
中文分词; 词性标注; 领域自适应; 标记边缘概率; 条件随机场;

相似文献

中文文献
外文文献
专利

1. 领域自适应的合成词词性标注研究 [J] . 张春荣 ,赵琦 . 计算机应用研究 . 2018,第005期
2. 中文分词与词性标注研究 [J] . 梁喜涛 ,顾磊 . 计算机技术与发展 . 2015,第002期
3. 基于实例的中文分词-词性标注方法的应用研究 [J] . 姜涛 ,姚天顺 ,张俐 . 小型微型计算机系统 . 2007,第011期
4. 中文分词及词性标注一体化模型研究 [J] . 佟晓筠 ,宋国龙 ,刘强 . 计算机科学 . 2007,第009期
5. 基于深度学习和迁移学习的领域自适应中文分词 [J] . 成于思 ,施云涛 . 中文信息学报 . 2019,第009期
6. 基于Active Learning的中文分词领域自适应 [C] . XU Huating ,许华婷 ,ZHANG Yujie . 中国中文信息学会2015学术年会（CIPS2015）暨第十四届全国计算语言学学术会议（CCL2015）、第三届基于自然标注大数据的自然语言处理国际学术研讨会（NLP-NABD2015） . 2015
7. 中文分词与词性标注的一体化学习及领域适应性技术研究 [A] . 朱雷 . 2010

中文分词及词性标注中领域自适应的研究

摘要

著录项

相似文献

相关主题

期刊订阅