基于Active Learning的中文分词领域自适应方法的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

中文分词是指借助计算机系统将中文文本中的词与词之间自动加上空格或者其他边界标记，该研究是自然语言处理领域的一个重要的基础分支。基于词典的方法、基于规则的方法和基于统计的方法作为中文分词的三大主流方法，具有坚实的理论基础和成熟的分词模型，以各自不同的特点应用于自然语言处理的不同任务中。
　　但是，如果用一个领域的文本上训练得到的分词系统，对另一个陌生领域的文本进行分词时，其精度相比于原领域文本上的性能通常有明显下降。这是由于陌生领域的文本中会出现大量的未登录词，而且不同领域的字构成词的规则也不同，使得词汇的集合与频率分布都会发生变化。如果为每个领域建立分词系统，就需要大规模的人工分词训练语料，而这些训练语料需要投入大量的人工成本和时间成本，在现实中往往难以实施。
　　本论文围绕中文分词领域自适应的课题，针对大规模人工分词训练语料难以获得的问题，提出了基于Active learning的中文分词方法。该方法的主要思想是通过对目标领域文本的分析，选择出小规模的含有语言知识较多的语料，进行人工分词标注，然后利用这些语料训练出目标领域的分词模型。从而达到通过标注少量语料，为大量语料服务的目的。本论文的主要工作具体包括以下四个方面:
　　(1)提出基于Active learning的中文分词领域自适应的方法，通过少量人工标注，有效提高中文分词精度。设计并实现了面向特定领域的中文分词系统，扩展了现有的领域自适应中文分词方法。
　　(2)以科技领域为领域自适应的研究对象，制定了科技领域的中文分词人工标注标准。以CTB分词标准作为参考基础，通过分析具有代表性的科技文献语句，增加了该领域专有名词的分词标注标准。
　　(3)通过对科技领域文本语料的分词评测，验证了本论文所提方法的有效性。评测标准具体使用了准确率、召回率和F值，以量化的方式评价。同时设计实验，分析人工标注数据的数量与分词系统性能之间的关系，为领域自适应中语言模型的构建提供了数据支持。
　　(4)为了验证本论文所实现的科技领域分词系统的应用效果，从中英科技文献领域的平行语料中识别专有名词，构建中英翻译词典。具体地，利用本论文实现的中文分词系统与统计机器翻译中的GIZA++、Moses等工具进行处理，完成领域短语的抽取和翻译词典的构建任务。
　　综上所述，为了提升中文分词系统的领域自适应能力，本论文利用了Activelearning算法对传统的领域自适应分词系统进行扩展。在科技领域的实验结果表明了本论文所提出的方法能够增强中文分词的领域自适应能力，提升中文分词精度。

著录项

作者
许华婷;
展开▼
作者单位

北京交通大学;

展开▼
授予单位北京交通大学;
学科计算机技术
授予学位硕士
导师姓名杨晓晖;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
中文分词; 自适应算法; 主动学习; 自然语言;

相似文献

中文文献
外文文献
专利

1. 基于Active Learning的中文分词领域自适应 [J] . 许华婷 ,张玉洁 ,杨晓晖 . 中文信息学报 . 2015,第005期
2. 基于领域自适应方法的统计机器翻译模型的优化研究 [J] . 杨玲 . 科学技术创新 . 2021,第005期
3. 基于领域自适应方法的统计机器翻译模型的优化研究 [J] . 杨玲 . 黑龙江科技信息 . 2021,第005期
4. 基于主动学习的半监督领域自适应方法研究 [J] . 姚明海 ,黄展聪 . 高技术通讯 . 2020,第008期
5. 基于迁移子空间的半监督领域自适应方法 [J] . 陶洋 ,杨雯 ,翁善 . 计算机工程与设计 . 2021,第008期
6. 基于Active Learning的中文分词领域自适应 [C] . XU Huating ,许华婷 ,ZHANG Yujie . 中国中文信息学会2015学术年会（CIPS2015）暨第十四届全国计算语言学学术会议（CCL2015）、第三届基于自然标注大数据的自然语言处理国际学术研讨会（NLP-NABD2015） . 2015
7. 基于样本迁移学习的中文分词领域自适应方法的研究 [A] . 张艳娜 . 2019

基于Active Learning的中文分词领域自适应方法的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅