首页> 中文学位 >基于Active Learning的中文分词领域自适应方法的研究
【6h】

基于Active Learning的中文分词领域自适应方法的研究

代理获取

目录

声明

致谢

摘要

1 引言

1.1 课题研究背景及意义

1.2 国内外研究现状

1.3 研究目标与内容

1.4 论文组织结构

2 理论与技术基础

2.1 中文分词难点

2.1.1 歧义切分

2.1.2 未登录词识别

2.2 基于序列标注的中文分词方法

2.2.1 CIU原理

2.2.2 标注集和特征模版

2.3 基于统计特征的领域自适应方法

2.3.1 n-gram频度值

2.3.2 n-gram AV值特征

2.3.3 基于统计特征的领域自适应方法

2.4 本章小结

3 基于Active learning的中文分词领域自适应方法

3.1 基于Active learning的中文分词领域自适应方法的设计

3.2 Active learning算法介绍

3.3 Active learning算法分类及应用

3.3.1 基于池的样例选择算法

3.3.2 基于流的样例选择算法

3.3.3 Active learning算法的实例应用

3.4 本章小结

4 科技领域自适应的特例研究

4.1 分词系统的建立

4.2 人工分词标注标准的制定

4.3 实验设计

4.3.1 实验数据准备

4.3.2 实验步骤

4.4 评价与分析

4.4.1 评测指标

4.4.2 分词精度评测

4.5 在机器翻译中的应用

4.5.1 基于Active leaming算法的短语对和词典的抽取

4.5.2 在科技领域应用的结果与分析

4.6 本章小结

5 总结和展望

参考文献

作者简历及攻读硕士学位期间取得的研究成果

声明

学位论文数据集

展开▼

摘要

中文分词是指借助计算机系统将中文文本中的词与词之间自动加上空格或者其他边界标记,该研究是自然语言处理领域的一个重要的基础分支。基于词典的方法、基于规则的方法和基于统计的方法作为中文分词的三大主流方法,具有坚实的理论基础和成熟的分词模型,以各自不同的特点应用于自然语言处理的不同任务中。
  但是,如果用一个领域的文本上训练得到的分词系统,对另一个陌生领域的文本进行分词时,其精度相比于原领域文本上的性能通常有明显下降。这是由于陌生领域的文本中会出现大量的未登录词,而且不同领域的字构成词的规则也不同,使得词汇的集合与频率分布都会发生变化。如果为每个领域建立分词系统,就需要大规模的人工分词训练语料,而这些训练语料需要投入大量的人工成本和时间成本,在现实中往往难以实施。
  本论文围绕中文分词领域自适应的课题,针对大规模人工分词训练语料难以获得的问题,提出了基于Active learning的中文分词方法。该方法的主要思想是通过对目标领域文本的分析,选择出小规模的含有语言知识较多的语料,进行人工分词标注,然后利用这些语料训练出目标领域的分词模型。从而达到通过标注少量语料,为大量语料服务的目的。本论文的主要工作具体包括以下四个方面:
  (1)提出基于Active learning的中文分词领域自适应的方法,通过少量人工标注,有效提高中文分词精度。设计并实现了面向特定领域的中文分词系统,扩展了现有的领域自适应中文分词方法。
  (2)以科技领域为领域自适应的研究对象,制定了科技领域的中文分词人工标注标准。以CTB分词标准作为参考基础,通过分析具有代表性的科技文献语句,增加了该领域专有名词的分词标注标准。
  (3)通过对科技领域文本语料的分词评测,验证了本论文所提方法的有效性。评测标准具体使用了准确率、召回率和F值,以量化的方式评价。同时设计实验,分析人工标注数据的数量与分词系统性能之间的关系,为领域自适应中语言模型的构建提供了数据支持。
  (4)为了验证本论文所实现的科技领域分词系统的应用效果,从中英科技文献领域的平行语料中识别专有名词,构建中英翻译词典。具体地,利用本论文实现的中文分词系统与统计机器翻译中的GIZA++、Moses等工具进行处理,完成领域短语的抽取和翻译词典的构建任务。
  综上所述,为了提升中文分词系统的领域自适应能力,本论文利用了Activelearning算法对传统的领域自适应分词系统进行扩展。在科技领域的实验结果表明了本论文所提出的方法能够增强中文分词的领域自适应能力,提升中文分词精度。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号