首页> 中文学位 >汉语逗号与冒号的自动分类识别研究
【6h】

汉语逗号与冒号的自动分类识别研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第1章 绪论

1.1 研究背景和意义

1.2 研究现状

1.3研究内容

1.4 本文的组织结构

第2章 相关知识介绍

2.1文本表示模型

2.2相关分类模型工具

2.3常用性能评价标准

第3章 基于分词与词性标注的汉语逗号分类

3.1 问题描述

3.2 逗号分类标准

3.3 逗号自动分类方法

3.4 实验结果与分析

3.5本章小结

第4章 汉语冒号标注与自动识别方法研究

4.1 问题描述

4.2语料标注与分析

4.3 冒号自动识别方法

4.5本章小结

第5章 添加其他标点分类标签为特征的逗号分类

5.1问题描述

5.2 冒号语料实验数据

5.3 添加冒号分类标签特征的实验结果及分析

5.4 分号语料的实验数据

5.5 添加分号分类标签特征的实验及分析

5.6 同时添加冒号与分号分类标签特征的实验

5.7 本章小结

第6章 总结与展望

6.1研究工作总结

6.2 下一步工作展望

参考文献

攻读学位期间公开发表的论文

攻读学位期间参与的科研项目

致谢

展开▼

摘要

标点符号研究是篇章分析中最基本的一个研究任务。有效识别标点符号在句子中的作用,是篇章分析研究的一个关键。因此,标点符号识别是一项很有意义的研究工作。本文针对标点符号多元分类的自动识别问题进行了深入的研究,主要内容包括以下三个方面:
  ⑴提出了一种基于句子的分词与词性标注信息进行汉语逗号自动分类的方法。核心工作是特征的筛选与抽取。我们分别采用最大熵模型和CRF模型构建逗号分类器,实现对汉语逗号的七元分类与识别。实验结果显示,使用CRF模型的识别正确率要高于使用最大熵模型的识别正确率,且这两种模型的分类精度都非常接近基于句法分析方法的分类精度,证明本文提出的方法是可行的。
  ⑵提出了一种针对汉语冒号的标注体系与识别方法。本文收集了含有大量汉语冒号的语料,并在对汉语冒号的使用方法进行统计与分析后,制定了汉语冒号的七元分类的分类标准,然后在分词与词性标注的语料上,进行汉语冒号七元分类标签的人工标注。本文使用规则法和最大熵模型法实现冒号的自动分类与识别,并将基于规则法进行冒号自动分类与识别的实验作为本文的基准系统。实验结果表明,基于最大熵模型的自动识别正确率明显高于基准系统的自动识别正确率。
  ⑶研究了通过添加其他标点符号的分类标签作为新特征的方法,来提高汉语逗号自动分类与识别的正确率。通过对CTB6.0语料的统计与分析发现,汉语冒号和分号都对逗号的自动分类识别结果存在影响。经实验验证:分别添加汉语冒号与分号分类标签作为新特征时,可以不同程度的提高汉语逗号七元分类的自动识别正确率,当同时添加这两种标点符号的分类标签作为一组新特征时,逗号七元分类的自动识别正确率将再次被提高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号