汉语逗号与冒号的自动分类识别研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

标点符号研究是篇章分析中最基本的一个研究任务。有效识别标点符号在句子中的作用,是篇章分析研究的一个关键。因此,标点符号识别是一项很有意义的研究工作。本文针对标点符号多元分类的自动识别问题进行了深入的研究,主要内容包括以下三个方面：
　　⑴提出了一种基于句子的分词与词性标注信息进行汉语逗号自动分类的方法。核心工作是特征的筛选与抽取。我们分别采用最大熵模型和CRF模型构建逗号分类器,实现对汉语逗号的七元分类与识别。实验结果显示,使用CRF模型的识别正确率要高于使用最大熵模型的识别正确率,且这两种模型的分类精度都非常接近基于句法分析方法的分类精度,证明本文提出的方法是可行的。
　　⑵提出了一种针对汉语冒号的标注体系与识别方法。本文收集了含有大量汉语冒号的语料,并在对汉语冒号的使用方法进行统计与分析后,制定了汉语冒号的七元分类的分类标准,然后在分词与词性标注的语料上,进行汉语冒号七元分类标签的人工标注。本文使用规则法和最大熵模型法实现冒号的自动分类与识别,并将基于规则法进行冒号自动分类与识别的实验作为本文的基准系统。实验结果表明,基于最大熵模型的自动识别正确率明显高于基准系统的自动识别正确率。
　　⑶研究了通过添加其他标点符号的分类标签作为新特征的方法,来提高汉语逗号自动分类与识别的正确率。通过对CTB6.0语料的统计与分析发现,汉语冒号和分号都对逗号的自动分类识别结果存在影响。经实验验证:分别添加汉语冒号与分号分类标签作为新特征时,可以不同程度的提高汉语逗号七元分类的自动识别正确率,当同时添加这两种标点符号的分类标签作为一组新特征时,逗号七元分类的自动识别正确率将再次被提高。

著录项

作者
谷晶晶;
展开▼
作者单位

苏州大学;

展开▼
授予单位苏州大学;
学科计算机应用技术
授予学位硕士
导师姓名周国栋;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字处理软件;
关键词
文字识别; 标点符号; 软件设计; CRF模型;

相似文献

中文文献
外文文献
专利

1. 添加冒号和分号分类标签特征的汉语逗号分类 [J] . 李艳翠 ,谷晶晶 ,周国栋 . 中文信息学报 . 2014,第005期
2. 小学关于冒号、逗号、引号的阅读及使用小学语文“阅读与习作”整体教学研究——整合训练之一 [J] . 王学荣 . 教育艺术 . 2018,第011期
3. 汉语冒号标注与自动识别方法研究 [J] . 谷晶晶 ,周国栋 . 中文信息学报 . 2016,第003期
4. 基于分词与词性标注的汉语逗号自动分类 [J] . 谷晶晶 ,周国栋 . 计算机工程与应用 . 2015,第018期
5. 基于逗号的汉语子句识别研究 [J] . 李艳翠 ,冯文贺 ,周国栋 . 北京大学学报：自然科学版 . 2013,第1期
6. 汉语和英语逗号的对比分析及其翻译处理 [C] . 张全 . 全国第七届计算语言学联合学术会议 . 2003
7. 英汉语篇中逗号的语篇单位切分与衔接研究——基于当代散文翻译语料对比分析 [A] . 陈静 . 2014

汉语逗号与冒号的自动分类识别研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅