首页> 中文学位 >基于统计的汉语意见文本校对系统设计与实现
【6h】

基于统计的汉语意见文本校对系统设计与实现

代理获取

目录

摘要

第1章 绪论

1.1 研究目的和意义

1.2 汉语意见文本校对的研究现状

1.2.1 标点符号预测与校对相关研究

1.2.2 错别字校对相关研究现状

1.2.3 汉语文本自动校对研究存在的主要问题

1.3 本文主要研究内容

1.4 本文组织安排

第2章 汉语意见文本标点自动校对

2.1 引言

2.2 汉语意见文本标点错误分析

2.2.1 意见文本标点符号的使用特点

2.2.2 意见文本中的标点错误

2.3 标点校对系统总体框架

2.3.1 标点校对系统实现步骤

2.3.2 标点校对系统标注体系

2.4 标点位置预测与校对

2.4.1 基于CRF的标点位置预测

2.4.2 标点符号位置预测特征选择

2.4.3 标点符号位置纠错

2.5 标点预测

2.6 基于Bi-gram的标点校对

2.7 实验结果与分析

2.7.1 实验数据及测评方法

2.7.2 标点位置预测与校对实验结果

2.7.3 标点校对实验结果

2.8 本章小结

第3章 汉语意见文本错别字校对

3.1 引言

3.2 意见文本错别字分析

3.2.1 意见文本的特点分析

3.2.2 意见文本错别字类型分析

3.3 错别字校对任务描述

3.4 错别字检测

3.4.1 基于散串的错别字检测

3.4.2 基于互信息的错别字检测

3.5 错别字校对

3.5.1 基于汉字-拼音-汉字转换的校对模型

3.5.2 相似拼音串转换

3.5.3 拼音串切分

3.5.4 拼音解码过程

3.5.5 N-gram语言模型

3.6 实验结果与分析

3.6.1 实验数据与评测指标

3.6.2 错别字检测实验结果与分析

3.6.3 错别字纠正实验结果与分析

3.7 本章小结

结论

参考文献

致谢

攻读硕士学位期间参加的国家自然基金项目

声明

展开▼

摘要

随着近年来Web2.0技术和社交媒体的快速发展,网络中出现大量的产品意见文本。同正规的新闻文本相比,产品意见文本书写自由,存在大量的错别字、标点误用和谐音等病态输入现象,由于这些不规范的语言行为的存在,严重影响了后续的意见挖掘工作的效果。如何去掉这些非正规描述或噪声信息已成为产品意见文本分析亟待解决的一个重要课题。
  本文在深入分析汉语产品意见文本特点的基础上,在统计方法框架下,从标点符号和错别字校对两个方面探索汉语意见文本校对问题,以提高意见文本的可读性和规范性,进而为后续的意见挖掘打下良好的基础。具体地,本文的主要工作包括以下两个方面:
  (1)针对产品意见文本中存在的标点错误,本文在融合多级别语言特征进行CRF序列标注的基础之上,融合原文标点信息,设计并实现一个基于标点位置预测的三阶段的汉语标点校对系统。实验结果表明,引入原文标点信息有利于标点纠错性能的提高。
  (2)针对产品意见文本中存在的错别字,本文深入分析了错别字与其正确形式之间的潜在联系,重点探索了汉字录入过程中错别字的形成原因。在此基础上,提出了一种基于汉字-拼音-汉字转换的错别字纠正方法。实验结果表明,探究错别字读音上的特点对错别字校对存在积极作用。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号