首页> 中文学位 >基于决策树方法的汉语复句关系词自动识别
【6h】

基于决策树方法的汉语复句关系词自动识别

代理获取

目录

声明

摘要

1.1 研究背景与意义

1.2 研究现状

1.3 研究内容及创新点

1.4 论文组织结构

第二章 依存句法与依存树库的构建

2.1 复旬与复句关系词

2.1.1 复句与复句特征

2.1.2 复句关系词分析

2.2 依存句法概述

2.3 复句依存树库的构建

2.3.1 复句依存句法解析

2.3.2 复句依存树库

2.4 本章小结

第三章 基于依存关系的复句关系词特征提取

3.1 复句关系词特征分析

3.2 基于依存关系的复句关系词特征研究

3.3 复句关系词特征提取

3.4 本章小结

第四章 基于决策树的汉语复句关系词自动识别

4.1 复句关系词自动识别模型构建

4.1.1 相关分类算法概述

4.1.2 C4.5决策树算法

4.2 特征选取与量化

4.3 实验与结果分析

4.3.1 复句关系词自动识别流程图

4.3.2 实验语料准备

4.3.3 实验结果分析

4.4 本章小结

5.1 全文总结

5.2 进一步的研究工作

参考文献

攻读硕士学位期间参加的科研项目

致谢

展开▼

摘要

现阶段,中文信息处理中的字词处理已经取得了较好的进展,作为词处理后续工作的句处理,对过渡到篇章处理起着至关重要的作用。复句处理是句处理的基础,而复句中的关系词不仅承载分句间的连接,且可用于标识复句的层次结构,因此,复句关系词的自动识别是复句处理的重点研究内容。
  目前复句关系词识别的方法主要有基于规则的方法、基于统计的方法以及规则与统计相结合的方法。利用基于统计的模型方法进行识别,可以获得比规则更高的准确率。本文从依存关系角度分析复句关系词的特征,表明关系词的依存特性能够体现其作为关系词的特征;然后通过哈尔滨工业大学语言技术平台(LTP)对华中师范大学语言研究所开发的现代汉语复句语料库(CCCS)中的复句进行依存句法解析,根据解析结果构建汉语复句依存树库,在分析依存树中关系词的依存特性后,归纳总结七个特征作为识别复句关系词的重要依据;最后设计复句关系词特征提取器对准关系词的特征进行提取然后加以量化,并基于C4.5决策树算法构建复句关系词识别模型,再对决策树模型进行后剪枝操作,使得决策树模型具有更好的泛化能力。
  本文的实验语料来自于现代汉语复句语料库(CCCS),使用随机采样的方法将原始数据集分成四份,其中三份作为训练集用来训练决策树模型,一份用来测试决策树模型在复句关系词识别中的效果。实验结果显示决策树模型对汉语复句关系词识别具有较高的准确率,表明本文所提出方法的可行性与有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号