首页> 中文学位 >频繁依存子树模式在问题分类中的应用研究
【6h】

频繁依存子树模式在问题分类中的应用研究

代理获取

目录

封面

声明

致谢

中文摘要

英文摘要

目录

第一章 绪论

1.1研究背景与意义

1.2国内外研究现状

1.4本文的组织结构

1.5本章小结

第二章 中文问句中心词

2.1中心词的概念

2.2问句中心词的复杂性

2.3中心词对问句分类的重要性

2.4中心词提取的常见方法

2.5基于CRF模型的中心词标注

2.6本章小结

第三章基于频繁依存子树模式的中文问句中心词提取

3.1CRF对问句中心词的初始标注

3.3问句依存子树介绍

3.4频繁依存子树模式

3.5频繁子树模式规则生成

3.6规则修正

3.7实验结果和分析

3.8本章小结

第四章中心词提取规则的优化方法

4.1规则优化的目的和意义

4.2规则优化的常见方法

4.3关联规则冗余的相关概念与理论

4.4中心词抽取规则优化方法

4.5实验结果与分析

4.6本章小结

第五章基于类别频繁依存子树模式的问题分类方法

5.1常见问题分类方法

5.2问题分类类别体系

5.3类别频繁子树模式的问句分类方法

5.5本章小结

第六章总结和展望

6.1总结

6.2展望

参考文献

攻读硕士学位期间的学术活动及成果情况

展开▼

摘要

问题分类是自动问答系统的关键步骤,对计算机准确理解自然语言问题的真实含义起着至关重要的作用。中文语言的意合性、无时态变化、语序灵活性以及词的平均依存距离远等特点,造成了中文问题分类的困难。根据中文依存语法,问句可解析成依存关系树,而中文问句的常见自然语言结构特征,自然就会反映在依存关系树集中频繁出现的特征子结构中。亦即,可以从中文问句的依存关系树库中,挖掘中文问题的特征子结构,以辅助进行中文问题分类。本文即致力于研究中文问句依存关系树库的挖掘问题,并将挖掘结果应用于问题分类。
  本文主要研究工作如下:
  (1)由于条件随机场模型应用于中心词标注时未能充分利用中心词特征间存在的深层统计关系,提出利用中文问句的依存关系树结构,通过挖掘问句依存关系树所蕴藏的中心词各维度特征之间的统计概率关系,来正确标注中心词的新方法。该方法通过挖掘频繁依存子树模式以生成相应统计规则模式,并使用频繁依存子树模式统计规则对中心词的条件随机场模型初始标注进行校正,将条件随机场模型的中心词标注准确率进一步提高了3%左右。此方法建立在严格的统计语料基础上,标注的稳定性、适应性和鲁棒性较好。
  (2)对频繁依存子树模式生成的大量统计规则,本文探讨了依存子树规则冗余的定义,结合问句中心词的特点,提出了在生成规则时与应用规则时的冗余消减方式。通过删减简单冗余、严格冗余的、低置信度等依存子树冗余规则使得规则数量明显减少,而中心词标注的准确率保持稳定。
  (3)提出了类别频繁子树模式分类规则生成算法,以挖掘不同类别问句在依存关系树上的频繁结构特征,补充和完善疑问词-类别库与疑问词+中心词-类别库,并结合贝叶斯分类模型,实现规则与统计相结合的问题分类方法。试验表明,此方法分类准确率较现有方法显著提高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号