频繁依存子树模式在问题分类中的应用研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

问题分类是自动问答系统的关键步骤,对计算机准确理解自然语言问题的真实含义起着至关重要的作用。中文语言的意合性、无时态变化、语序灵活性以及词的平均依存距离远等特点,造成了中文问题分类的困难。根据中文依存语法,问句可解析成依存关系树,而中文问句的常见自然语言结构特征,自然就会反映在依存关系树集中频繁出现的特征子结构中。亦即,可以从中文问句的依存关系树库中,挖掘中文问题的特征子结构,以辅助进行中文问题分类。本文即致力于研究中文问句依存关系树库的挖掘问题,并将挖掘结果应用于问题分类。
　　本文主要研究工作如下:
　　(1)由于条件随机场模型应用于中心词标注时未能充分利用中心词特征间存在的深层统计关系,提出利用中文问句的依存关系树结构,通过挖掘问句依存关系树所蕴藏的中心词各维度特征之间的统计概率关系,来正确标注中心词的新方法。该方法通过挖掘频繁依存子树模式以生成相应统计规则模式,并使用频繁依存子树模式统计规则对中心词的条件随机场模型初始标注进行校正,将条件随机场模型的中心词标注准确率进一步提高了3％左右。此方法建立在严格的统计语料基础上,标注的稳定性、适应性和鲁棒性较好。
　　(2)对频繁依存子树模式生成的大量统计规则,本文探讨了依存子树规则冗余的定义,结合问句中心词的特点,提出了在生成规则时与应用规则时的冗余消减方式。通过删减简单冗余、严格冗余的、低置信度等依存子树冗余规则使得规则数量明显减少,而中心词标注的准确率保持稳定。
　　(3)提出了类别频繁子树模式分类规则生成算法,以挖掘不同类别问句在依存关系树上的频繁结构特征,补充和完善疑问词-类别库与疑问词+中心词-类别库,并结合贝叶斯分类模型,实现规则与统计相结合的问题分类方法。试验表明,此方法分类准确率较现有方法显著提高。

著录项

作者
虞勇勇;
展开▼
作者单位

合肥工业大学;

展开▼
授予单位合肥工业大学;
学科计算机应用技术
授予学位硕士
导师姓名田卫东;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理 ;
关键词
频繁子树模式; 中心词; 问题分类; 规则优化; 条件随机场; 自动问答系统; 自然语言处理;

相似文献

中文文献
外文文献
专利

1. 基于频繁依存子树模式的中心词提取方法研究 [J] . 田卫东 ,虞勇勇 . 中文信息学报 . 2016 ,第003期
2. 频繁子树模式在中心词识别中的应用研究 [J] . 田卫东 ,黄勇 . 微电子学与计算机 . 2015 ,第11期
3. 基于模式增长的嵌入式频繁子树挖掘算法研究 [J] . 卫朝霞 ,邹倩影 . 计算机仿真 . 2021 ,第003期
4. 基于覆盖模式的频繁子树挖掘方法 [J] . 夏英 ,李洪旭 . 计算机应用 . 2017 ,第009期
5. 基于频繁子树模式的评价对象抽取 [J] . 田卫东 ,苗惠君 . 计算机工程 . 2017 ,第004期
6. 基于覆盖模式的频繁子树挖掘方法 [C] . XIA Ying ,夏英 ,LI Hongxu . 第十七届中国Rough集与软计算学术会议、第十一届中国Web智能学术研讨会、第十一届中国粒计算研讨会及第五届三支决策学术会议联合会议（CRSSC-CWI-CGrC-3WD 2017） . 2017
7. 依存语法树在中文问题分类中的应用研究 [A] . 郭闯 . 2019

频繁依存子树模式在问题分类中的应用研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅