面向自动问答的短问题分类研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着科技的飞速前进，互联网的不断发展，信息不断的增长，如何从海量信息中快速准确地获取有用信息逐渐演变成一个愈发重要的课题。自动问答系统作为一种特殊的搜索引擎，重新回到了学者们研究的视线，它有别于传统的搜索引擎，能够理解用户以口语化表达的问题，并从后台知识库中直接返回正确答案。自动问答系统主要分为问题分类、问题理解、答案的抽取和消岐等步骤，其中问题分类占据着关键步骤中的首要位置，它可以为问题理解、答案的选取等后续步骤提供语义限制和约束。
　　从信息论角度来说，数据所包含的信息是可以被量化的，如果信息的增多使得该事件不确定性减少，则增加的信息是与该事件相关的;反之，信息的增多没有使得该事件的不确定性减少，则增加的信息与该事件是不相关的。问题分类一般都是借助文本分类的思想，但与一个文本相比，一个问句（短文本）所包含的信息相对较少，需要对问句中仅有的信息进行分析从而确定其类别，因此，对于问题分类来说，存在着诸多挑战，主要有:用于问题所构建的特征向量空间模型维数过大，且特征向量相关性较小;问题相对短小，形成的特征向量空间也过于稀疏。
　　为了克服上述两个难题，本文着眼于词语的语义，构造了具有语义支持能力的知识库，并将深度学习运用到向量的特征学习中，实现了一种基于语义信息的特征学习和基于语义信息的问题分类方法。具体研究如下:
　　(1)利用百度百科信息和互信息理论计算词语语义相关度。该方法将百度百科词条与其词条标签作为图中节点，根据它们之间存在的链接关系对其进行词条聚合，然后利用互信息计算百科词条语义相关度，再选择相关度值较大的作为与其相关的词条。
　　(2)分析了常用的文本特征选择方法，并实现了获取特定文本语料中语义类别知识库的方法，然后利用构建好的语义相关度知识库对问句中的词语进行语义扩展;以及利用语义类别知识库对问句中的词语进行语义泛化，为后续的分类做好准备。
　　(3)利用深度学习对短问句进行特征学习。由于以词语作为特征维数高，因此首先需要对其进行语义扩展初步减少特征向量空间的维度，再进行语义泛化再次降低维度，使得词语的维度小于5000，接着利用深度学习对其特征进行学习和分类。
　　(4)实现了基于语义信息的问题分类方法，分别对不同特征选择方法、语义扩展、语义泛化的结果利用不同的分类算法进行实验对比。最终找到适合本实验数据的分类方法与流程。
　　为了验证本文方法的有效性，以数据堂手机语音助手实网数据作为实验数据集。实验表明，本文构建的语义知识库能提供语义支持，且基于语义信息的问题分类方法解决了特征向量空间维数高、相关性小、数据稀疏等问题，本文的特征学习方法和利用so ftmax函数进行分类的方法也是可行的，能得到好的效果。

著录项

作者
吴安峻;
展开▼
作者单位

西南交通大学;

展开▼
授予单位西南交通大学;
学科软件工程
授予学位硕士
导师姓名杨产;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类人工神经网络与计算;
关键词
短问题分类; 自动问答系统; 深度学习; 语义知识库; 特征选择;

相似文献

中文文献
外文文献
专利

1. 面向深度自动问答的糖尿病饮食问题分类 [J] . 张芳芳 ,马敬东 ,王小贤 . 医学信息学杂志 . 2017,第003期
2. 面向开放域问答的问题分类技术研究进展 [J] . 杨思春 ,戴新宇 ,陈家骏 . 电子学报 . 2015,第008期
3. 面向知识自动化的自动问答研究进展 [J] . 曾帅 ,王帅 ,袁勇 . 自动化学报 . 2017,第009期
4. 面向客服的自动问答系统的相似度计算研究 [J] . 吴佐平 ,刘迪 ,张千福 . 信息技术 . 2020,第003期
5. 面向游戏客服场景的自动问答系统研究与实现 [J] . 王丽月 ,叶东毅 . 计算机工程与应用 . 2016,第017期
6. 藏文问答系统中问题分类方法研究 [C] . Rou Te ,柔特 . 第四届全国少数民族青年自然语言信息处理学术研讨会 . 2012
7. 面向问答系统的问题分类与答案抽取研究 [A] . 张傲 . 2013

面向自动问答的短问题分类研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅