首页> 中文学位 >面向自动问答的短问题分类研究
【6h】

面向自动问答的短问题分类研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景

1.2 研究现状

1.3 研究内容

1.4 研究方案

1.5 论文章节安排

第2章 基于互信息的网络百科词条相关度计算

2.1 词条相关度计算方法概述

2.2 相关工作

2.2.1 通过语义知识库的词条相关度计算方法

2.2.2 基于大规模语料库的统计信息计算词条相关度的方法

2.2.3 基于网络百科的词条相关度计算方法

2.3 算法介绍

2.3.1 百度百科网页结构

2.3.2 算法流程

2.3.3 互信息(MI)算法的理论基础

2.3.4 互信息算法的实现

2.4 实验结果

2.4.1 实验数据

2.4.2 实验结果

2.5 本章小结

第3章 特征选取与降维

3.1 相关工作

3.2 文本预处理

3.2.1 分词处理

3.2.2 去除停用词

3.3 如何选取特征

3.3.1 bag-of-words特征

3.3.2 N-gram特征

3.3.3 词性特征

3.3.4 词意特征

3.3.5 特征选择算法

3.4 语义扩展和语义泛化

3.4.1 语义扩展

3.4.2 语义泛化

3.5 本章小结

第4章 基于DBN的特征学习

4.1 研究背景

4.2 相关工作

4.3 深度置信网络

4.3 限制玻尔兹曼机RBM

4.4 对比散度(Contrastive Divergence)

4.5 softmax函数回归

4.6 本章小结

第5章 手机语音助手实网数据问题分类

5.1 手机助手语音数据分类的特点

5.2 分类的整体框架

5.3 实验设置

5.3.1 实验数据

5.3.2 评价指标

5.3.3 基本特征的选取

5.3.4 训练数据的选取

5.3.5 语义泛化

5.3.6 分类算法

5.3.7 语义扩展

5.3.8 深度学习

5.4 本章小结

第6章 原型系统的构建

6.1 整体框架

6.2 词条相关度计算模块

6.3 文本预处理

6.4 特征选择

6.5 语义扩展

6.6 语义泛化

6.7 分类算法

6.8 深度学习

结论

致谢

参考文献

攻读硕士学位期间发表的论文及科研成果

展开▼

摘要

随着科技的飞速前进,互联网的不断发展,信息不断的增长,如何从海量信息中快速准确地获取有用信息逐渐演变成一个愈发重要的课题。自动问答系统作为一种特殊的搜索引擎,重新回到了学者们研究的视线,它有别于传统的搜索引擎,能够理解用户以口语化表达的问题,并从后台知识库中直接返回正确答案。自动问答系统主要分为问题分类、问题理解、答案的抽取和消岐等步骤,其中问题分类占据着关键步骤中的首要位置,它可以为问题理解、答案的选取等后续步骤提供语义限制和约束。
  从信息论角度来说,数据所包含的信息是可以被量化的,如果信息的增多使得该事件不确定性减少,则增加的信息是与该事件相关的;反之,信息的增多没有使得该事件的不确定性减少,则增加的信息与该事件是不相关的。问题分类一般都是借助文本分类的思想,但与一个文本相比,一个问句(短文本)所包含的信息相对较少,需要对问句中仅有的信息进行分析从而确定其类别,因此,对于问题分类来说,存在着诸多挑战,主要有:用于问题所构建的特征向量空间模型维数过大,且特征向量相关性较小;问题相对短小,形成的特征向量空间也过于稀疏。
  为了克服上述两个难题,本文着眼于词语的语义,构造了具有语义支持能力的知识库,并将深度学习运用到向量的特征学习中,实现了一种基于语义信息的特征学习和基于语义信息的问题分类方法。具体研究如下:
  (1)利用百度百科信息和互信息理论计算词语语义相关度。该方法将百度百科词条与其词条标签作为图中节点,根据它们之间存在的链接关系对其进行词条聚合,然后利用互信息计算百科词条语义相关度,再选择相关度值较大的作为与其相关的词条。
  (2)分析了常用的文本特征选择方法,并实现了获取特定文本语料中语义类别知识库的方法,然后利用构建好的语义相关度知识库对问句中的词语进行语义扩展;以及利用语义类别知识库对问句中的词语进行语义泛化,为后续的分类做好准备。
  (3)利用深度学习对短问句进行特征学习。由于以词语作为特征维数高,因此首先需要对其进行语义扩展初步减少特征向量空间的维度,再进行语义泛化再次降低维度,使得词语的维度小于5000,接着利用深度学习对其特征进行学习和分类。
  (4)实现了基于语义信息的问题分类方法,分别对不同特征选择方法、语义扩展、语义泛化的结果利用不同的分类算法进行实验对比。最终找到适合本实验数据的分类方法与流程。
  为了验证本文方法的有效性,以数据堂手机语音助手实网数据作为实验数据集。实验表明,本文构建的语义知识库能提供语义支持,且基于语义信息的问题分类方法解决了特征向量空间维数高、相关性小、数据稀疏等问题,本文的特征学习方法和利用so ftmax函数进行分类的方法也是可行的,能得到好的效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号