首页> 中文学位 >面向中文问答系统问题分析与答案抽取方法研究
【6h】

面向中文问答系统问题分析与答案抽取方法研究

代理获取

目录

第一个书签之前

摘 要

Abstract

1.1 研究背景及意义

1.2 本文主要研究工作

1.3 论文组织结构

第2章 相关工作综述

2.1 前言

2.2 主题模型研究综述

2.3 答案抽取研究综述

2.4 本章小结

3.1 前言

3.2 CTM主题模型

3.3 Extended LDA主题模型

3.4 IBTM主题模型

3.5 主题选择

3.6 本章小结

4.1 前言

4.2 基于词性特征组合的主题焦点词扩展算法

4.3 基于同义词词库的主题焦点词扩展算法

4.4 本章小结

5.1 前言

5.2 语料说明及实验环境

5.3 实验评估方法和基准模型

5.4 实验结果与分析

5.5 本章小结

6.1 前言

6.2 基于Bi-LSTM的答案抽取模型

6.3 Bi-LSTM神经网络层

6.4 CNN神经网络层

6.5 注意力机制

6.6 实验

6.7 本章小结

攻读硕士学位期间所发表的论文

展开▼

摘要

随着互联网的飞速发展以及自然语言处理技术的兴起,问答系统进入了面向开放领域、基于自由文本数据的发展阶段。如何从海量信息中获取有用信息是学术界和工业界关注的一个热点。与传统的搜索引擎相比,问答系统允许用户以自然语言提问,并能更好地满足用户对快速、高效、准确获取信息的需求。本文从问题分析和答案抽取两方面对问答系统进行进一步分析。 在问题分析方面,本文从长文本和短文本以及数据的序列性三个角度提出了基于在线隐式狄利克雷分布(Extended Latent Dirichlet Allocation,Extended LDA)和增量短文本主题模型(Incremental Biterm Topic Model,IBTM)的动态主题模型—CTM主题模型。该模型不仅可以捕获用户问题文本中的语义信息,还可以捕获滑动窗口中的词对信息,并能对实时数据进行分类和用户意图分析。由于中文分词工具产生的误差和中文语法的灵活性,传统的从中文文本中提取关键词的方法并不能完整捕获用户所提问题中的主题焦点。本文从基于词性特征组合和同义词词库两个方面对前面提出的动态模型进行改进。实验证明本文所提出的两个改进方法有助于挖掘用户问题中的主题焦点。 在答案抽取方面,现阶段本文所研究的答案抽取与答案选择和答案排序问题是类似的,为了保持上下文一致性,本文仍以答案抽取来表示答案选择和答案排序。针对目前基于神经网络的答案抽取模型没有充分考虑问题和答案之间的关系等问题,本文提出了基于双向长短时记忆神经网络(Bi-directional Long Short Term Memory Network,Bi-LSTM)的答案抽取模型。该模型直接用Bi-LSTM对问题的表示向量学习,通过利用卷积神经网络(Convolutional Neural Network,CNN)进一步提取问题特征,然后利用注意力机制对答案的表示向量与问题最终表示向量的相关性进行加权。该模型有效地提取了问题与答案之间的关系。经实验验证本文所提出的基于Bi-LSTM的答案抽取模型在基于搜索引擎中的问答数据集上取得了良好的实验效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号