首页> 中文学位 >社区问答系统中答案排序和问题检索算法研究与应用
【6h】

社区问答系统中答案排序和问题检索算法研究与应用

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景和意义

1.2 国内外研究现状

1.2.1 答案排序研究现状

1.2.2 问题检索研究现状

1.3 研究内容

1.4 本文组织结构

第2章 社区问答系统相关概念与关键技术

2.2 社区问答系统简介

2.3 基本模型

2.3.1 隐含狄利克雷分配

2.3.2 Word2vec

2.3.3 谱聚类

2.3.4 支持向量机

2.4 深度学习模型

2.4.1 卷积神经网络

2.4.2 长短时记忆网络

2.4.3 基于注意力机制的神经网络

2.5 数据集与数据预处理

2.6 评价指标

2.7 本章小结

第3章 改进主题模型

3.2 主题个数选择

3.3 传统主题模型存在的问题

3.3.1 存在垃圾主题

3.3.2 存在相似主题

3.4 改进主题模型

3.4.1 垃圾主题过滤

3.4.2 相似主题检测

3.4.3 改进主题模型效果分析

3.5 文本特征分类

3.6 实验设置与步骤

3.7 实验结果与分析

3.7.2 问题检索实验结果与分析

3.8 本章小结

第4章 基于信息增强方法的深度学习模型

4.1 引言

4.2.1 LSTM、BiLSTM建模

4.2.2 LSTM-CNN建模

4.2.3 LSTM-ATTN、BiLSTM-ATTN建模

4.3 信息增强的问题检索任务

4.4 信息增强的答案排序任务

4.5 实验设置与步骤

4.6 实验结果与讨论

4.6.1 数据清洗对CQA系统子任务的影响

4.6.2 基于信息增强的深度神经网络实验结果

4.7 本章小结

第5章 社区问答系统实现流程设计

5.2 社区问答系统面临的问题

5.3 关键技术

5.3.1 大数据处理引擎

5.3.2 文本检索引擎

5.3.3 大数据存储引擎

5.3.4 请求高可用

5.4 实现流程设计

5.4.1 整体流程设计

5.4.2 基于倒排索引的两阶段文本排序

5.4.3 基于NoSQL的文本特征实时更新

5.4.4 基于LRU的热门问题的缓存机制

5.4.5 基于Spark的实时内部答案排序和内容更新

5.5 本章小结

第6章 总结与展望

6.1 总结

6.2 展望

参考文献

致谢

在读期间发表的学术论文与取得的其他研究成果

展开▼

摘要

社区问答(Community Question Answering,CQA)系统是一种较高级别的信息检索系统。与搜索引擎不同,CQA系统中存在大量由社区成员长期维护的问题和答案,信息质量较高;CQA系统返回的信息通常更符合用户的真实需求,而搜引擎通常返回若干相关网页。目前,利用CQA系统知识获取已经成为一个研究热点,但如何高效的从CQA系统中检索信息仍是一个研究难点。本文的研究内容主要围绕CQA系统的答案排序和问题检索任务,工作分为以下三个方面:
  1)提出了改进主题模型。传统的LDA主题模型未考虑到垃圾主题和相似主题的存在,影响主题相似度计算的准确率,第三章提出了垃圾主题过滤算法和主题相似度检测算法用于移除垃圾主题和检测相似主题,以构造语义关系更强的主题向量。在中文语料库上的实验结果验证了改进主题模型能够提升文本分类的准确率,第三章还将改进主题模型应用到CQA系统中,在SemEval问答数据集上的实验结果一方面确定了答案排序和问题检索任务的最优特征组合,另一方面验证了改进主题模型同样能够提升答案分类的准确率。
  2)提出了一种针对CQA系统的信息增强方法。第四章利用原始问题、相似问题和答案三者的关系,构造答案与原始问题的标注数据集,作为额外的训练集融入到原始数据集中,额外数据集是对原始数据集的信息增强,在CQA系统两个子任务上的实验结果验证了信息增强方法的高效性。第四章还探索了五种神经网络对答案排序和问题检索任务的建模方法和应用效果,发现BiLSTM网络和Attention网络整体上具有较高的答案分类准确率和MRR值,实验发现数据清洗对神经网络影响较大,在大多数场景中数据清洗都是必要的,但对某些场景(如小规模数据集,BiLSTM网络等)数据清洗会降低网络的性能。
  3)设计了CQA系统的实现流程图。首先分析了系统存在的问题,然后介绍了设计中涉及的关键技术,最后分模块阐述CQA系统中各个问题的解决方案。各问题与解决方案可以概括为:针对海量知识库的信息抽取计算复杂度较高的问题,提出了一种两阶段文本排序方法;针对内容实时更新和外部请求重合度较高的问题,使用Spark流式计算引擎进行实时内部答案排序和信息更新,并将预先计算的部分文本特征和热门问题缓存,使用LRU算法发现、更新热门问题。该流程设计的目的是将提出的上述方法应用到实际场景中,通过将其与大数据组件结合,综合提高问题和答案分类的准确率,缩短系统响应时间。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号