首页> 中文学位 >社区问答服务中的问题分类方法研究
【6h】

社区问答服务中的问题分类方法研究

代理获取

目录

声明

第1章 绪论

1.1 研究背景

1.2 研究意义

1.3 问题分类研究现状

1.4 研究内容

1.5 组织结构

第2章 相关知识介绍

2.1 文本表示模型

2.2 最大熵分类模型

2.3 支持向量机

2.4 卷积神经网络

2.5 长短期记忆神经网络

2.6 语料资源

2.7 性能评测指标

第3章 基于标签传播的半监督问题分类方法

3.1 引言

3.2 基于标签传播的半监督问题分类方法

3.3 实验设计与分析

3.4 本章小结

第4章 基于表示学习的半监督问题分类方法

4.1 引言

4.2 基于表示学习的半监督问题分类方法

4.3 实验设计与分析

4.4 本章小结

第5章 基于双通道LSTM模型的双语问题分类方法

5.1 引言

5.2 融合双语信息的问题分类方法

5.3 实验设计与分析

5.4 本章小结

第6章 总结与展望

6.1 研究工作总结

6.2 下一步工作设想

参考文献

攻读学位期间发表的论文

攻读学位期间申请的专利

攻读学位期间申请的软件著作权

攻读学位期间参与的科研项目

致谢

展开▼

摘要

社区问答服务能够为用户提出的自然语言问题提供一个简明、准确的答案。随着网络中用户交互信息的迅猛发展,问答社区越来越受到人们的关注。问题分类是社区问答中的一个基本任务,该任务不仅可以有效地减小答案的候选空间,也会影响答案的抽取策略。例如,根据问题的不同类别,问答系统采用不同的答案选择策略和知识库。
  问题分类可以看作一种特殊的文本分类任务。然而,问题分类与一般的文本分类任务存在明显的差别。首先,问题文本通常比较短,问题中包含的词汇数目非常有限。仅利用问题文本进行分类,会存在信息量非常缺乏的问题。其次,传统的词袋模型并不能捕捉文本中词的语义关系,因而会丢失大量有用信息;此外,已标注的问题资源比较匮乏,语料标注需要消耗大量的人力和物力。因此,如何加入更多的辅助特征扩充问题信息并充分利用未标注样本信息提升分类性能,是问题分类任务迫切需要解决的重要问题。本文主要针对社区问答服务中的问题分类方法展开深入研究,主要研究内容包括以下三个方面:
  一、本文提出了一种基于标签传播的半监督问题分类方法。其核心思想是:首先,将答案特征结合问题特征一起实现样本表示;然后,利用标签传播方法对已标注问题训练分类器,自动标注未标注问题的类别;最后,将初始标注的问题和自动标注的问题合并作为训练样本,利用最大熵模型对问题的测试文本进行分类。实验结果表明,基于标签传播的半监督分类方法能够充分利用未标注样本提升性能,明显优于其他的基准方法。
  二、本文提出了一种基于表示学习的半监督问题分类方法。该方法的特色在于,利用问题及其答案作为共同的上下文环境,学习词的分布式表示,从而充分利用样本中问题和答案隐含的分类信息。具体而言,首先,我们引入神经网络语言模型,利用问题与答案共同学习词向量表示,增加问题词向量的信息量;其次,加入大量未标注的问题与答案样本参与词向量学习,进一步增强问题词向量表示能力;最后,将已标注的问题样本以词向量形式表示作为训练样本,采用卷积神经网络建立问题分类模型。实验结果表明,基于表示学习的半监督问题分类方法能够充分利用词向量表示和大量未标注样本来提升性能,明显优于其他基准半监督分类方法。
  三、本文提出了一种基于双通道 LSTM模型的双语问题分类方法。其核心思想是:首先,利用翻译语料分别扩充中文和英文语料,有效地减小单语语料标注的工作量;其次,将两种语言语料中的样本都分别用原始问题文本和其翻译文本表示,丰富训练样本的信息量;最后,提出了基于双通道的长短期记忆网络分类方法,充分利用这两组特征,构建问题分类器。实验结果表明,该方法可以获得较好的问题分类效果,优于其他基准方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号