社区问答服务中的问题分类方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

社区问答服务能够为用户提出的自然语言问题提供一个简明、准确的答案。随着网络中用户交互信息的迅猛发展，问答社区越来越受到人们的关注。问题分类是社区问答中的一个基本任务，该任务不仅可以有效地减小答案的候选空间，也会影响答案的抽取策略。例如，根据问题的不同类别，问答系统采用不同的答案选择策略和知识库。
　　问题分类可以看作一种特殊的文本分类任务。然而，问题分类与一般的文本分类任务存在明显的差别。首先，问题文本通常比较短，问题中包含的词汇数目非常有限。仅利用问题文本进行分类，会存在信息量非常缺乏的问题。其次，传统的词袋模型并不能捕捉文本中词的语义关系，因而会丢失大量有用信息；此外，已标注的问题资源比较匮乏，语料标注需要消耗大量的人力和物力。因此，如何加入更多的辅助特征扩充问题信息并充分利用未标注样本信息提升分类性能，是问题分类任务迫切需要解决的重要问题。本文主要针对社区问答服务中的问题分类方法展开深入研究，主要研究内容包括以下三个方面：
　　一、本文提出了一种基于标签传播的半监督问题分类方法。其核心思想是：首先，将答案特征结合问题特征一起实现样本表示；然后，利用标签传播方法对已标注问题训练分类器，自动标注未标注问题的类别；最后，将初始标注的问题和自动标注的问题合并作为训练样本，利用最大熵模型对问题的测试文本进行分类。实验结果表明，基于标签传播的半监督分类方法能够充分利用未标注样本提升性能，明显优于其他的基准方法。
　　二、本文提出了一种基于表示学习的半监督问题分类方法。该方法的特色在于，利用问题及其答案作为共同的上下文环境，学习词的分布式表示，从而充分利用样本中问题和答案隐含的分类信息。具体而言，首先，我们引入神经网络语言模型，利用问题与答案共同学习词向量表示，增加问题词向量的信息量；其次，加入大量未标注的问题与答案样本参与词向量学习，进一步增强问题词向量表示能力；最后，将已标注的问题样本以词向量形式表示作为训练样本，采用卷积神经网络建立问题分类模型。实验结果表明，基于表示学习的半监督问题分类方法能够充分利用词向量表示和大量未标注样本来提升性能，明显优于其他基准半监督分类方法。
　　三、本文提出了一种基于双通道 LSTM模型的双语问题分类方法。其核心思想是：首先，利用翻译语料分别扩充中文和英文语料,有效地减小单语语料标注的工作量；其次，将两种语言语料中的样本都分别用原始问题文本和其翻译文本表示,丰富训练样本的信息量；最后，提出了基于双通道的长短期记忆网络分类方法，充分利用这两组特征，构建问题分类器。实验结果表明，该方法可以获得较好的问题分类效果，优于其他基准方法。

著录项

作者
张栋;
展开▼
作者单位

苏州大学;

展开▼
授予单位苏州大学;
学科计算机科学与技术
授予学位硕士
导师姓名李寿山;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类自动推理、机器学习;
关键词
社区问答服务; 标签传播; 问题分类; 表示学习; 半监督学习; 抽取策略;

相似文献

中文文献
外文文献
专利

1. 社区问答服务中的问题分类任务研究 [J] . 王君泽 ,黄本雄 ,胡广 . 计算机工程与科学 . 2011,第001期
2. 面向问答社区的中文问题分类 [J] . 董才正 ,刘柏嵩 . 计算机应用 . 2016,第004期
3. 问答系统中基于语义核函数的问题分类算法 [J] . 江龙泉 ,张波 ,胡志鹏 . 上海师范大学学报（自然科学版） . 2018,第001期
4. 问答社区中回答质量的评价方法研究 [J] . 孔维泽 ,刘奕群 ,张敏 . 中文信息学报 . 2011,第001期
5. 藏文问答系统中问题分类方法研究 [C] . Rou Te ,柔特 . 第四届全国少数民族青年自然语言信息处理学术研讨会 . 2012
6. 网络问答社区的问题分类及专家发现研究 [A] . 曹雨蒙 . 2020

社区问答服务中的问题分类方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅