首页> 中文学位 >基于fastText的问答系统用户意图识别与关键词抽取研究
【6h】

基于fastText的问答系统用户意图识别与关键词抽取研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景

1.2 研究问题

1.3 研究内容

1.4 主要贡献

1.5 论文结构及框架

2.1 向量化

2.1.1 词向量化

2.1.1 文档向量化

2.2 文本分类

2.2.1 支持向量机

2.2.2 CNN卷积神经网络

2.3 问答系统问句关键词抽取

2.4 本章小结

第三章 基于fastText的问答系统用户意图识别

3.1 基于fastText的中文文本分类

3.1.1 fastText的基本原理

3.1.2 实验过程

3.1.3 实验结果分析

3.1.4 参数优化规则

3.2 基于fastText的问句分类

3.2.1 实验数据

3.2.2 数据预处理

3.2.3.实验方案

3.2.4.实验结果

3.3 基于卷积神经网络的问句分类方案

3.3.1 基于卷积神经网络的分类结果

3.3.2 两种方法的对比

3.4 本章小结

第四章 基于用户查询意图的问句关键词抽取

4.1 研究理论与基础

4.1.1 TF-IDF关键词提取法

4.1.2 基于TextRank关键词提取方法

4.1.3 信息熵

4.2 基于TextRank算法用户问句关键词抽取方法改进研究

4.2.1 改进TextRank算法抽取关键词

4.2.2 结合改进后的TextRank算法与TF-IDF抽取关键词

4.3 实验数据

4.3.1 数据来源及处理

4.3.2 标注规则

4.3.3 数据去噪音

4.3.4 评价指标

4.4 实验结果及分析

4.5 本章小结

5.1 研究总结

5.2 研究展望

参考文献

致谢

攻读学位期间发表论文情况

展开▼

摘要

本文针对目前文本分类处理过程复杂且耗时过长的问题,将Facebook开源的句子分类和单词特征学习模型fastText引入到中文文本分类领域中,并验证其在中文分类中的效果。实验结果显示,相对于目前主流的文本分类方法,基于fastText模型的分类方法在保证分类效果的同时,大大缩短了分类时间。问答系统是一个对应答时间要求极高的系统,缩短用户等待时间能有效改善用户体验。在上述实验基础上,本文将fastText运用到问答系统用户意图识别中,实验结果显示fastText分类结果的准确率、召回率、F1值都明显高于卷积神经网络方法,实验用时为卷积神经网络用时的1.15%。同时本文进一步探究了保证分类精度不丢失的情况下,构建等价简单分类器的最小维度值,以及提升分类准确率的参数优化规则,构建了一个模型简单,参数最优的fastText中文文本分类模型。  本文根据闲聊类问句的关键词不明显、范围宽泛、口语化和内容较短等语言特点,通过对闲聊类问句进行关键词抽取来优化闲聊类答案的检索。使用信息熵计算公式计算出初始候选关键词集中每个词的平均信息熵H(t),将平均信息熵的倒数作为每个顶点的初始权重对TextRank算法进行改进来抽取问句关键词,迭代计算得出每个候选关键词的权重,按照词语权重进行排序,选取排名靠前的关键词作为该方法的抽取结果。实验结果显示改进后的TextRank算法关键词抽取效果较改进前更好。  为了进一步提高问句关键词抽取的准确率和召回率,本文将集合的思想引入到实验中,根据每种方法不同的优缺点,本文对TF-IDF方法和TextRank算法结果进行并集来扩充抽取结果中正确的关键词的数量。为了进一步提升准确率,本文将并集后的结果与改进的TextRank算法的结果取交集来过滤掉两种方法中不正确的关键词,结果表明准确率和F1值都有明显提高。本文设定交集结果关键词数量的阈值N,并在多次实验中得出使抽取效果最好的阈值N的大小。  综上所述,本文将使用了线性分类思想的单词特征学习模型fastText应用到问答系统用户意图识别领域,通过实验验证,在保证分类准确率不丢失的情况下该模型分类速度极快,较目前分类领域主流分类方法能明显缩短分类用时。本文通过对算法改进,有效提升了问句关键词抽取效果,通过多方法融合和引入集合思想,最终实验结果显示本文提出的关键词抽取方案的抽取结果相对稳定,模型整体性能较高,验证了所提方案的可行性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号