基于优化“未定义”类话语检测的话语领域分类

摘要

“未定义”类话语在面向任务的对话语料之中广泛存在,具有成分复杂,与其余“已定义”类话语边界模糊的特点,影响着话语领域分类的总体正确率.而且,“未定义”类话语一旦错分,将使得用户对口语对话系统的功能有效性产生怀疑,大大降低用户体验.本文提出一种基于优化“未定义”类话语检测的领域分类方案,采用了两阶段法完成口语话语的领域分类任务.首先采用聚类方法,将“已定义”类话语聚为几个大类,简化众多的“已定义”类话语独立存在时和“未定义”类话语之间的边界.进而利用分类模型对聚类后的“已定义”类话语大类以及“未定义”类话语进行领域分类,优化目标是“未定义”类话语的检测效率.最后,将第一阶段分类为“已定义”类的话语,在去除了绝大部分“未定义”类话语干扰的基础上进行再次分类.本文的分类模型采用了长短期记忆网络(long short-term memory,LSTM),并利用无标签微博数据训练词向量用于话语特征表达.在SMP2017意图领域分类比赛的多任务语料上的评测结果表明,本文的方案在“未定义”类话语检测的F1值以及所有话语的领域分类总正确率上都有明显提升.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号