首页> 中文会议>第十六届全国计算语言学学术会议暨第五届基于自然标注大数据的自然语言处理国际学术研讨会 >基于优化“未定义”类话语检测的话语领域分类

基于优化“未定义”类话语检测的话语领域分类

页面导航

摘要
著录项
相似文献
相关主题

摘要

“未定义”类话语在面向任务的对话语料之中广泛存在,具有成分复杂,与其余“已定义”类话语边界模糊的特点,影响着话语领域分类的总体正确率.而且,“未定义”类话语一旦错分,将使得用户对口语对话系统的功能有效性产生怀疑,大大降低用户体验.本文提出一种基于优化“未定义”类话语检测的领域分类方案,采用了两阶段法完成口语话语的领域分类任务.首先采用聚类方法,将“已定义”类话语聚为几个大类,简化众多的“已定义”类话语独立存在时和“未定义”类话语之间的边界.进而利用分类模型对聚类后的“已定义”类话语大类以及“未定义”类话语进行领域分类,优化目标是“未定义”类话语的检测效率.最后,将第一阶段分类为“已定义”类的话语,在去除了绝大部分“未定义”类话语干扰的基础上进行再次分类.本文的分类模型采用了长短期记忆网络(long short-term memory,LSTM),并利用无标签微博数据训练词向量用于话语特征表达.在SMP2017意图领域分类比赛的多任务语料上的评测结果表明,本文的方案在“未定义”类话语检测的F1值以及所有话语的领域分类总正确率上都有明显提升.

著录项

来源
《第十六届全国计算语言学学术会议暨第五届基于自然标注大数据的自然语言处理国际学术研讨会》|2017年|1-12|共12页
会议地点南京
作者
柯子烜; 黄沛杰; 曾真;
展开▼
作者单位

中国中文信息学会;

展开▼
会议组织
正文语种
原文格式 PDF
中图分类文字信息处理;
关键词
话语领域分类; 两阶段法; 词向量; 长短期记忆网络;

相似文献

中文文献
外文文献
专利

1. 基于优化"未定义"类话语检测的话语领域分类 [J] . 柯子烜 ,黄沛杰 ,曾真 . 中文信息学报 . 2018,第004期
2. 商务英语商科类课程课堂话语探究--基于耶鲁大学商科类公开课《博弈论》课堂话语的分析 [J] . 邓静子 ,朱文忠 . 广东外语外贸大学学报 . 2015,第005期
3. 国家意识形态国际话语权的提升——基于国际政治公共领域“有限话语民主”情境的研究 [J] . 杨文华 ,李韫伟 . 重庆邮电大学学报（社会科学版） . 2019,第002期
4. 文本话语、身份建构与“遏制”战略:一项基于批评话语分析分类法视角的研究 [J] . 江治刚 . 外语研究 . 2016,第6期
5. 结合特殊领域实体识别的远监督话语领域分类 [J] . 何宇虹 ,黄沛杰 ,杜泽峰 . 中文信息学报 . 2020,第005期
6. 结合特殊领域实体识别的远监督话语领域分类 [C] . HE Yuhong ,何宇虹 ,HUANG Peijie . 第十八届中国计算语言学大会暨中国中文信息学会2019学术年会 . 2018
7. 公共事件衍生类网络流行语的话语生产分析——基于Fairclough三维话语分析理论 [A] . 段童瑶 . 2017

基于优化“未定义”类话语检测的话语领域分类

摘要

著录项

相似文献

相关主题

期刊订阅