基于伪标注样本融合的领域分词方法

胡潇涛; 吴浩; 杨亮; 顾小平; 宋弘

首页> 中文期刊> 《四川轻化工大学学报:自然科学版》 >基于伪标注样本融合的领域分词方法

基于伪标注样本融合的领域分词方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

团队文献服务 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

目前常用的神经网络分词模型,均需要大量的标注语料才可得到较好的泛化效果,但在面对领域标注语料稀缺的场景时,不能很好的适应。为解决这一问题,该文提出了一种基于伪标注样本融合的领域分词方法。该方法从领域专业辞典、电商及百科网站等数据源收集相关词汇组成领域词典,并从中随机抽取词汇生成伪标注样本。将伪标注样本与通用语料融合为训练样本,即将领域词典信息融合至模型训练当中。网络模型方面,该方法选用双向门限循环神经网络(Bidirectional Gate Recurrent Unit,BiGRU)作为主网络层,联合一维卷积(One-dimensional convolutional neural network,Conv1D)获取更多局部上下文信息,最终由条件随机场(Conditional random field,CRF)解码输出。通过实验证明,该文的方法可以有效提高模型的领域分词性能,与未使用伪样本的模型相比可提升F1值约6.67%。

著录项

来源
《四川轻化工大学学报:自然科学版》 |2021年第1期|P.48-55|共8页
作者
胡潇涛; 吴浩; 杨亮; 顾小平; 宋弘;
展开▼
作者单位

四川轻化工大学自动化与信息工程学院四川宜宾644000;

四川轻化工大学自动化与信息工程学院四川宜宾644000人工智能四川省重点实验室四川宜宾644000;

四川轻化工大学自动化与信息工程学院四川宜宾644000;

四川轻化工大学自动化与信息工程学院四川宜宾644000;

四川轻化工大学自动化与信息工程学院四川宜宾644000人工智能四川省重点实验室四川宜宾644000;

展开▼
原文格式 PDF
正文语种 chi
中图分类文字信息处理 ;
关键词
领域词典; 伪标注; 样本融合; 领域分词;

相似文献

中文文献
外文文献
专利

1. 基于伪标注样本融合的领域分词方法 [J] . 胡潇涛 ,吴浩 ,杨亮 . 四川轻化工大学学报（自然科学版） . 2021 ,第001期
2. 基于词性标注与分词消歧的中文分词方法 [J] . 熊健 ,翟紫姹 . 广州大学学报：自然科学版 . 2019 ,第5期
3. 基于弱标注数据的汉语分词领域移植 [J] . 朱运 ,李正华 ,黄德朋 . 中文信息学报 . 2019 ,第009期
4. 基于改进分词标注集的中文微博命名实体识别方法 [J] . WANG Chao ,WANG Zheng . 计算机与数字工程 . 2019 ,第001期
5. 基于BI_LSTM_CRF神经网络的序列标注中文分词方法 [J] . 姚茂建 ,李晗静 ,吕会华 . 现代电子技术 . 2019 ,第001期
6. 基于序列标注的中文分词、词性标注模型比较分析 [C] . 刘一佳 ,车万翔 ,刘挺 . 第六届全国青年计算语言学会议 . 2012
7. 基于样本迁移学习的中文分词领域自适应方法的研究 [A] . 张艳娜 . 2019

基于伪标注样本融合的领域分词方法

摘要

著录项

相似文献

相关主题

期刊订阅