结合关联置信度与结巴分词的新词发现算法

曹帅

首页> 中文期刊> 《计算机系统应用》 >结合关联置信度与结巴分词的新词发现算法

结合关联置信度与结巴分词的新词发现算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

cqvip:在中文自然语言处理领域中,分词是非常重要的步骤之一,它是关键词抽取、文本自动摘要、文本聚类的基础,分词结果的好坏直接影响进一步文本处理的准确性.近年来随着微博平台、直播平台、朋友圈等自由舆情平台的兴起,大量不规范使用的舆情文本尤其是不断出现的新词给分词结果的准确性带来了巨大的挑战,新词发现成为分词算法必须解决的问题.为解决在新词发现过程中,新词整体数据体量小、新词用法灵活以及过度合并词语易形成短语块等问题,本文提出了结合关联置信度与结巴分词的新词发现算法,该算法以结巴分词的初步分词结果为基础,通过计算词语与其左右邻接词集中各个词语之间的关联置信度,将被错误拆分的词语合并成候选新词,并通过切分连接词以防止多个词语被连接成短语的情况出现.以微博言论数据进行测试的实验表明,相比于其它基于置信度的分词方法结果,本文提出的算法可以大幅度提升发现新词尤其是命名实体、网络用语的准确率,在确保新词语义完整的前提下降低新词长度,并且在少量测试语料的情境下,本文提出的算法对低频新词依然具有识别能力.

著录项

来源
《计算机系统应用》 |2020年第5期|144-151|共8页
作者
曹帅;
展开▼
作者单位

中国石油大学(华东)计算机科学与技术学院青岛 266580;

展开▼
原文格式 PDF
正文语种 chi
中图分类
关键词
自然语言处理; 分词; 置信度; 新词发现; 命名实体;

相似文献

中文文献
外文文献
专利

1. 基于支持度和置信度智能优化的关联分类算法 [J] . 王秀枝 ,安建成 . 计算机应用与软件 . 2013,第011期
2. 基于支持度与置信度阈值优化技术的关联分类算法 [J] . 张健 ,王蔚 . 计算机应用 . 2007,第012期
3. 基于词内部结合度和边界自由度的新词发现 [J] . 李文坤 ,张仰森 ,陈若愚 . 计算机应用研究 . 2015,第008期
4. 结合置信连接度的自适应模糊连接度的MRI 图像中丘脑分割算法研究 [J] . 王倩 ,杨春兰 ,吴水才 . 北京生物医学工程 . 2015,第003期
5. 结合信息量和深度学习的领域新词发现 [J] . 黄文明 ,杨柳青青 ,任冲 . 计算机工程与设计 . 2019,第007期
6. 褒贬新词的自动发现算法研究 [C] . 昝红英 ,李鸥 ,赵科 . 河南省计算机学会2007年学术年会 . 2007
7. 基于互信息的中文新词发现算法研究及系统实现 [A] . 尚高慧 . 2019

结合关联置信度与结巴分词的新词发现算法

摘要

著录项

相似文献

相关主题

期刊订阅