中文短文本分类中关联强度语言模型的研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

信息技术的急速发展在不断地改变人们生活方式的同时，也使得信息传播的形式在不断地丰富和翻新。短文本(通常文本长度小于160字符)作为手机简讯、在线即时聊天、论坛用户评论等信息的主要表现形式，已经成为网络中大众信息传播的重要渠道。短文本分类技术，基于内容分析的将短文本分派到预先定义的类别中，在信息安全和商战信息获取等领域具有广泛重要应用前景。
　　短文本分类实际上是一项非常具有挑战性的任务，因为它具有长度短、所描述概念信号弱和高的类间模糊度等固有缺陷。这导致常用文本分类方法都不太适用于短文本分类。解决短文本分类困难的一条有效途径为挖掘短文本中本身存在的内涵关联，进而提取其中辨识度高的信息。鉴于此，本文提出了一种关联强度语言模型加深考虑了词之间的关联性和有序性以便能够提炼出更多的内涵，从而弥补短文本先天信息量不足的缺陷。该模型其重要贡献和核心在于：
　　 (1)针对传统方法的不足，提出了一种新的能够有效地描述词对之间关联性的标尺--累积连接分布函数。
　　 (2)保留了原始语言模型中更适合中文短文本分类的两大特性--关联性和有序性的同时，将通过累积连接分布函数挖掘出来的隐含内联关系融入语言模型中，改变语言模型的链式结构，形成一种新的辨别能力较强的短文本分类模型。
　　 (3)在要处理大规模短文本的情形下，通过特征选择的方式有效地控制原始模型的词表大小从而降低了模型的复杂度。
　　该模型基于语言模型理论架构，从挖掘词对之间的关联性入手，运用挖掘出来的隐含内联关系降低了投递中文短文本到预先定义类别的困惑度。与此同时，有效地通过关联强度标尺修缮原始模型中存在的链式结构问题使得模型更加适合中文短文本分类任务。此外，模型的复杂度也可以得到一定的控制。
　　经过本文后面部分的与传统方法的实验结果对比，该模型用于中文短文本分类取得了一定的提高效果。

著录项

作者
周志伟;
展开▼
作者单位

重庆邮电大学;

展开▼
授予单位重庆邮电大学;
学科计算机应用技术
授予学位硕士
导师姓名樊兴华;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类大众传播;
关键词
大众信息传播; 短文本分类; 关联强度; 语言模型; 累积连接分布函数;

相似文献

中文文献
外文文献
专利

1. 基于语义域语言模型的中文话题关联检测 [J] . 洪宇 ,张宇 ,范基礼 . 软件学报 . 2008,第009期
2. 基于字符的递归神经网络在中文语言模型中的研究与实现 [J] . 伍逸凡 ,朱龙娇 ,石俊萍 . 现代信息科技 . 2018,第008期
3. 基于字符的递归神经网络在中文语言模型中的研究与实现 [J] . 伍逸凡 ,朱龙娇 ,石俊萍 . 现代信息科技 . 2018,第008期
4. 改进组合算法在中文短文本分类中的应用 [J] . 房满林 . 现代工业经济和信息化 . 2017,第003期
5. 中文短文本分类技术研究综述 [J] . 刘硕 ,王庚润 ,李英乐 . 信息工程大学学报 . 2021,第003期
6. 贝叶斯与语言模型相结合的中文文本分类方法的研究 [C] . 闫涛 ,高光来 . 2008年全国模式识别学术会议 . 2008
7. 基于预训练语言模型的中文短文本分类研究 [A] . 夏梓渊 . 2021

中文短文本分类中关联强度语言模型的研究

摘要

著录项

相似文献

相关主题

期刊订阅