首页> 中文学位 >中文短文本分类中关联强度语言模型的研究
【6h】

中文短文本分类中关联强度语言模型的研究

代理获取

摘要

信息技术的急速发展在不断地改变人们生活方式的同时,也使得信息传播的形式在不断地丰富和翻新。短文本(通常文本长度小于160字符)作为手机简讯、在线即时聊天、论坛用户评论等信息的主要表现形式,已经成为网络中大众信息传播的重要渠道。短文本分类技术,基于内容分析的将短文本分派到预先定义的类别中,在信息安全和商战信息获取等领域具有广泛重要应用前景。
   短文本分类实际上是一项非常具有挑战性的任务,因为它具有长度短、所描述概念信号弱和高的类间模糊度等固有缺陷。这导致常用文本分类方法都不太适用于短文本分类。解决短文本分类困难的一条有效途径为挖掘短文本中本身存在的内涵关联,进而提取其中辨识度高的信息。鉴于此,本文提出了一种关联强度语言模型加深考虑了词之间的关联性和有序性以便能够提炼出更多的内涵,从而弥补短文本先天信息量不足的缺陷。该模型其重要贡献和核心在于:
   (1)针对传统方法的不足,提出了一种新的能够有效地描述词对之间关联性的标尺--累积连接分布函数。
   (2)保留了原始语言模型中更适合中文短文本分类的两大特性--关联性和有序性的同时,将通过累积连接分布函数挖掘出来的隐含内联关系融入语言模型中,改变语言模型的链式结构,形成一种新的辨别能力较强的短文本分类模型。
   (3)在要处理大规模短文本的情形下,通过特征选择的方式有效地控制原始模型的词表大小从而降低了模型的复杂度。
   该模型基于语言模型理论架构,从挖掘词对之间的关联性入手,运用挖掘出来的隐含内联关系降低了投递中文短文本到预先定义类别的困惑度。与此同时,有效地通过关联强度标尺修缮原始模型中存在的链式结构问题使得模型更加适合中文短文本分类任务。此外,模型的复杂度也可以得到一定的控制。
   经过本文后面部分的与传统方法的实验结果对比,该模型用于中文短文本分类取得了一定的提高效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号