首页> 中文学位 >汉语主客观文本分类及预处理研究
【6h】

汉语主客观文本分类及预处理研究

代理获取

摘要

随着互联网的普及,网络已经成为人们获取信息的一个非常重要的手段。但是随着信息爆炸似的增长,人们很难在较短的时间内找到自己所需要的信息,这也就是信息过载的问题。文本分类是当前数据挖掘的一个重要研究方向。一些应用方面的工作,如对电子商务的评价,民意调查的结果等等都需要对文本进行挖掘。然而,从海量的信息中人工查找具有意见性的主观性文本是不现实的。 在本文中,我们提出一个方法来针对主客观文本进行分类。通过分析主客观文本之间存在的差别来抽取能够区别它们的一些特征。最终应用朴素贝叶斯和支持向量机模型,用特征项的不同组合对其进行主客观文本分类,力争达到最优效果。 随着即时通信软件(Instant Messaging)的普及(如MSN,QQ等),一种非规范语言就广泛出现于其中。在这些环境中使用的特殊语言被称为为网络非规范语言(Network Informal Language,NIL)表达。例如在网络聊天中常用“8错”取代“不错”,用“稀饭”表示“喜欢”等等。在传统的文本挖掘中,这些信息都被视为噪音。但事实上,包含这些非规范词语的句子经常会存在用户的表达个人意愿的信息。举个例子,“这款车型还是受广大车迷稀饭的!”可以看出,在这个句子里面,“稀饭”表达“喜欢”。通过这句话持有者表达了自己对某一车型的观点和看法。 在本文工作中,文本预处理研究就是对这些主观性的文本进行正规化处理。首先通过编写特定的网络蜘蛛程序收集某论坛上一定时间段内的网页。对网页进行人工筛选,构建非规范语言词典。最终将互联网上常见的非规范词语划分为六个大类。考虑到处理成本的问题,将这六个大类别划分成两个大类:典型非规范语言和歧义非规范语言。对于典型非规范语言,采用基于序列覆盖算法的模式匹配方法对其进行正规化处理。而对于歧义非规范语言,由于这种类别很难从字词层面上判断出是否是非规范词。采用基于特征抽取的分类方法将其识别。最终都达到正规化的目的。得出基本正规的主观性文本。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号