首页> 中文学位 >基于汽车评论的文本情感分类特征选择方法研究
【6h】

基于汽车评论的文本情感分类特征选择方法研究

代理获取

目录

摘要

第一章 绪论

1.1 文本情感分类的意义

1.2 国内外研究现状

1.3 课题的研究难度

1.4 本文的研究工作

1.5 论文的组织结构

第二章 面向中文文本情感分类的数据资源

2.1 语料收集

2.2 语料分析

2.3 语料预处理

2.4 汽车产品知识库和情感词汇库

2.5 实验平台

2.6 本章小结

第三章 停用词表对中文文本情感分类的影响

3.1 支持向量机

3.2 特征选择方法

3.3 权重计算方法

3.4 停用词的选择

3.5 中文文本情感倾向性分类的步骤

3.6 实验结果与分析

3.6.1 评价指标

3.6.2 中文文本情感倾向性分类实验与分析

3.7 本章小结

第四章 文本情感分类的混合特征选择方法

4.1 混合特征选择方法

4.2 文本情感倾向性分类的步骤

4.3 实验结果与分析

4.3.1 评价指标

4.3.2 混合特征选择方法的实验结果与分析

4.4 本章小结

第五章 基于粗糙集的文本情感分类特征选择方法

5.1 粗糙集理论简介

5.1.1 基本概念

5.1.2 MD-离散化方法

5.2 基于粗糙集理论的特征选择方法

5.2.1 获取候选特征的类别区分能力

5.2.2 建立决策表

5.2.3 特征选择

5.3 文本情感倾向性分类的步骤

5.4 实验结果与分析

5.4.1 评价指标

5.4.2 实验结果与分析

5.5 本章小结

第六章 结论与展望

6.1 结论

6.2 展望

参考文献

附录

发表文章及参加项目

致谢

声明

展开▼

摘要

近年来随着信息技术的迅猛发展,互联网迎来前所未有的新局面。以网络为传播媒介的文本评论信息越来越受到企事业单位和个人的关注。传统的主题分类已经不能满足人们的需求,用户希望得到更多的主观性信息,如:公共事件的社会反映、焦点新闻的追踪报道、产品的用户反馈及民意调查信息等。然而,网上每天都有大量的新评论出现,对于这些评论,仅靠人工进行跟踪和分析显然是行不通的,人们开始关注并研究评论文本的主观性情感倾向分析。
  本文针对文本情感分类中的特征选择问题进行了研究,主要内容包括:⑴建立了以汽车产品评论为主的中文文本情感分类语料库,并在此基础上建立了汽车产品知识库。⑵研究了停用词对文本情感倾向性分类的影响。选用信息增益、互信息和x2统计三种特征选择方法,布尔权重和频率权重两种权重计算方法,并选用支持向量机作为分类器进行了实验研究。实验结果表明,当选用不同的停用词表时,它们对文本情感分类的影响不尽相同,停用词表对情感分类作用较大,整体性能效果较好。⑶提出了基于类别区分能力的混合特征选择方法,并测试了其对文本情感分类的作用。该方法是基于词汇的类别区分能力与信息增益相结合的特征方法,讨论了在不同的特征选择方法和不同维数特征空间下对文本情感分类结果的影响。实验结果表明使用混合的特征选择方法要优于使用单一的信息增益方法。⑷从特征选择和维数压缩的角度,提出了基于粗糙集理论的特征选择方法。通过对情感分类问题的分析并结合粗糙集理论,将属性离散化方法用于文本情感分类中的特征选择、维数压缩,利用支持向量机作为分类器进行分类实验。实验结果表明,该方法具有良好的特征可解释性和较好的特征维数压缩效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号