首页> 中文学位 >基于文本情感分类的商品评论主题挖掘
【6h】

基于文本情感分类的商品评论主题挖掘

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景与意义

1.2 研究现状

1.2.1 文本情感分类研究现状

1.2.2 主题挖掘研究现状

1.3 研究内容与组织结构

1.4 本章小结

第2章 相关技术与理论

2.1 数据爬取

2.2 文本预处理

2.2.1 中文分词

2.2.2 词性标注

2.2.3 停用词过滤

2.3 文本情感分类的相关研究

2.3.1 文本的表示

2.3.2 特征选择

2.3.3 特征权重

2.3.4 文本情感分类的方法

2.4 主题挖掘

2.4.1 主题模型

2.4.2 贝叶斯分析方法

2.4.3 多项式分布

2.4.4 狄利克雷分布

2.5 本章小结

第3章 模型建立

3.1 基于语义词典的情感分类

3.1.1 搭配词组的构建

3.1.2 情感词典的构建

3.1.3 倾向性计算

3.1.4 情感分类

3.2 基于LDA的商品评论主题挖掘

3.2.1 LDA模型的生成

3.2.2 最优主题数

3.2.3 LDA参数估计

3.3 本章小结

第4章 实例验证

4.1 实验过程

4.1.1 数据获取

4.1.2 文本预处理

4.1.3 文本情感分类

4.1.4 主题提取

4.2 模型评价

4.2.1 整体评价

4.2.2 困惑度评价

4.2.3 F值

4.3 本章小结

第5章 总结与展望

5.1 全文总结

5.2 研究展望

参考文献

致谢

展开▼

摘要

随着电子商务的飞速发展,越来越多的商品评论信息出现在消费者眼前,这些评价往往反映了消费者对于产品质量、价格、外形、性能等各方面的客观描述和主观感受,成为用户了解商品信息的重要来源。但商品评论数量众多,用户不可能逐条阅读,如何大量的评论信息中快速提取主题已成为亟待解决的问题。  本文以评论文本主题提取作为主要任务,为了解决传统主题提取结果中正负面情感词混杂,用户难以把握情感倾向的问题,本文提出了基于文本情感分类的主题挖掘模型即CL-LDA(Classify-Latent DirichletAllocation)模型。该模型先依据情感倾向性对文本进行褒贬分类,再对分类后的文本提取主题。具体的研究内容主要包含以下两个方面:  第一、本文采用基于语义词典的方法对文本进行情感分类,将文本分成正面文本集和负面文本集。首先构建由评价对象和评价词语组成的搭配词组;再者建立由知网HowNet情感词典和文本中词频较高的情感词构成的正负面情感词典,并对情感词标记,正面情感词语标记为1,负面词语标记为-1;最后将搭配词组中的情感词与情感词典中的情感词一一匹配并根据情感词典标记,根据标记对文本进行分类。  第二、基于潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)的主题提取,利用最大似然函数估算出模型最优主题数量,然后利用R语言topicmodels包中的LDA函数,采用Gibbs抽样方法,通过迭代实验,得出各个实验数据的主题及主题下的词汇。最后利用perplexity函数求出结果的困惑度,利用准确率和召回率求出F值。  实验结果表明,该模型简单、全面地展示了评论文本的主要内容并且解决了传统主题提取结果中正负面情感词混杂的现象,而且比LDA模型困惑度明显降低,准确率、召回率和F值都显著提高,具有良好的推广性和准确性,证明了改进模型在商品评论主题提取方面具有明显的优势。

著录项

  • 作者

    李杰;

  • 作者单位

    大连海事大学;

  • 授予单位 大连海事大学;
  • 学科 工业工程
  • 授予学位 硕士
  • 导师姓名 于卫红,汲业;
  • 年度 2017
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类
  • 关键词

    电子商务,商品评论,主题挖掘,情感分类;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号