首页> 中文学位 >基于用户评论信息的商品评估系统的研究
【6h】

基于用户评论信息的商品评估系统的研究

代理获取

目录

声明

致谢

摘要

1.1研究背景和意义

1.2研究现状

1.3研究内容

1.4文章组织结构

2相关技术

2.1文本预处理

2.1.1 中文分词

2.1.2词性标注

2.1.3停用词去除

2.1.4常用工具

2.2情感分析

2.2.1情感分析方法

2.2.2通用情感词典

2.2.3情感词典扩建

2.3商品特征提取

2.3.1特征提取方法

2.3.2通用领域词模型

2.3.3 Word2vec简介

2.4本章小结

3系统总体设计和实现

3.1量化评分系统

3.1.1系统的提出

3.1.2面临的挑战

3.2系统实现方法

3.2.1基本思想

3.2.2系统结构

3.3数据采集和预处理

3.3.1 数据收集平台及数据集

3.3.2数据清洗集文本分割

3.3.3结巴分词改进

3.3.4停用词处理

3.4商品特征空间

3.4.1 设计思想

3.4.2具体实现

3.5专用情感词典

3.5.1基础情感词典整理

3.5.2情感词扩充

3.5.3程度词和否定词

3.6量化评分过程

3.7编程实现及工作量总结

3.8本章小结

4系统评估

4.1 实验环境

4.1.1软硬件环境

4.1.2评估步骤

4.2实验结果分析

4.2.1 系统量化评分结果

4.2.2天猫平台上的商家总体评分

4.2.3 对比结果

4.3 本章小节

5.1 工作总结

5.2未来工作展望

参考文献

作者简历及攻读硕士学位期间取得的研究成果

学位论文数据集

展开▼

摘要

线上购物已成为了一种主流的购物方式,然而,消费者在线上购物时却面临着商品种类过于众多、商家质量良莠不齐等因素导致的购买抉择问题。电商平台上的用户评论信息中包含用户对所购商品的主观感受,因此能够为其他用户的购买抉择提供参考。但是,随着评论数量的增多,用户从中获取有用信息的时间成本和难度也越来越大。
  为此,本文希望采集用户评论信息,设计并实现了一个分析系统,通过情感分析的方法量化评论信息中的用户主观感受,进而对商品/商家进行定量评估。
  情感分析方法主要有基于机器学习和基于情感词典两类。前者主要针对文本的情感类别进行褒贬二分类或多分类,其中二分类由于分类粒度较粗所以不能满足定量评估的需求,多分类则由于需要质量较高的人工标注训练集所以成本较大;后者通过计算评论信息的情感强度值,可以实现更细粒度的量化。但是由于缺乏完备的中文情感词典,因而很难对中文评论文本进行充分挖掘。基于这些方法,现有研究在对商品进行总体评估外,还从多维度量化商品不同侧面的特征进行了研究,在对商品进行多维度地分析中面临的问题是商品维度特征空间的构建。
  在以上背景下,本文采集了天猫平台上的商品评论数据,通过专用的中文领域情感词典和商品特征空间的构建,设计了基于情感词典的多特征维度商品量化系统,从而实现了评论信息的充分利用以及对商品/商家的多维度及整体评估。在现有研究工作的基础上,本文有以下三个方面的提升:
  (1)本文总结了一个分词词典,词典中收录了结巴分词处理评论数据时不能正确识别的词语,提升了分词的准确性。
  (2)本文通过商品特征空间的建立实现了对商品的多维度评估。特征空间的建立是基于通用领域词模型,利用词频统计和相似特征聚类的方法实现的。
  (3)本文在构建了一个专用领域情感词典,实现了对评论数据中情感词的充分提取。专用领域情感词典的构建是在通用领域词典的基础上,增添领域情感词及其情感强度值,其中情感强度值是通过计算词语相似度得到的。
  最后,基于以上工作,本文设计了一个量化评估系统,通过计算每个特征维度上的情感强度值,通过对维度情感强度值的加权平均得出商品总体评价得分。实验结果表明,本系统对商家的量化评分结果与天猫平台给出的商家综合评分总体相符,并且本系统的评估维度更多,评分结果更为精细。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号