首页> 中文学位 >面向产品评论的垃圾评论识别方法研究
【6h】

面向产品评论的垃圾评论识别方法研究

代理获取

目录

封面

中文摘要

英文摘要

目录

第 1 章 绪 论

1.1 研究背景和意义

1.2 研究现状及分析

1.3 主要研究内容与论文组织结构

1.4 本章小结

第 2 章 相关知识

2.1 产品评论领域评论的特点

2.2 产品评论领域垃圾评论的定义

2.3 特征抽取方法

2.4 语言模型

2.5 相似度方法介绍

2.6 本章小结

第 3 章 基于信息增益和 Logistic 回归的无用评论识别

3.1 分类特征的构建

3.2 分类模型的构建

3.3 本章小结

第 4 章 基于 2-gram 模型的不真实评论识别

4.1 对数据集进行有效缩减

4.2 2-gram 模型的构建

4.3 计算语言模型之间的距离

4.4 本章小结

第 5 章 实验数据与结果分析

5.1 实验设计

5.2 实验结果及分析

5.3 本章小结

第 6 章 总结与展望

6.1 论文工作总结

6.2 工作展望

参考文献

致谢

攻读学位期间取得的科研成果

展开▼

摘要

近年来,随着因特网的快速发展,人们发表观点以及相互交流的方式也发生了改变。在产品评论领域,人们越来越喜欢在购物网站上发表自己对产品所持有的观点。这些由用户发表的观点中包含着丰富的有用的信息。同时,在这些观点中也充斥着一些无用的、不真实的垃圾信息。这些垃圾信息的存在影响了产品评论挖掘的质量。
  本文面向中文产品评论领域,对垃圾评论识别进行了研究,主要工作如下:
  首先,通过对中文产品评论领域的垃圾评论进行分析,将垃圾评论分成无用评论和不真实评论两大类别,并根据其特点的不同,提出了不同的识别方法。
  针对无用评论的识别,将其看成是二元分类问题。使用产品特征词、对非产品信息评价语句、问句以及超链接4个重要的分类特征,同时又结合信息增益方法自动抽取出一部分特征来共同表示评论文本。最后由这些特征构成的特征值将评论文本向量化,再采用基于Logistic回归的分类方法将评论文本分为正常评论和无用评论两大类来完成对无用评论的识别。
  针对不真实评论的识别,考虑了词与词之间的次序问题,并采用2-gram模型来表示评论文本。在构建语言模型的同时,为了避免出现概率值为零的情况,采用Katz平滑方法对模型进行平滑,最后计算每对语言模型的KL散度,如果其值小于某一给定的阈值,则认为是不真实的评论。
  实验结果表明,本文提出的方法能够有效地识别产品评论中存在的无用评论和不真实评论。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号