首页> 中文学位 >数据挖掘方法在评论分类中的应用研究
【6h】

数据挖掘方法在评论分类中的应用研究

代理获取

目录

摘要

第一章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 论文结构

第二章 评论分类相关技术背景介绍

2.1 文本分类相关概念介绍

2.2 评论分类的研究方向介绍

2.2.1 情感分类

2.2.2 价值分类

2.3 基于机器学习的评论分类

2.4 最大熵模型

2.5 语义倾向方法在评论分类中的应用

第三章 基于语义倾向的评论情感分类

3.1 评论的情感分类流程介绍

3.2 基于PMI-IR的语义倾向

3.3 评论文本爬取

3.3.1 爬虫系统流程介绍

3.3.2 抓取模块设计

3.3.3 基于DOM的文本抽取模块设计

3.4 实验流程与结果分析

3.4.1 评论文本的语义倾向分类

3.4.2 文本分类指标

3.4.3 实验流程与结果分析

第四章 基于机器学习的评论价值分类

4.1 预处理

4.2 基于二值特征最大熵文本分类

4.3 评论文本的价值分类方法

4.3.1 建立特征资源库

4.3.2 基于句法分析的评论对象识别

4.3.3 二值特征函数的构建

4.4 实验结果与分析

第五章 总结与展望

总结

展望

参考文献

攻读学位期间发表的论文

声明

致谢

展开▼

摘要

随着互联网的快速发展和普及,网络已经成为人们生活不可或缺的一部分。人们通过互联网看书、视频、学习、讨论、购物时常常会在相关页面上留下关于该页面主题的评论。特别地,消费者在电商网站上进行网购之后都会留下关于购买产品的评论信息。目前,随着网络上的评论信息剧增,评论数据的有效利用问题已经越来越收到人们的关注。面对大量的评论数据,如何从中挖掘到有用的信息对网站用户、服务商、生产商都有着重要的意义。然而页面上的评论信息属于非结构化数据,也就是代表评论数据本身并没有一个预定义的数据模型。由于评论数据的不规则性和不明确性,使得其相对于按字段存储在数据库的数据难以用传统的程序进行分析、统计或归纳。如何从海量的评论数据中提取有用的信息以方便用户、服务商和生产商有效、快捷地利用是本文主要探讨的问题。
  本文的主要任务包括对评论数据进行的情感分类和进行基于价值分类。对于评论的情感分类,文本提出一种基于情感词抽取和点互信息的非监督学习方法。其中,对句子进行分词、词性识别并从中抽取情感词,减少了分类时噪声的引入。通过计算情感词和范例词的PMI值得出一个评论文档的情感倾向。对于用户而言,评论数据情感倾向并不能满足评论阅读者的需求,因此提出一种基于引入指向特征的最大熵模型方法对评论数据进行价值分类。该方法认为评论数据中有价值的信息除了与文本长度、是否存在描述性词语等特征相关还与评论文本是否指向主题相关。提出一种基于IP树的文本指向识别方法,对识别结果作为特征引入到模型训练中,实验证明该方法构造的分类器具有较好的分类效果。

著录项

  • 作者

    李杰骏;

  • 作者单位

    广东工业大学;

  • 授予单位 广东工业大学;
  • 学科 计算机技术
  • 授予学位 硕士
  • 导师姓名 左亚尧,纪友庆;
  • 年度 2016
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.131;
  • 关键词

    评论信息; 数据挖掘; 情感分类; 价值分类;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号