首页> 中文学位 >基于语义分析的产品评论挖掘技术研究
【6h】

基于语义分析的产品评论挖掘技术研究

代理获取

目录

文摘

英文文摘

第一章 绪论

1.1 产品评论挖掘技术研究的背景和意义

1.2 亟待解决的两大问题

1.2.1 非结构化评论数据的自动提取与分类

1.2.2 评论中感情色彩的自动判断

1.3 国内外的研究现状

1.4 论文的内容和结构

第二章 评论挖掘系统中的关键技术及框架

2.1 问题重述

2.2 关键技术及框架介绍

2.2.1 评论数据采集和预处理

2.2.2 数据的训练和分类

2.2.3 特征观点对的提取

2.2.4 感情色彩判断

2.3 本章小结

第三章 评论数据收集和特征提取

3.1 引言

3.2 相关方法

3.2.1 聚焦爬虫

3.2.2 中文分词

3.2.3 停用词处理

3.3 数据收集和预处理

3.3.1 网页提取和编码转换

3.3.2 分词和停用词处理

3.4 评论数据的特征提取

3.4.1 特征观点对

3.4.2 特征提取算法的框架

3.4.3 特征词、观点词和程度词的判定

3.4.4 特征词匹配方向的判定

3.4.5 特征词的匹配原则

3.5 实验及结果

3.5.1 评论数据采集的演示实验

3.5.2 分词和停用词处理的演示实验

3.5.3 特征观点对的提取实验

3.6 本章小结

第四章 评论数据的训练和分类

4.1 引言

4.2 相关方法

4.2.1 文本的表示方法

4.2.2 LSA算法

4.2.3 PLSA算法

4.2.4 概率模型下相似性度量方法

4.2.5 聚类效果的评价方法

4.3 语料库数据的训练

4.4 训练数据分类

4.4.1 主题种子词的提取

4.4.2 词语间相似度的计算

4.4.3 主题聚类

4.5 实验及结果

4.5.1 语料库数据的训练实验

4.5.2 训练数据分类实验

4.6 本章小结

第五章 感情色彩的自动提取

5.1 引言

5.2 感情色彩提取

5.2.1 感情色彩倾向度

5.2.2 倾向度的计算

5.2.3 感情色彩提取流程

5.3 感情色彩的提取实验及结果

5.3.1 语料库中部分数据演示实验

5.3.2 全体数据的实验结果

5.4 本章小结

第六章 总结与展望

6.1 总结

6.2 展望

附录 词性标注符号集

参考文献

致谢

展开▼

摘要

近几年来,随着Web2.0技术的迅猛发展,人们已经逐渐习惯了写博客、泡论坛以及留言评论等生活方式。在产品的评论方面,研究数据表明,大部分的网络购物用户倾向于在购物前参阅其他用户的评论,从而为自己的决策提供依据。在当今这个信息爆炸的社会中,如何从海量数据中提取有用的信息变得至关重要。
   产品评论挖掘属于自然语言处理范畴,其主要目的是从海量数据提取出用户感兴趣的主题,将数据分门别类、统一管理,并且从评论中获取其中蕴含的感情色彩。本文基于餐饮业的大量评论,研究了产品评论挖掘系统中的关键技术,主要在以下几个方面做了创新性工作:
   1.)提出了一种从海量评论数据中进行主题提取和数据分类的方法。首先利用概率潜在语义分析算法(PLSA),找出词语与潜在语义之间的联系,并计算出词语之间的相似度。然后在半监督的基础上归纳主题,再通过聚类算法,将主题相关的词语聚集起来,从而实现数据的分类。
   2)提出了一种评论数据中感情色彩的自动提取算法。主观评价语句可以由多个特征观点对表示,该算法假设用户评分与其评论内容基本一致,利用评分和主题聚类结果,让计算机自动学习特征观点对的感情色彩倾向度,并通过对大量评论数据的统计处理建立倾向度数据库。该算法不需要利用任何先验信息,因此相对于其它算法而言,具有简单、准确、高效的优点。
   综上所述,论文提出了基于PLSA的主题提取和数据分类的方法,并研究了依据用户评分从评论中提取感情色彩的算法。论文以餐饮业的评论为应用背景,进行了详细地实验分析。实验结果表明,论文提出的算法正确、合理,而且具有较好的工程应用价值。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号