首页> 中文学位 >中文网络评论中提取产品特征的PMI-Strapping算法研究
【6h】

中文网络评论中提取产品特征的PMI-Strapping算法研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景

1.1.1 大数据时代来临

1.1.2 电子商务的普及

1.2 网络评论挖掘研究的意义

1.2.1 网络口碑营销兴起

1.2.2 网络评论挖掘的迅速发展

1.3 本文的研究内容与创新点

1.4 本文结构与内容的安排

第2章 理论基础与相关研究

2.1 文本挖掘理论基础

2.1.1 文本挖掘概述

2.1.2 文本预处理技术

2.1.3 文本挖掘技术

2.2 网络评论挖掘相关研究

2.2.1 相关概念

2.2.2 特征提取相关研究

2.2.3 情感分析相关研究

2.3 本章小结

第3章 中文网络评论的产品特征提取

3.1 网络评论挖掘概述

3.1.1 网络评论挖掘的任务

3.1.2 网络评论挖掘的难点

3.1.3 网络评论提取产品特征的目的

3.2 特征提取模型概述

3.3 基于语言规则的初步提取

3.3.1 选择语言规则的原则

3.3.2 语言规则

3.4 PMI-Strapping提取算法

3.4.1 PMI算法的不足

3.4.2 PMI-Strapping算法模型

3.5 有关阈值设置的改进

3.5.1 语料切割法

3.5.2 人工监督法

3.6 本章小结

第4章 实验分析

4.1 实验准备

4.1.1 实验设备与实验数据

4.1.2 实验预处理

4.2 实验过程

4.2.1 实验1:PMI-Strapping算法提取结果评估

4.2.2 实验2:两种阈值改进方法对比

4.3 影响实验结果的一些客观因素

4.4 本章小结

第5章 PMI-Strapping算法思想在情感分析中的推广

5.1 PMI-Strapping算法思想总结

5.2 当前情感分析算法存在的不足

5.3 基于PMI-Strapping算法思想的情感分析算法的构建

5.4 本章小结

第6章 总结与展望

6.1 总结

6.2 展望

参考文献

致谢

在读期间发表的学术论文与取得的其他研究成果

展开▼

摘要

信息科技的飞速进步,让人类社会步入了智能化变革的大数据时代。各种信息途径产生的海量数据蕴含了巨大的财富,也成为了我们巨大的负担。近年来,电子商务出现井喷式的发展,移动终端的逐渐普及,用户参与互联网的激情越来越高,这些都成为大数据的重要推动力。商家在享受互联网带来的巨大利益的同时,也需要面对日益激烈的竞争。如何利用大数据寻找深入理解用户的途径,给用户提供更加个性化优质的产品和服务,成为赢得这场激烈竞争的关键。而网络上积累的海量评论文本正蕴含了用户最真实的情感与体验,体现了其深层次的偏好习惯,也更容易以口碑的形式对他人的购买决策产生影响。
  对于网络评论挖掘的研究起步于21世纪初,产品特征提取是其中一个重点,旨在发现用户在评论中关注产品或服务(服务也可以看成产品)的哪些细节。但是现有的研究仍然无法彻底解决机器理解语义困难、噪音大、方法可移植性差等诸多难点。而中文由于语言本身的复杂性更高,中文网络评论提取产品特征的研究面临着更艰巨的挑战。本文在前人的研究成果的基础上加以创新改进,针对中文网络评论的特点,实现产品特征的有效提取,并将算法在情感分析中加以推广。
  本文首先介绍了网络评论挖掘的背景,梳理了相关的研究与理论基础。在产品特征提取的模型中,将语言学的理论加以运用,在经过分词和词性标注之后,使用三项语言规则进行初步的筛选,得到更合适的候选特征集。针对原有PMI算法的缺陷加以改进,提出了一种PMI-Strapping算法:由一个简单的种子出发,逐步迭代优化,结合动态阈值设置,实现对候选特征集的进一步提取。同时,使用语料切割法和人工监督法,来对算法的阈值设置进行改进,以适应不同的挖掘目标。将整个产品特征提取模型应用于实际的网络评论数据集,展示出了优于传统PMI算法的表现。其次,本文总结了PMI-Strapping特征提取算法的重要思想,将其推广到情感分析中,并构建了相应的算法,以解决当前的感情分析研究中存在的两点不足,即情感分析脱离产品特征、情感分析模型简单线性化。最后,本文对全文内容进行了总结,对后续研究做了展望。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号