首页> 中国专利> 一种微博用户个性化情感倾向分析方法及系统

一种微博用户个性化情感倾向分析方法及系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种微博用户个性化情感倾向分析方法，包括以下步骤：数据采集、分词、加载词库和表情符号库、建立用户感兴趣话题库、划分短句、提取情感元素、建立用户个性化惯用语列表、惯用语情感值计算、计算用户话题情感倾向、计算用户总体情感倾向。本发明还公开了一种微博用户个性化情感倾向分析系统。本发明实现了对微博单个用户的情感分析，将用户的情感分析与对具体话题相结合，避免了笼统刻板的分析模式，使对用户的情感分析更细致、更具有方向性，提高情感倾向分析的准确度。

著录项

公开/公告号CN103699626A

专利类型发明专利
公开/公告日2014-04-02

原文格式PDF
申请/专利权人华南理工大学;
展开▼

申请/专利号CN201310711626.9
发明设计人王伟凝;刘剑聪;韦岗;王励;
展开▼

申请日2013-12-20
分类号G06F17/30(20060101);
代理机构44245 广州市华学知识产权代理有限公司;
代理人陈文姬
地址 510640 广东省广州市天河区五山路381号
入库时间 2024-02-19 22:49:04

法律信息

法律状态公告日

法律状态信息

法律状态
2017-02-01

授权

授权
2014-04-30

实质审查的生效 IPC(主分类):G06F17/30 申请日:20131220

实质审查的生效
2014-04-02

公开

公开

说明书

技术领域

本发明涉及微博数据处理领域，特别涉及一种微博用户个性化情感倾向分析方法及系统。

背景技术

微博是一个自由随意的平台，其信息短小，发布迅速，用户经常通过微博发表自己对各种事件和评论对象的主观感受，与他人分享自己的价值观、意见、情感等。微博信息中包含了很多的情感词语，蕴含了丰富的情感信息。自由放松的环境，使用户微博数据中情感表达的信息可以更深入、准确地反映用户的情感倾向。

目前中文微博的情感分析研究工作，主要是针对某个特定事件和主题进行，分析所有相关的微博信息文本，提取情感元素，进行统计学的分析，对微博的情感信息进行分类、标注和预测，取得了一定成果。但是当前的研究主要关注微博信息的情感分析或群体用户的情感状况，对于单个微博用户的情感倾向分析和研究尚未深入开展，并没有单独针对用户的情感倾向分析。而且，对情感倾向的分析，也没有细化到社会生活上的各具体方面，这就导致情感分析的针对性不强，分析和预测的准确性、全面性尚待进一步提高。

微博的情感表达方式是个性化的，必须引入用户的个性化特征才能得到更准确的分析结果。微博的热点话题转换非常快，而活跃的用户相对稳定。影响事件发展的趋势是所有参与的微博用户，用户的情感模型是相对稳定的。通过对用户个性化情感的分析，可以更准确更细致地标记微博信息的情感，预测事件的发展和变化。建立的用户情感分析信息还可以长期使用，随着数据的积累会越来越准确。

通过对微博用户的个性化情感分析技术，能分析判断出他们对热门话题、特定言论、特定对象或者产品的喜爱或憎恨程度，挖掘其中的商业和社会价值，具有广阔的应用前景，如1）舆情监控，热点话题的趋势分析和预测，社会群体的情感分析等；2）股市、流行性疾病、选举等趋势分析和预测；3）基于大数据的用户行为分析，例如消费倾向、用户喜好等。微博用户个性化情感倾向分析方法的研究具有重要的学术价值和社会意义。

发明内容

为了克服现有技术的上述缺点与不足，本发明的目的在于提供一种微博用户个性化情感倾向分析方法，实现了对微博单个用户的情感分析，使用户的情感分析更细致、更具有方向性。

本发明的另一目的在于提供一种微博用户个性化情感倾向分析系统。

本发明的目的通过以下技术方案实现：

一种微博用户个性化情感倾向分析方法，包括以下步骤：

（1）采集每个用户的微博主页的所有数据，存入数据库；

（2）对步骤（1）采集到的微博数据中的文本数据进行分词，得到分词集合和词性标注；

（3）加载所需词库、表情符号库；所述词库包括hownet情感词词库，程度词库，否定词库，人称代词词库，虚词衔接词库，网络用语词库和分类词库；

（4）采用基于词频的层间向上聚合算法建立用户感兴趣话题库：

（4-1）建立话题树：过滤掉用户文本数据中没有话题意义的词语，得到有明显话题信息的词语，利用分类词库，统计词频，建立话题树；所述话题树为层次化结构，第一层为一级话题分类，第二层为二级子话题分类，第三层为三级子话题分类；所述没有话题意义的词语包括程度词、否定词、人称代词、虚词、衔接词、形容词；

（4-2）根据话题树，通过基于词频的层间向上聚合算法，逐层提取高频话题；

（4-3）建立一个主分支，用于放置无法归入父层话题的话题词和网络上流行的特有话题词或词组，得到常用话题库；将微博数据中的词语与常用话题库中的词语进行匹配对应，将在用户的微博数据中出现次数超过阈值的话题词语提取出来，也作为高频话题；

（4-4）将步骤（4-2）和（4-3）得到的高频话题作为用户感兴趣话题词，建立用户感兴趣话题库；

（5）将步骤（1）采集到的微博数据划分短句，确保每一个短句至多含有一个感兴趣话题词；

（6）提取每个短句中的情感元素，计算每个短句的初始情感值：

（6-1）将短句的词语集合与各词库和表情符号库进行匹配映射，标记出各类情感元素；所述情感元素包括情感词、程度词、否定词、标点符号、表情符号，其中程度词和标点符号都用于调整情感词的程度，否定词用于调整情感词的极性；

（6-2）计算短句中文本的情感值：

设置情感元素的权值：正面情感词权值为“+1”，负面情感词权值为“-1”；否定词权值为“-1”；程度词和标点符号按照其程度的深浅，设置权值，权值范围为0到3之间；程度词和标点符号所影响的情感词遵循就近原则，即每个程度词或标点符号影响距离它最近的情感词的情感程度；

短句中文本的情感值I_words的计算方法为：

$I_{words} = b \cdot Σ_{i = 1}^{m} (Σ_{j = 1}^{n} c_{ij} \cdot f_{ij}) \cdot q_{i}$

式中，q_i表示第i个情感词，c_ij表示修饰q_i的第j个程度词权值，f_ij表示修饰q_i的第j个否定词权值；若q_i没有附带程度词，则c_ij取默认值1；若q_i没有附带否定词，则f_ij取默认值1；n取修饰q_i的程度词个数和修饰q_i的否定词个数中的最大值，m表示情感词的个数，b表示标点符号对应的权值，i，j都为正整数；

（6-3）计算短句中表情符号的情感值：

对于微博运营方提供的表情，将其对于情感倾向的贡献分为正面，负面，中性三种情况：正面表情符号的权值设为“+1”，负面表情符号的权值设为“-1”，中性表情符号的权值设为“0”；

短句中表情符号情感值I_marks的计算方法为：

$I_{marks} = Σ_{i = 1}^{l} m_{i}$

式中，m_i表示第i个表正面、负面或中性情感的表情，i为正整数，l为表情符号个数；

（6-4）计算短句的初始情感值I₀：

I₀=I_words+I_marks；

（7）对步骤（2）处理后的文本数据，利用词语滑动窗口法提取高频的词语组合，得到用户个性化惯用语列表；

（8）对包含各条惯用语的所有短句的初始情感值进行统计分析，得出惯用语的情感值；

对于每条惯用语，找出所有含有该惯用语的短句，将其初始情感值求和平均，计算方法如下：

$I_{g} = \frac{1}{p} Σ_{i = 1}^{p} I_{0 i}$

式中，I_0i为第i句包含该惯用语的短句的初始情感值，p为含有该惯用语的短句数，I_g为该惯用语的情感初值；

将I_g的值映射在[-3,3]中，得到惯用语的情感值I’_g，记录在该用户的个性化惯用语情感标记表中；

（9）计算每个短句的个性化情感值，计算方法为：

$I = I_{0} - Σ_{i = 1}^{m^{'}} (Σ_{j = 1}^{n^{'}} c_{gij} \cdot f_{gij}) \cdot q_{gi} + Σ_{k = 1}^{r} I_{gk}^{'}$

式中，I₀为短句的初始情感值，q_gi表示第i个词语，c_gij表示修饰q_gi的第j个程度词权值，f_gij表示修饰q_gi的第j个否定词权值；若q_gi没有附带程度词，则c_gij取默认值1；若q_gi没有附带否定词，则f_gij取默认值1；n'取修饰q_gi的程度词的个数和修饰q_gi的否定词的个数中的最大值；m'表示词语的个数，i，j都为正整数；I'_gk表示第k个惯用语的情感值，r表示该短句中惯用语的个数；

（10）计算用户感兴趣话题的情感倾向：

对于用户感兴趣话题库中的任一用户感兴趣话题词，按下式计算其情感值：

$I_{topi c_{i}} = \frac{1}{w} Σ_{j = 1}^{w} I_{j}$

I_j为包含该用户感兴趣话题词的第j个短句的个性化情感值，w为包含该用户感兴趣话题词的短句总数，为该用户感兴趣话题词的情感值；将的值映射在[-3,3]中，得到最终的用户的话题情感倾向值，利用这些值，建立用户个性化微博话题情感值列表。

进行步骤（10）之后，还可以进行以下步骤：

（a）重复进行步骤（1）～（7），对于用户个性化惯用语列表中新加入的惯用语，由步骤（8）计算得到该惯用语的情感值I’_g；对于本次循环之前已记录在用户个性化惯用语列表中的惯用语，则按以下方法更新I‘_g：对每条惯用语，首先进行步骤（8），得到本轮循环的I_g的计算值I_{g_new}，设I_{g_prev}为上一轮循环得到的I_g的计算值，则I_g更新为：

I_g=ω₁I_{g_prev}+ω₂I_{g_new}

式中，ω₁为I_{g_prev}的权值，ω₂为I_{g_new}的权值；

将I_g的值映射在[-3,3]中，得到惯用语的情感值I’_g；

（b）根据步骤（a）得到的I’_g，进行步骤（9）～（10）。

进行步骤（10）之后，还可以进行以下步骤：

重复进行步骤（1）～（9），对于本次循环中在用户感兴趣话题库新加入的用户感兴趣话题词，按步骤（10）的方法计算用户的话题情感倾向；对于本次循环之前已记录在用户感兴趣话题库中的用户感兴趣话题词，则按以下方法更新用户的话题情感倾向I_topic：首先进行步骤（10），得到本轮循环的I_topic的计算值I_{topic_new}，设I_{topic_prev}为上一轮循环得到的I_topic的计算值，则I_topic更新为：

I_topic=ω'₁I_{topic_prev}+ω'₂I_{topic_new}

ω'₁为I_{topic_prev}的权值，ω'₂为I_{topic_new}的权值。

进行步骤（10）之后，还进行以下步骤：

根据下式计算用户总体情感倾向值：

$I_{user} = \frac{1}{s} Σ_{i = 1}^{s} I_{i}$

式中，I_i表示第i个短句的情感值，s表示短句总数。

步骤（1）所述采集每个用户的微博主页的所有数据，具体为:

以用户为单位，收集其主页面内的所有数据；所述数据包括用户主页面内自己发布的和转发的微博数据、“发出的评论”的数据、“提到我的”的数据、微博名与所关注用户的微博名、自我介绍、自发或转发微博中包含的url网页和视频链接中的标题。

步骤（4-2）所述根据话题树，通过基于词频的层间向上聚合算法，逐层提取高频话题，具体为：

对每一个话题词，若其出现次数高于设定的阈值，则该话题为高频话题，否则，将该话题词的出现次数传给父层话题词，逐层计算提取高频话题；话题词的出现次数包括该话题本身的出现次数和该话题的子话题的出现次数。

步骤（5）所述将步骤（1）采集到的数据划分短句，具体为：

分析每一条微博数据，若一条微博数据中没有话题词或只涉及一个话题，则整条微博作为一个短句；

若一条微博数据中含有多个话题词，则结合标点符号优先程度分析：如果两个距离最大的话题词之间有标点，则在标点处分拆成两个短句，如果两个距离最大的话题词之间没有标点，那么查看次大距离的话题词，如果都没有标点，则不拆分，整条微博数据作为一个短句；所述距离为在话题树中从一个话题词到达另一个话题词所要通过的树支数；若两个话题词之间有多个标点，则选取优先度高的标点处进行划分：标点符号优先度中，句号>分号>逗号。

步骤（7）所述对步骤（2）处理后的文本数据，提取高频的词语组合，具体为：

设滑动窗口的窗口长度为W，W即滑动窗口包含的词语数，先后分别取1、 2、3、4；利用词语滑动窗口统计所有短句中，每个词语或词组出现的总次数，将出现次数大于阈值的词语或词组列入用户惯用语列表；收集日常表述词，建立日常表述词组库；将日常表述词从用户惯用语列表中剔除，得到用户惯用语列表。

实现上述分析方法的微博用户个性化情感倾向分析系统，包括

数据采集模块，用于采集每个用户的微博主页的所有数据，存入数据库；

分词模块，用于对采集到的数据中的文本数据进行分词，得到分词集合和词性标注；

词库加载模块，用于加载所需词库、表情符号库；所述词库包括hownet情感词词库，程度词库，否定词库，人称代词词库，虚词衔接词库，网络用语词库和分类词库；

用户感兴趣话题库建立模块，用于采用基于词频的层间向上聚合算法建立用户感兴趣话题库；

短句划分模块，用于将数据采集模块采集到的数据划分短句，确保每一个短句至多含有一个感兴趣话题词；

情感元素提取模块，用于提取每个短句中的情感元素，计算每个短句的初始情感值；

用户个性化惯用语列表建立模块，用于对数据采集模块采集到的数据，利用词语滑动窗口法提取高频的词语组合，得到用户个性化惯用语列表；

惯用语情感值计算模块，用于对包含各条惯用语的所有短句的情感值进行统计分析，得出惯用语的情感值；

短句情感值计算模块，用于计算每个短句的个性化情感值；

用户话题情感倾向计算模块，用于计算用户各感兴趣话题的情感倾向。

所述的微博用户个性化情感倾向分析系统，还包括用户总体情感倾向计算模块，用于计算用户的总体情感倾向。

与现有技术相比，本发明具有以下优点和有益效果：

（1）本发明实现了对微博单个用户的情感分析，将用户的情感分析与对具体话题相结合，避免了笼统刻板的分析模式，使对用户的情感分析更细致、更具有方向性。从用户的习惯性表达方式考虑，将用户个性化惯用语作为情感分析的元素之一，有利于提高情感倾向分析的准确度。

（2）本发明针对用户，对其微博数据进行情感分析，可帮助用户更全面地了解自身及其他用户的喜好；当网络中出现一段新的言论热点时，可以利用本方法得到的结果，快速得出该用户的感兴趣程度及情感倾向，以预测用户的言论及反应；产品开发商、运营商和广告商利用本方法，可以找出对所推商品或服务感兴趣的用户，有助于产品开发商提供更满足需求的商品，有助于运营商提供更人性化的贴心服务，有助于广告商针对用户投放广告；可为许多行业提供市场需求参考；有助于舆情监控。

附图说明

图1是本发明的实施例的微博用户个性化情感倾向分析方法的流程图。

图2为本发明的实施例的微博用户个性化情感倾向分析方法的数据采集及预处理过程的具体流程图。

图3为本发明的实施例的建立用户感兴趣话题库的具体流程图。

图4为本发明的实施例中由某用户的微博数据建立的话题树的示意图。

图5为本发明的实施例中从话题树中逐层提取高频话题的具体流程图。

图6为本发明的实施例的表情符号权值的具体设置示意图。

图7为本发明的实施例的利用词语滑动窗口提取词语组合的示例图（W取 1）。

图8为本发明的实施例的利用词语滑动窗口提取词语组合的示例图（W取 3）。

图9为本发明的实施例的惯用语情感值计算流程图。

图10为本发明的实施例的微博用户个性化情感倾向分析方法的步骤（7）～（8）的具体流程图。

图11为本发明的实施例的微博用户个性化情感倾向分析方法的步骤（5）～（11）的具体流程图。

图12为本发明的实施例的微博用户个性化情感倾向分析系统的结构示意图。

具体实施方式

下面结合实施例，对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例

如图1所示，本实施例的微博用户个性化情感倾向分析方法，包括以下步骤：

（1）采集每个用户的微博主页的所有微博数据，存入数据库：

（2）对步骤（1）采集到的微博数据中的文本数据以微博为单位逐段读取，利用汉语词法分析系统ICTCLAS的分词方法进行分词操作，得到分词集合和相应的词性标注。

（3）加载所需词库、表情符号库；所述词库包括hownet情感词词库，程度词库，否定词库，人称代词词库，虚词衔接词库，网络用语词库和分类词库；其中，hownet情感词词库，程度词库，否定词库中的每个词都是带有权值的； hownet情感词词库中只取中文词语，将其中的正面情感词语和正面评价词语归为正面情感词语，将其中的负面情感词语和负面评价词语归为负面情感词语；关于程度词和否定词，采用自建的程度词词库和否定词词库，其中程度词词库包含程度词219个，否定词库包含否定词48个。分类词库采用改良的QQ输入法的分类词库，为层次化树状结构；词库第一层为最大类，包含游戏、学科专业、爱好、体育娱乐、文化艺术、地区等，词库第二层为第一层的细分子类，例如，“学科专业”大类下面又分为理工农医、社科经济、教育军事等，词库第三层为第二层类别的细分子类，如社科经济下面分为股票基金、法律、商品、金融等；整个分类词库的目录下，共有6223个不再细分词库；表情符号库通过收集微博平台的表情符号并给出权值得到。

步骤（1）～（3）为数据采集及预处理过程，具体流程图见图2。

（4）采用基于词频的层间向上聚合算法建立用户感兴趣话题库，如图3所示，步骤如下：

图4为由某用户的微博数据建立的话题树。方框内对应的数字为该话题词和其子话题词出现的次数。

（4-2）根据话题树，通过基于词频的层间向上聚合算法，逐层提取高频话题：对每一个话题词，若其出现次数高于设定的阈值，则该话题为高频话题，否则，将该话题词的出现次数传给其父层话题词，逐层计算提取高频话题；话题词的出现次数包括该话题本身的出现次数和其子话题的出现次数；

操作示例如图5所示，图中带虚线方框表示提取出的高频话题，共提取出了四个高频话题。

（4-3）建立一个主分支，用于放置无法归入父层话题的话题词和网络上流行的特有话题词或词组，得到常用话题库，这一分支没有分层架构；将微博数据中的词语与常用话题库中的词语进行匹配对应，将在用户的微博数据中出现次数超过阈值的话题词语提取出来，也作为高频话题；

（4-4）将步骤（4-2）和（4-3）得到的高频话题作为用户感兴趣话题词，建立用户感兴趣话题库。

（5）将步骤（1）采集到的数据划分短句，确保每一个短句至多含有一个感兴趣话题词;

所述将步骤（1）采集到的数据划分短句，具体为：分析每一条微博数据，若一条微博数据中没有话题词或只涉及一个话题，则整条微博作为一个短句；若一条微博数据中含有多个话题词，则结合标点符号优先程度分析：如果两个距离最大的话题词之间有标点，则在标点处分拆成两个短句；如果两个距离最大的话题词之间没有标点，那么查看次大距离的话题词；如果都没有标点，则不拆分，整条微博数据作为一个短句；所述距离为在话题树中从一个话题词到达另一个话题词所要通过的树支数；若两个话题词之间有多个标点，则选取优先度高的标点处进行划分：标点符号优先度中，句号>分号>逗号。

（6）提取每个短句中的情感元素，计算每个短句的初始情感值：

（6-2）计算短句中文本的情感值：

设置情感元素的权值：正面情感词权值为“+1”，负面情感词权值为“-1”；否定词权值为“-1”；程度词和标点符号按照其程度的深浅，设置权值，权值范围为0到3；程度词和标点符号所影响的情感词遵循就近原则，即每个程度词或标点符号影响距离它最近的情感词的情感程度；

权值设置举例如表1～4：

表1hownet情感词

正面词语负面词语爱宠懊悔爱戴懊恼安好暗淡 … …

表2常用程度词权值

程度词程度值太 3 非常 2.5 很 2 … …

表3常用否定词权值

否定词权值不 -1

否 -1 非 -1 … …

表4标点符号权值

标点符号程度系数。（句号） 1 ，（逗号） 1 ！！！…！ 2 ？？？…？ 1.5 … …

短句中文本的情感值I_words的计算方法为：

$I_{words} = b \cdot Σ_{i = 1}^{m} (Σ_{j = 1}^{n} c_{ij} \cdot f_{ij}) \cdot q_{i}$

（6-3）计算短句中表情符号的情感值：

表情符号权值的具体设置举例如图6所示。

短句中表情符号情感值I_marks的计算方法为：

$I_{marks} = Σ_{i = 1}^{l} m_{i}$

式中，m_i表示第i个表正面、负面或中性情感的表情，i为正整数，l为表情符号个数；

（6-4）计算短句的初始情感值I₀：

I₀=I_words+I_marks；

（7）对步骤（2）处理后的文本数据，利用词语滑动窗口法提取高频的词语组合，得到用户个性化惯用语列表；

设滑动窗口的窗口长度为W，W即滑动窗口包含的词语数，先后分别取1、 2、3、4；利用词语滑动窗口统计所有短句中，每个词语或词组出现的总次数，将出现次数大于阈值（不同窗口会有不同阈值，窗口长度越小，所要求的阈值越高）的词语或词组列入用户惯用语列表；其中，W=1时，只对形容词和语气词进行统计处理。对于词组，以词语数最多的词组列入惯用语列表。另外，采用自建的日常表述词组库剔除由于中文语法造成的无明显情感指向的日常表述词组，具体做法为：人工收集中文常用词语搭配，如“我的”、“现在的”“起来” 等，以对照剔除惯用语列表中的无明显情感指向的日常表述词组。由此，得到用户个性化惯用语列表。

图7为W取1时词语滑动窗口提取词语组合的示例图。

图8为W取3时词语滑动窗口提取词语组合的示例图。

（8）对包含各条惯用语的所有短句的初始情感值进行统计分析，计算各条惯用语的情感值，如图9所示，具体过程如下：

对于每条惯用语，找出所有含有该惯用语的短句，将其初始情感值求和平均，计算方法如下：

$I_{g} = \frac{1}{p} Σ_{i = 1}^{p} I_{0 i}$

式中，I_0i为第i句包含该惯用语的短句的初始情感值，p为含有该惯用语的短句数，I_g为该惯用语的情感初值；

考虑到理论上I_g的取值为无穷大，但是其大多数数值又分布在10附近，所以根据公式（1）将I_g（作为式中的x）的值映射在[-3,3]中，得到惯用语的情感值I’_g（作为式中的y），记录在该用户的个性化惯用语情感标记表中；

$y = (\begin{matrix} 0.42 \sqrt{x}, & 0 \leq x < 50 \\ - 0.42 \sqrt{x}, & - 50 < x < 0 \\ 3, & x > 50 \\ - 3, & x > - 50 \end{matrix}) - - - (1)$

步骤（7）～（8）的具体流程图见图10。

（9）计算每个短句的个性化情感值，计算方法为：减去初始情感值中包含惯用语或惯用语中任何词语的情感元素计算值，然后加上按照用户个性化惯用语列表计算的惯用语的情感值，得到短句的个性化情感值，即：

$I = I_{0} - Σ_{i = 1}^{m^{'}} (Σ_{j = 1}^{n^{'}} c_{gij} \cdot f_{gij}) \cdot q_{gi} + Σ_{k = 1}^{r} I_{gk}^{'}$

式中，I₀为前面计算的短句的初始情感值，c_gij、f_gij、q_gi是惯用语中词语的相关计算值，q_gi表示第i个词语，c_gij表示修饰q_gi的第j个程度词权值，f_gij表示修饰q_gi的第j个否定词权值；若q_gi没有附带程度词，则c_gij取默认值1；若q_gi没有附带否定词，则f_gij取默认值1；n'取修饰q_gi的程度词的个数和修饰q_gi的否定词的个数中的最大值，m'表示词语的个数，i，j都为正整数；I'_gk表示第k个惯用语的情感值，r表示该短句中惯用语的个数。

（10）计算用户感兴趣话题的情感倾向：

对于用户感兴趣话题库中的任一用户感兴趣话题词，按下式计算其情感值：

$I_{{topic}_{i}} = \frac{1}{w} Σ_{j = 1}^{w} I_{j}$

式中，I_j为包含该用户感兴趣话题词的第j个短句的个性化情感值，w为包含该用户感兴趣话题词的短句总数，为该用户感兴趣话题词的情感值；

根据公式（1）将（作为式中的x）的值映射在[-3,3]中，得到最终的用户感兴趣话题情感倾向值（作为式中的y）。利用这些值，建立用户个性化微博话题情感值列表，如表5所示。

表5用户个性化微博话题情感值列表

话题情感值

NBA篮球队员 3 数码通讯品牌 2.5 签到 -3 。。。。。。

进行步骤（10）之后，还可对用户的总体情感倾向进行计算，即进行以下步骤：

（11）计算用户的总体情感倾向：

根据下式计算用户总体情感倾向值：

$I_{user} = \frac{1}{s} Σ_{i = 1}^{s} I_{i}$

式中，I_i表示第i个短句的情感值，s表示短句总数。

步骤（5）～（11）的具体流程图见图11。

一般说来，微博信息量越大，用户感兴趣话题库中的话题词则越丰富，用户的情感倾向分析也越准确。所以，对微博用户的情感倾向分析应定时重复进行，覆盖旧的结果。这是一种对用户的情感分析定时升级的机制，可使结果更全面、准确，更具时效性。

其中，由于更新过程中用户惯用语列表会有新的惯用语加入，本实施例的微博用户个性化情感倾向分析方法采用以下方法对步骤（1）～（11）的分析结果进行更新：

进行步骤（11）之后，还进行以下步骤：

（12）重复进行步骤（1）～（7），对于用户个性化惯用语列表中新加入的惯用语，由步骤（8）计算得到该惯用语的情感值I’_g；对于本次循环之前已记录在用户个性化惯用语列表中的惯用语，则按以下方法更新I‘_g：对每条惯用语，首先进行步骤（8），得到本轮循环的I_g的计算值I_{g_new}，设I_{g_prev}为上一轮循环得到的I_g的计算值，则I_g更新为：

I_g=ω₁I_{g_prev}+ω₂I_{g_new}

式中，ω₁为I_{g_prev}的权值，ω₂为I_{g_new}的权值；

将I_g的值映射在[-3,3]中，得到惯用语的情感值I’_g；

（13）根据步骤（12）得到的I’_g，进行后续的步骤（9）～（11）。

由于更新过程中用户感兴趣话题库会有新的用户感兴趣话题词加入，本实施例的微博用户个性化情感倾向分析方法采用以下方法对步骤（1）～（11）的分析结果进行更新：

进行步骤（11）之后，还进行以下步骤：

（14）重复进行步骤（1）～（9），对于本次循环中在用户感兴趣话题库新加入的用户感兴趣话题词，按步骤（10）的方法计算用户的话题情感倾向；对于本次循环之前已记录在用户感兴趣话题库中的用户感兴趣话题词，则按以下方法更新用户的话题情感倾向I_topic：首先进行步骤（10），得到本轮循环的I_topic的计算值I_{topic_new}，设I_{topic_prev}为上一轮循环得到I_topic的计算值，则I_topic更新为：

I_topic=ω'₁I_{topic_prev}+ω'₂I_{topic_new}

ω'₁为I_{topic_prev}的权值，ω'₂为I_{topic_new}的权值。

常用话题库的更新方法：定期查看微博主页中热点话题一栏，把其中的话题加入到常用话题库中；另外，定时查看QQ输入法分类词库的更新，把新的词条加进分类词库里。

如图12所示，本实施例的微博用户个性化情感倾向分析系统，包括

数据采集模块，用于采集每个用户的微博主页的所有数据，存入数据库；

分词模块，用于对采集到的数据中的文本数据进行分词，得到分词集合和词性标注；

词库加载模块：用于加载所需词库、表情符号库；所述词库包括hownet情感词词库，程度词库，否定词库，人称代词词库，虚词衔接词库，网络用语词库和分类词库；

用户感兴趣话题库建立模块：用于采用基于词频的层间向上聚合算法建立用户感兴趣话题库：

短句划分模块，用于将数据采集模块采集到的数据划分短句，确保每一个短句至多含有一个感兴趣话题词；

情感元素提取模块，用于提取每个短句中的情感元素，计算每个短句的初始情感值；

用户个性化惯用语列表建立模块，用于对数据采集模块采集到的数据，利用词语滑动窗口法提取高频的词语组合，得到用户个性化惯用语列表；

惯用语情感值计算模块，用于对包含各条惯用语的所有短句的情感值进行统计分析，得出惯用语的情感值：

短句情感值计算模块，用于计算每个短句的个性化情感值；

用户的话题情感倾向计算模块，用于计算用户各感兴趣话题的情感倾向；

用户总体情感倾向计算模块，用于计算用户的总体情感倾向。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种微博用户个性化情感倾向分析方法及系统 [P] . 中国专利： CN103699626B . 2017.02.01
2. 一种微博热点话题的用户群体情感倾向迁移动态分析方法 [P] . 中国专利： CN111309864A . 2020-06-19
3. METHOD AND SYSTEM OF DISCOVERING AND ANALYZING STRUCTURES OF USER GROUPS IN MICROBLOG [P] . 美国专利： US2015356444A1 . 2015-12-10

机译：微博中用户群结构的发现与分析方法及系统
4. METHOD AND SYSTEM FOR DISCOVERING AND ANALYZING MICRO-BLOG USER GROUP STRUCTURE [P] . 世界知识产权组织专利： WO2014107988A1 . 2014-07-17

机译：微博用户群结构的发现与分析方法及系统
5. A USER PERSONALIZED INFORMATION MANAGEMENT SYSTEM AND A METHOD FOR MANGING USER PERSONALIZED INFORMATION. [P] . IN2005DE03537A . 2009-07-31

机译：用户个性化信息管理系统和一种管理用户个性化信息的方法。