法律状态公告日
法律状态信息
法律状态
2017-02-01
授权
授权
2014-04-30
实质审查的生效 IPC(主分类):G06F17/30 申请日:20131220
实质审查的生效
2014-04-02
公开
公开
技术领域
本发明涉及微博数据处理领域,特别涉及一种微博用户个性化情感倾向分 析方法及系统。
背景技术
微博是一个自由随意的平台,其信息短小,发布迅速,用户经常通过微博 发表自己对各种事件和评论对象的主观感受,与他人分享自己的价值观、意见、 情感等。微博信息中包含了很多的情感词语,蕴含了丰富的情感信息。自由放 松的环境,使用户微博数据中情感表达的信息可以更深入、准确地反映用户的 情感倾向。
目前中文微博的情感分析研究工作,主要是针对某个特定事件和主题进行, 分析所有相关的微博信息文本,提取情感元素,进行统计学的分析,对微博的 情感信息进行分类、标注和预测,取得了一定成果。但是当前的研究主要关注 微博信息的情感分析或群体用户的情感状况,对于单个微博用户的情感倾向分 析和研究尚未深入开展,并没有单独针对用户的情感倾向分析。而且,对情感 倾向的分析,也没有细化到社会生活上的各具体方面,这就导致情感分析的针 对性不强,分析和预测的准确性、全面性尚待进一步提高。
微博的情感表达方式是个性化的,必须引入用户的个性化特征才能得到更 准确的分析结果。微博的热点话题转换非常快,而活跃的用户相对稳定。影响 事件发展的趋势是所有参与的微博用户,用户的情感模型是相对稳定的。通过 对用户个性化情感的分析,可以更准确更细致地标记微博信息的情感,预测事 件的发展和变化。建立的用户情感分析信息还可以长期使用,随着数据的积累 会越来越准确。
通过对微博用户的个性化情感分析技术,能分析判断出他们对热门话题、 特定言论、特定对象或者产品的喜爱或憎恨程度,挖掘其中的商业和社会价值, 具有广阔的应用前景,如1)舆情监控,热点话题的趋势分析和预测,社会群体 的情感分析等;2)股市、流行性疾病、选举等趋势分析和预测;3)基于大数 据的用户行为分析,例如消费倾向、用户喜好等。微博用户个性化情感倾向分 析方法的研究具有重要的学术价值和社会意义。
发明内容
为了克服现有技术的上述缺点与不足,本发明的目的在于提供一种微博用 户个性化情感倾向分析方法,实现了对微博单个用户的情感分析,使用户的情 感分析更细致、更具有方向性。
本发明的另一目的在于提供一种微博用户个性化情感倾向分析系统。
本发明的目的通过以下技术方案实现:
一种微博用户个性化情感倾向分析方法,包括以下步骤:
(1)采集每个用户的微博主页的所有数据,存入数据库;
(2)对步骤(1)采集到的微博数据中的文本数据进行分词,得到分词集 合和词性标注;
(3)加载所需词库、表情符号库;所述词库包括hownet情感词词库,程 度词库,否定词库,人称代词词库,虚词衔接词库,网络用语词库和分类词库;
(4)采用基于词频的层间向上聚合算法建立用户感兴趣话题库:
(4-1)建立话题树:过滤掉用户文本数据中没有话题意义的词语,得到有 明显话题信息的词语,利用分类词库,统计词频,建立话题树;所述话题树为 层次化结构,第一层为一级话题分类,第二层为二级子话题分类,第三层为三 级子话题分类;所述没有话题意义的词语包括程度词、否定词、人称代词、虚 词、衔接词、形容词;
(4-2)根据话题树,通过基于词频的层间向上聚合算法,逐层提取高频话 题;
(4-3)建立一个主分支,用于放置无法归入父层话题的话题词和网络上流 行的特有话题词或词组,得到常用话题库;将微博数据中的词语与常用话题库 中的词语进行匹配对应,将在用户的微博数据中出现次数超过阈值的话题词语 提取出来,也作为高频话题;
(4-4)将步骤(4-2)和(4-3)得到的高频话题作为用户感兴趣话题词, 建立用户感兴趣话题库;
(5)将步骤(1)采集到的微博数据划分短句,确保每一个短句至多含有 一个感兴趣话题词;
(6)提取每个短句中的情感元素,计算每个短句的初始情感值:
(6-1)将短句的词语集合与各词库和表情符号库进行匹配映射,标记出各 类情感元素;所述情感元素包括情感词、程度词、否定词、标点符号、表情符 号,其中程度词和标点符号都用于调整情感词的程度,否定词用于调整情感词 的极性;
(6-2)计算短句中文本的情感值:
设置情感元素的权值:正面情感词权值为“+1”,负面情感词权值为“-1”; 否定词权值为“-1”;程度词和标点符号按照其程度的深浅,设置权值,权值范 围为0到3之间;程度词和标点符号所影响的情感词遵循就近原则,即每个程 度词或标点符号影响距离它最近的情感词的情感程度;
短句中文本的情感值Iwords的计算方法为:
式中,qi表示第i个情感词,cij表示修饰qi的第j个程度词权值,fij表示修 饰qi的第j个否定词权值;若qi没有附带程度词,则cij取默认值1;若qi没有 附带否定词,则fij取默认值1;n取修饰qi的程度词个数和修饰qi的否定词个数 中的最大值,m表示情感词的个数,b表示标点符号对应的权值,i,j都为正整 数;
(6-3)计算短句中表情符号的情感值:
对于微博运营方提供的表情,将其对于情感倾向的贡献分为正面,负面, 中性三种情况:正面表情符号的权值设为“+1”,负面表情符号的权值设为“-1”, 中性表情符号的权值设为“0”;
短句中表情符号情感值Imarks的计算方法为:
式中,mi表示第i个表正面、负面或中性情感的表情,i为正整数,l为表情 符号个数;
(6-4)计算短句的初始情感值I0:
I0=Iwords+Imarks;
(7)对步骤(2)处理后的文本数据,利用词语滑动窗口法提取高频的词 语组合,得到用户个性化惯用语列表;
(8)对包含各条惯用语的所有短句的初始情感值进行统计分析,得出惯用 语的情感值;
对于每条惯用语,找出所有含有该惯用语的短句,将其初始情感值求和平 均,计算方法如下:
式中,I0i为第i句包含该惯用语的短句的初始情感值,p为含有该惯用语的 短句数,Ig为该惯用语的情感初值;
将Ig的值映射在[-3,3]中,得到惯用语的情感值I’g,记录在该用户的个性化 惯用语情感标记表中;
(9)计算每个短句的个性化情感值,计算方法为:
式中,I0为短句的初始情感值,qgi表示第i个词语,cgij表示修饰qgi的第j个 程度词权值,fgij表示修饰qgi的第j个否定词权值;若qgi没有附带程度词,则cgij取默认值1;若qgi没有附带否定词,则fgij取默认值1;n'取修饰qgi的程度词的 个数和修饰qgi的否定词的个数中的最大值;m'表示词语的个数,i,j都为正整 数;I'gk表示第k个惯用语的情感值,r表示该短句中惯用语的个数;
(10)计算用户感兴趣话题的情感倾向:
对于用户感兴趣话题库中的任一用户感兴趣话题词,按下式计算其情感值:
Ij为包含该用户感兴趣话题词的第j个短句的个性化情感值,w为包含该用 户感兴趣话题词的短句总数,为该用户感兴趣话题词的情感值;将的值 映射在[-3,3]中,得到最终的用户的话题情感倾向值,利用这些值,建立用户个 性化微博话题情感值列表。
进行步骤(10)之后,还可以进行以下步骤:
(a)重复进行步骤(1)~(7),对于用户个性化惯用语列表中新加入的 惯用语,由步骤(8)计算得到该惯用语的情感值I’g;对于本次循环之前已记录 在用户个性化惯用语列表中的惯用语,则按以下方法更新I‘g:对每条惯用语, 首先进行步骤(8),得到本轮循环的Ig的计算值Ig_new,设Ig_prev为上一轮循环 得到的Ig的计算值,则Ig更新为:
Ig=ω1Ig_prev+ω2Ig_new
式中,ω1为Ig_prev的权值,ω2为Ig_new的权值;
将Ig的值映射在[-3,3]中,得到惯用语的情感值I’g;
(b)根据步骤(a)得到的I’g,进行步骤(9)~(10)。
进行步骤(10)之后,还可以进行以下步骤:
重复进行步骤(1)~(9),对于本次循环中在用户感兴趣话题库新加入的 用户感兴趣话题词,按步骤(10)的方法计算用户的话题情感倾向;对于本次 循环之前已记录在用户感兴趣话题库中的用户感兴趣话题词,则按以下方法更 新用户的话题情感倾向Itopic:首先进行步骤(10),得到本轮循环的Itopic的计算 值Itopic_new,设Itopic_prev为上一轮循环得到的Itopic的计算值,则Itopic更新为:
Itopic=ω'1Itopic_prev+ω'2Itopic_new
ω'1为Itopic_prev的权值,ω'2为Itopic_new的权值。
进行步骤(10)之后,还进行以下步骤:
根据下式计算用户总体情感倾向值:
式中,Ii表示第i个短句的情感值,s表示短句总数。
步骤(1)所述采集每个用户的微博主页的所有数据,具体为:
以用户为单位,收集其主页面内的所有数据;所述数据包括用户主页面内 自己发布的和转发的微博数据、“发出的评论”的数据、“提到我的”的数据、 微博名与所关注用户的微博名、自我介绍、自发或转发微博中包含的url网页和 视频链接中的标题。
步骤(4-2)所述根据话题树,通过基于词频的层间向上聚合算法,逐层提 取高频话题,具体为:
对每一个话题词,若其出现次数高于设定的阈值,则该话题为高频话题, 否则,将该话题词的出现次数传给父层话题词,逐层计算提取高频话题;话题 词的出现次数包括该话题本身的出现次数和该话题的子话题的出现次数。
步骤(5)所述将步骤(1)采集到的数据划分短句,具体为:
分析每一条微博数据,若一条微博数据中没有话题词或只涉及一个话题, 则整条微博作为一个短句;
若一条微博数据中含有多个话题词,则结合标点符号优先程度分析:如果 两个距离最大的话题词之间有标点,则在标点处分拆成两个短句,如果两个距 离最大的话题词之间没有标点,那么查看次大距离的话题词,如果都没有标点, 则不拆分,整条微博数据作为一个短句;所述距离为在话题树中从一个话题词 到达另一个话题词所要通过的树支数;若两个话题词之间有多个标点,则选取 优先度高的标点处进行划分:标点符号优先度中,句号>分号>逗号。
步骤(7)所述对步骤(2)处理后的文本数据,提取高频的词语组合,具 体为:
设滑动窗口的窗口长度为W,W即滑动窗口包含的词语数,先后分别取1、 2、3、4;利用词语滑动窗口统计所有短句中,每个词语或词组出现的总次数, 将出现次数大于阈值的词语或词组列入用户惯用语列表;收集日常表述词,建 立日常表述词组库;将日常表述词从用户惯用语列表中剔除,得到用户惯用语 列表。
实现上述分析方法的微博用户个性化情感倾向分析系统,包括
数据采集模块,用于采集每个用户的微博主页的所有数据,存入数据库;
分词模块,用于对采集到的数据中的文本数据进行分词,得到分词集合和 词性标注;
词库加载模块,用于加载所需词库、表情符号库;所述词库包括hownet情 感词词库,程度词库,否定词库,人称代词词库,虚词衔接词库,网络用语词 库和分类词库;
用户感兴趣话题库建立模块,用于采用基于词频的层间向上聚合算法建立 用户感兴趣话题库;
短句划分模块,用于将数据采集模块采集到的数据划分短句,确保每一个 短句至多含有一个感兴趣话题词;
情感元素提取模块,用于提取每个短句中的情感元素,计算每个短句的初 始情感值;
用户个性化惯用语列表建立模块,用于对数据采集模块采集到的数据,利 用词语滑动窗口法提取高频的词语组合,得到用户个性化惯用语列表;
惯用语情感值计算模块,用于对包含各条惯用语的所有短句的情感值进行 统计分析,得出惯用语的情感值;
短句情感值计算模块,用于计算每个短句的个性化情感值;
用户话题情感倾向计算模块,用于计算用户各感兴趣话题的情感倾向。
所述的微博用户个性化情感倾向分析系统,还包括用户总体情感倾向计算 模块,用于计算用户的总体情感倾向。
与现有技术相比,本发明具有以下优点和有益效果:
(1)本发明实现了对微博单个用户的情感分析,将用户的情感分析与对具 体话题相结合,避免了笼统刻板的分析模式,使对用户的情感分析更细致、更 具有方向性。从用户的习惯性表达方式考虑,将用户个性化惯用语作为情感分 析的元素之一,有利于提高情感倾向分析的准确度。
(2)本发明针对用户,对其微博数据进行情感分析,可帮助用户更全面地 了解自身及其他用户的喜好;当网络中出现一段新的言论热点时,可以利用本 方法得到的结果,快速得出该用户的感兴趣程度及情感倾向,以预测用户的言 论及反应;产品开发商、运营商和广告商利用本方法,可以找出对所推商品或 服务感兴趣的用户,有助于产品开发商提供更满足需求的商品,有助于运营商 提供更人性化的贴心服务,有助于广告商针对用户投放广告;可为许多行业提 供市场需求参考;有助于舆情监控。
附图说明
图1是本发明的实施例的微博用户个性化情感倾向分析方法的流程图。
图2为本发明的实施例的微博用户个性化情感倾向分析方法的数据采集及 预处理过程的具体流程图。
图3为本发明的实施例的建立用户感兴趣话题库的具体流程图。
图4为本发明的实施例中由某用户的微博数据建立的话题树的示意图。
图5为本发明的实施例中从话题树中逐层提取高频话题的具体流程图。
图6为本发明的实施例的表情符号权值的具体设置示意图。
图7为本发明的实施例的利用词语滑动窗口提取词语组合的示例图(W取 1)。
图8为本发明的实施例的利用词语滑动窗口提取词语组合的示例图(W取 3)。
图9为本发明的实施例的惯用语情感值计算流程图。
图10为本发明的实施例的微博用户个性化情感倾向分析方法的步骤(7)~ (8)的具体流程图。
图11为本发明的实施例的微博用户个性化情感倾向分析方法的步骤(5)~ (11)的具体流程图。
图12为本发明的实施例的微博用户个性化情感倾向分析系统的结构示意 图。
具体实施方式
下面结合实施例,对本发明作进一步地详细说明,但本发明的实施方式不 限于此。
实施例
如图1所示,本实施例的微博用户个性化情感倾向分析方法,包括以下步 骤:
(1)采集每个用户的微博主页的所有微博数据,存入数据库:
以用户为单位,收集其主页面内的所有数据;所述数据包括用户主页面内 自己发布的和转发的微博数据、“发出的评论”的数据、“提到我的”的数据、 微博名与所关注用户的微博名、自我介绍、自发或转发微博中包含的url网页和 视频链接中的标题。
(2)对步骤(1)采集到的微博数据中的文本数据以微博为单位逐段读取, 利用汉语词法分析系统ICTCLAS的分词方法进行分词操作,得到分词集合和相 应的词性标注。
(3)加载所需词库、表情符号库;所述词库包括hownet情感词词库,程 度词库,否定词库,人称代词词库,虚词衔接词库,网络用语词库和分类词库; 其中,hownet情感词词库,程度词库,否定词库中的每个词都是带有权值的; hownet情感词词库中只取中文词语,将其中的正面情感词语和正面评价词语归 为正面情感词语,将其中的负面情感词语和负面评价词语归为负面情感词语; 关于程度词和否定词,采用自建的程度词词库和否定词词库,其中程度词词库 包含程度词219个,否定词库包含否定词48个。分类词库采用改良的QQ输入 法的分类词库,为层次化树状结构;词库第一层为最大类,包含游戏、学科专 业、爱好、体育娱乐、文化艺术、地区等,词库第二层为第一层的细分子类, 例如,“学科专业”大类下面又分为理工农医、社科经济、教育军事等,词库第 三层为第二层类别的细分子类,如社科经济下面分为股票基金、法律、商品、 金融等;整个分类词库的目录下,共有6223个不再细分词库;表情符号库通过 收集微博平台的表情符号并给出权值得到。
步骤(1)~(3)为数据采集及预处理过程,具体流程图见图2。
(4)采用基于词频的层间向上聚合算法建立用户感兴趣话题库,如图3所 示,步骤如下:
(4-1)建立话题树:过滤掉用户文本数据中没有话题意义的词语,得到有 明显话题信息的词语,利用分类词库,统计词频,建立话题树;所述话题树为 层次化结构,第一层为一级话题分类,第二层为二级子话题分类,第三层为三 级子话题分类;所述没有话题意义的词语包括程度词、否定词、人称代词、虚 词、衔接词、形容词;
图4为由某用户的微博数据建立的话题树。方框内对应的数字为该话题词 和其子话题词出现的次数。
(4-2)根据话题树,通过基于词频的层间向上聚合算法,逐层提取高频话 题:对每一个话题词,若其出现次数高于设定的阈值,则该话题为高频话题, 否则,将该话题词的出现次数传给其父层话题词,逐层计算提取高频话题;话 题词的出现次数包括该话题本身的出现次数和其子话题的出现次数;
操作示例如图5所示,图中带虚线方框表示提取出的高频话题,共提取出 了四个高频话题。
(4-3)建立一个主分支,用于放置无法归入父层话题的话题词和网络上流 行的特有话题词或词组,得到常用话题库,这一分支没有分层架构;将微博数 据中的词语与常用话题库中的词语进行匹配对应,将在用户的微博数据中出现 次数超过阈值的话题词语提取出来,也作为高频话题;
(4-4)将步骤(4-2)和(4-3)得到的高频话题作为用户感兴趣话题词, 建立用户感兴趣话题库。
(5)将步骤(1)采集到的数据划分短句,确保每一个短句至多含有一个 感兴趣话题词;
所述将步骤(1)采集到的数据划分短句,具体为:分析每一条微博数据, 若一条微博数据中没有话题词或只涉及一个话题,则整条微博作为一个短句; 若一条微博数据中含有多个话题词,则结合标点符号优先程度分析:如果两个 距离最大的话题词之间有标点,则在标点处分拆成两个短句;如果两个距离最 大的话题词之间没有标点,那么查看次大距离的话题词;如果都没有标点,则 不拆分,整条微博数据作为一个短句;所述距离为在话题树中从一个话题词到 达另一个话题词所要通过的树支数;若两个话题词之间有多个标点,则选取优 先度高的标点处进行划分:标点符号优先度中,句号>分号>逗号。
(6)提取每个短句中的情感元素,计算每个短句的初始情感值:
(6-1)将短句的词语集合与各词库和表情符号库进行匹配映射,标记出各 类情感元素;所述情感元素包括情感词、程度词、否定词、标点符号、表情符 号,其中程度词和标点符号都用于调整情感词的程度,否定词用于调整情感词 的极性;
(6-2)计算短句中文本的情感值:
设置情感元素的权值:正面情感词权值为“+1”,负面情感词权值为“-1”; 否定词权值为“-1”;程度词和标点符号按照其程度的深浅,设置权值,权值范 围为0到3;程度词和标点符号所影响的情感词遵循就近原则,即每个程度词或 标点符号影响距离它最近的情感词的情感程度;
权值设置举例如表1~4:
表1hownet情感词
表2常用程度词权值
表3常用否定词权值
表4标点符号权值
短句中文本的情感值Iwords的计算方法为:
式中,qi表示第i个情感词,cij表示修饰qi的第j个程度词权值,fij表示修 饰qi的第j个否定词权值;若qi没有附带程度词,则cij取默认值1;若qi没有 附带否定词,则fij取默认值1;n取修饰qi的程度词个数和修饰qi的否定词个 数中的最大值,m表示情感词的个数,b表示标点符号对应的权值,i,j都为正 整数;
(6-3)计算短句中表情符号的情感值:
对于微博运营方提供的表情,将其对于情感倾向的贡献分为正面,负面, 中性三种情况:正面表情符号的权值设为“+1”,负面表情符号的权值设为“-1”, 中性表情符号的权值设为“0”;
表情符号权值的具体设置举例如图6所示。
短句中表情符号情感值Imarks的计算方法为:
式中,mi表示第i个表正面、负面或中性情感的表情,i为正整数,l为表情 符号个数;
(6-4)计算短句的初始情感值I0:
I0=Iwords+Imarks;
(7)对步骤(2)处理后的文本数据,利用词语滑动窗口法提取高频的词 语组合,得到用户个性化惯用语列表;
设滑动窗口的窗口长度为W,W即滑动窗口包含的词语数,先后分别取1、 2、3、4;利用词语滑动窗口统计所有短句中,每个词语或词组出现的总次数, 将出现次数大于阈值(不同窗口会有不同阈值,窗口长度越小,所要求的阈值 越高)的词语或词组列入用户惯用语列表;其中,W=1时,只对形容词和语气 词进行统计处理。对于词组,以词语数最多的词组列入惯用语列表。另外,采 用自建的日常表述词组库剔除由于中文语法造成的无明显情感指向的日常表述 词组,具体做法为:人工收集中文常用词语搭配,如“我的”、“现在的”“起来” 等,以对照剔除惯用语列表中的无明显情感指向的日常表述词组。由此,得到 用户个性化惯用语列表。
图7为W取1时词语滑动窗口提取词语组合的示例图。
图8为W取3时词语滑动窗口提取词语组合的示例图。
(8)对包含各条惯用语的所有短句的初始情感值进行统计分析,计算各条 惯用语的情感值,如图9所示,具体过程如下:
对于每条惯用语,找出所有含有该惯用语的短句,将其初始情感值求和平 均,计算方法如下:
式中,I0i为第i句包含该惯用语的短句的初始情感值,p为含有该惯用语的 短句数,Ig为该惯用语的情感初值;
考虑到理论上Ig的取值为无穷大,但是其大多数数值又分布在10附近,所 以根据公式(1)将Ig(作为式中的x)的值映射在[-3,3]中,得到惯用语的情感 值I’g(作为式中的y),记录在该用户的个性化惯用语情感标记表中;
步骤(7)~(8)的具体流程图见图10。
(9)计算每个短句的个性化情感值,计算方法为:减去初始情感值中包含 惯用语或惯用语中任何词语的情感元素计算值,然后加上按照用户个性化惯用 语列表计算的惯用语的情感值,得到短句的个性化情感值,即:
式中,I0为前面计算的短句的初始情感值,cgij、fgij、qgi是惯用语中词语的 相关计算值,qgi表示第i个词语,cgij表示修饰qgi的第j个程度词权值,fgij表示修 饰qgi的第j个否定词权值;若qgi没有附带程度词,则cgij取默认值1;若qgi没有 附带否定词,则fgij取默认值1;n'取修饰qgi的程度词的个数和修饰qgi的否定词 的个数中的最大值,m'表示词语的个数,i,j都为正整数;I'gk表示第k个惯用语 的情感值,r表示该短句中惯用语的个数。
(10)计算用户感兴趣话题的情感倾向:
对于用户感兴趣话题库中的任一用户感兴趣话题词,按下式计算其情感值:
式中,Ij为包含该用户感兴趣话题词的第j个短句的个性化情感值,w为包 含该用户感兴趣话题词的短句总数,为该用户感兴趣话题词的情感值;
根据公式(1)将(作为式中的x)的值映射在[-3,3]中,得到最终的 用户感兴趣话题情感倾向值(作为式中的y)。利用这些值,建立用户个性化微 博话题情感值列表,如表5所示。
表5用户个性化微博话题情感值列表
进行步骤(10)之后,还可对用户的总体情感倾向进行计算,即进行以下 步骤:
(11)计算用户的总体情感倾向:
根据下式计算用户总体情感倾向值:
式中,Ii表示第i个短句的情感值,s表示短句总数。
步骤(5)~(11)的具体流程图见图11。
一般说来,微博信息量越大,用户感兴趣话题库中的话题词则越丰富,用 户的情感倾向分析也越准确。所以,对微博用户的情感倾向分析应定时重复进 行,覆盖旧的结果。这是一种对用户的情感分析定时升级的机制,可使结果更 全面、准确,更具时效性。
其中,由于更新过程中用户惯用语列表会有新的惯用语加入,本实施例的 微博用户个性化情感倾向分析方法采用以下方法对步骤(1)~(11)的分析结 果进行更新:
进行步骤(11)之后,还进行以下步骤:
(12)重复进行步骤(1)~(7),对于用户个性化惯用语列表中新加入的 惯用语,由步骤(8)计算得到该惯用语的情感值I’g;对于本次循环之前已记录 在用户个性化惯用语列表中的惯用语,则按以下方法更新I‘g:对每条惯用语, 首先进行步骤(8),得到本轮循环的Ig的计算值Ig_new,设Ig_prev为上一轮循环 得到的Ig的计算值,则Ig更新为:
Ig=ω1Ig_prev+ω2Ig_new
式中,ω1为Ig_prev的权值,ω2为Ig_new的权值;
将Ig的值映射在[-3,3]中,得到惯用语的情感值I’g;
(13)根据步骤(12)得到的I’g,进行后续的步骤(9)~(11)。
由于更新过程中用户感兴趣话题库会有新的用户感兴趣话题词加入,本实 施例的微博用户个性化情感倾向分析方法采用以下方法对步骤(1)~(11)的 分析结果进行更新:
进行步骤(11)之后,还进行以下步骤:
(14)重复进行步骤(1)~(9),对于本次循环中在用户感兴趣话题库新 加入的用户感兴趣话题词,按步骤(10)的方法计算用户的话题情感倾向;对 于本次循环之前已记录在用户感兴趣话题库中的用户感兴趣话题词,则按以下 方法更新用户的话题情感倾向Itopic:首先进行步骤(10),得到本轮循环的Itopic的计算值Itopic_new,设Itopic_prev为上一轮循环得到Itopic的计算值,则Itopic更新为:
Itopic=ω'1Itopic_prev+ω'2Itopic_new
ω'1为Itopic_prev的权值,ω'2为Itopic_new的权值。
常用话题库的更新方法:定期查看微博主页中热点话题一栏,把其中的话 题加入到常用话题库中;另外,定时查看QQ输入法分类词库的更新,把新的词 条加进分类词库里。
如图12所示,本实施例的微博用户个性化情感倾向分析系统,包括
数据采集模块,用于采集每个用户的微博主页的所有数据,存入数据库;
分词模块,用于对采集到的数据中的文本数据进行分词,得到分词集合和 词性标注;
词库加载模块:用于加载所需词库、表情符号库;所述词库包括hownet情 感词词库,程度词库,否定词库,人称代词词库,虚词衔接词库,网络用语词 库和分类词库;
用户感兴趣话题库建立模块:用于采用基于词频的层间向上聚合算法建立 用户感兴趣话题库:
短句划分模块,用于将数据采集模块采集到的数据划分短句,确保每一个 短句至多含有一个感兴趣话题词;
情感元素提取模块,用于提取每个短句中的情感元素,计算每个短句的初 始情感值;
用户个性化惯用语列表建立模块,用于对数据采集模块采集到的数据,利 用词语滑动窗口法提取高频的词语组合,得到用户个性化惯用语列表;
惯用语情感值计算模块,用于对包含各条惯用语的所有短句的情感值进行 统计分析,得出惯用语的情感值:
短句情感值计算模块,用于计算每个短句的个性化情感值;
用户的话题情感倾向计算模块,用于计算用户各感兴趣话题的情感倾向;
用户总体情感倾向计算模块,用于计算用户的总体情感倾向。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实 施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、 替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
机译: 微博中用户群结构的发现与分析方法及系统
机译: 微博用户群结构的发现与分析方法及系统
机译: 用户个性化信息管理系统和一种管理用户个性化信息的方法。