首页> 中国专利> 面向社交媒体文本抑郁倾向性分析的基于排序学习模型的特征加权方法

面向社交媒体文本抑郁倾向性分析的基于排序学习模型的特征加权方法

摘要

一种面向社交媒体文本抑郁倾向性分析的基于排序学习模型的特征加权方法,该方法包括以下步骤:S1、采集和预处理社交媒体文本数据;S2、面向抑郁情绪的文本特征抽取;S3、训练排序模型;S4、基于排序模型的抑郁风险评估。采集社交媒体文本上用户所发布的文本数据,文本数据包括“抑郁”话题下的数据和其他话题下的数据,“抑郁”话题下的数据作为模型训练中的正样本,其他话题下的数据作为模型训练的负样本;本发明将基于社交媒体的抑郁检测看作是风险评估问题,进而利用排序学习算法,对于具有潜在抑郁风险的社交媒体用户进行风险水平的排序,有益于早期检测出具有抑郁倾向的用户,有针对性的开展心理疏导和临床治疗。

著录项

  • 公开/公告号CN113268582A

    专利类型发明专利

  • 公开/公告日2021-08-17

    原文格式PDF

  • 申请/专利权人 大连理工大学;

    申请/专利号CN202110559680.0

  • 申请日2021-05-21

  • 分类号G06F16/335(20190101);G06F16/9537(20190101);G06F40/216(20200101);G06F40/242(20200101);G06Q50/00(20120101);G16H20/70(20180101);

  • 代理机构21235 大连智高专利事务所(特殊普通合伙);

  • 代理人李猛

  • 地址 116024 辽宁省大连市甘井子区凌工路2号

  • 入库时间 2023-06-19 12:14:58

说明书

技术领域

本发明涉及抑郁检测和风险评估,尤其是一种面向社交媒体文本抑郁倾向性分析的基于排序学习模型的特征加权方法。

背景技术

近年来,心理健康日益受到大众的关注和重视,如何在保持身体健康的同时,保持健康的心理状态是提高生活质量的重要保障。抑郁症作为一种普遍性的心理疾病,严重影响患者的生活状态,危及身心健康。抑郁症的临床诊断通常采用病人自我陈述或者填写问卷等方式,患者所述内容很可能存在一定主观性和模糊性,同时,已诉诸临床诊断的患者往往已具有一段时间的抑郁倾向,这为抑郁症的治疗带来较大挑战。因此抑郁的早期检测有利于及早发现潜在的抑郁风险,通过积极引导疏导抑郁情绪,避免加重心理疾病及相关后果。如何尽早发现抑郁倾向是相关领域亟待解决的难题。

社交媒体的兴起为抑郁倾向的早期检测提供了有效的途径。具有抑郁倾向的患者往往不愿向周围人倾述,更多的愿意通过社交媒体平台表达个人情绪,因此用户在社交媒体上发布的文本内容会反映出其情绪变化特征,这些特征对于抑郁症的早期检测非常有价值。现有技术往往将抑郁检测当作二分类问题,即将社交媒体文本分类为具有抑郁情绪的文本和不具有抑郁情绪的文本,进而对具有抑郁情绪的文本进一步挖掘。相关技术虽能一定程度上早期检测抑郁倾向,但会忽略抑郁本身的特点,很难提高检测的精度。

基于以上考虑,本发明提出面向社交媒体文本抑郁倾向性分析的基于排序学习模型的特征加权方法。该方法将抑郁倾向检测当作风险评估问题,细粒度地查询用户具有抑郁倾向的分类,采用排序学习方法,结合心理学理论,检测社交媒体用户的抑郁风险。

发明内容

为了解决抑郁风险评估的问题,本发明提出一种面向社交媒体文本抑郁倾向性分析的基于排序学习模型的特征加权方法,该方法包括以下步骤:

S1、采集和预处理社交媒体文本的数据;

S2、面向抑郁情绪的文本特征抽取;

S3、训练排序模型;

S4、基于排序模型的抑郁风险评估。

进一步地,步骤S1中:

采集社交媒体文本上用户所发布的文本数据,文本数据包括“抑郁”话题下的数据和其他话题下的数据,“抑郁”话题下的数据作为模型训练中的正样本,其他话题下的数据作为模型训练的负样本;采集同一用户所发布的全部文本数据,对于同一用户u所发布的社交媒体文本,可以将其表示为{s1,s2,…si,…sn},si表示该用户所发布的任意一条社交媒体文本,每一条社交媒体文本对应一个标签,标签表明该社交媒体文本是否属于抑郁话题,1是有抑郁倾向的社交媒体文本,0是没有抑郁倾向的社交媒体文本,用户u的社交媒体文本所对应的标签表示为{y1,y2,…,yn},抑郁风险评估模型所要预测的就是用户u的每条社交媒体文本是否有抑郁倾向,即标签集合中的每一个标签值。

进一步地,步骤S2中:

文本特征抽取的目的是将用户的每一条社交媒体文本表示为特征向量的形式,特征向量作为后续模型训练的输入,考虑到抑郁的症状及特点,定义并抽取如下文本特征;

抑郁症状的文本特征1:抑郁症患者有自我否定倾向,社交媒体文本上的否定词出现的频率反映了用户抑郁倾向的程度,将否定词的频率作为文本特征,定义为f

抑郁症状2:抑郁患者具有由于认知受损导致的语言流畅性差的问题,反映到社交媒体文本中就是用户所发布的社交媒体文本文字的流畅性和可读性程度,为对文字的流畅性和可读性进行定量评估和特征抽取,在机器翻译和文本摘要任务中,句子的流畅度通过BLEU指标衡量,定义如下特征:

首先基于给定社交媒体文本句子s利用搜索引擎进行检索,将检索的得到的相关句子表示为T={t1,t2,t3…},统计给定社交媒体文本句子s中n-gram数和相关句子T中的n-gram数量,用以计算Pt,t=1,…,N,即社交媒体文本句子s中n-gram在相关句子数中的比率,例如P1=(s中1-gram在T中出现的次数)/(s中1-gram的数量);n-gram中n是一个变量,表示n元语言模型,下文具体解释的内容就是1-gram,2-gram的含义,这是领域常用的概率统计方法,用于统计词与词之间的共同出现的频率。

例如,s=今天天气很好,设n=2,那么社交媒体文本句子s中1-gram分别为{今,天,天,气,很,好};社交媒体文本句子s中2-gram分别为{今天,天天,天气,气很,很好}

前文通过检索相关的句子,判断句子与社交媒体文本的相似性,即判断社交媒体文本中的字词在其他相关句子中是否频繁出现。检索得到相关句子T分别为:今天天气很棒,昨天天气还行,那么T中的1-gram分别为{今,天,天,气,很,棒,昨,天,天,气,还,行},2-gram分别为{今天,天天,天气,气很,很棒,昨天,天天,天气,气还,还行}

P1=(1+4+4+2+1)/6=2

P2=(1+2+2+1)/5=1.2

带入公式求得f2的值;

抑郁症状3:抑郁倾向的患者具有晨重夜轻的随时间变化的规律,将社交媒体文本发布的时间作为一个特征值,定义如下特征:

f3=num(t,t+1),其中num(t)表示用户在t至t+1时间段发布的社交媒体文本数量,t取{0,1,2,…,23},表示一天中的0点到23点;

类似的定义特征f4=num(t,t+1)/num(t-12,t+12)表示用户在某一个小时内发布的社交媒体文本数量占24小时内发布数量的比例;

抑郁症状4:具有抑郁倾向的患者不愿意直接表达自己的真实情绪,转而采用一些隐喻、暗喻的方式加以表达,同时伴随有情绪的波动,比喻词汇或者情绪词反应出抑郁的程度,定义如下特征:

f5=用户出现隐喻的社交媒体文本数量/社交媒体文本总数,其中出现隐喻的社交媒体文本是指社交媒体文本中出现{像,似,如,若}等的社交媒体文本;

f6=包含感官动词的社交媒体文本数/社交媒体文本总数,其中感官动词包括{感觉,感到,看到,听见,看见}等动词;

f7=包含情感词的社交媒体文本数/社交媒体文本总数,其中情感词包含情感词典中的词;

抑郁症状5:具有抑郁倾向的用户具有躯体症状,即感觉身体部位的不适,通过社交媒体文本中包含的症状词汇加以衡量;

f8=包含症状词汇的社交媒体文本数量/社交媒体文本总数,症状词汇包括但不限定于:呼吸困难,心悸,胸闷,心跳加速,胀气,反胃,恶心,胃痉挛,累,疼痛,眩晕词。

进一步地,步骤S3中:

将用户u所发布的每一条社交媒体文本表示为特征向量F={f1,f2,f3,…,f8},将特征向量F作为排序学习模型训练的输入数据,训练得到抑郁风险评估模型;

排序学习训练的目的是学习一个打分函数

L(g;s,y)=-log P(y|g(w,s))

y表示给定用户的社交媒体文本的真实标签序列{y1,y2,…,yn},真实标签由社交媒体文本的话题标签给出,对于话题标签为“抑郁”的社交媒体文本标签设置为1,否则标签设置为0,上述损失函数L(g;s,y)采用计算真实标签序列和打分函数预测的标签序列之间的极大似然概率值求得,对于任意给定用户,g得出的社交媒体文本排序和真实排序越接近时,表示损失越小,采用梯度下降优化损失函数,迭代降低损失,不断优化参数w,得到最终的预测模型,即打分函数各个特征的权重值。

进一步地,步骤S4中:

给定的测试样本社交媒体文本,抽取上述特征向量F={f1,f2,f3,…,f8},利用学习得到的打分函数中的权重参数w,计算得到该社交媒体文本的抑郁风险值,作为判定用户是否具有抑郁倾向性的依据。

本发明的有益效果在于:本发明将基于社交媒体的抑郁检测看作是风险评估问题,进而利用排序学习算法,对于具有潜在抑郁风险的社交媒体用户进行风险水平的排序,有益于早期检测出具有抑郁倾向的用户,有针对性的开展心理疏导和临床治疗。

附图说明

图1为本发明操作的流程图;

图2为本发明的系统框图。

具体实施方式

本发明提出一种面向社交媒体文本文本抑郁倾向性分析的排序学习模型及特征加权方法,如图1-2所示,该方法包括以下步骤:

S1、采集和预处理社交媒体文本文本数据;

采集社交媒体文本上用户所发布的文本数据,文本数据包括“抑郁”话题下的数据和其他话题下的数据,“抑郁”话题下的数据作为模型训练中的正样本,其他话题下的数据作为模型训练的负样本;采集同一用户所发布的全部文本数据,对于同一用户u所发布的社交媒体文本,可以将其表示为{s1,s2,…si,…sn},si表示该用户所发布的任意一条社交媒体文本,每一条社交媒体文本对应一个标签,标签表明该社交媒体文本是否属于抑郁话题,1是有抑郁倾向的社交媒体文本,0是没有抑郁倾向的社交媒体文本,用户u的社交媒体文本所对应的标签表示为{y1,y2,…,yn},抑郁风险评估模型所要预测的就是用户u的每条社交媒体文本是否有抑郁倾向,即标签集合中的每一个标签值。

S2、面向抑郁情绪的文本特征抽取;

文本特征抽取的目的是将用户的每一条社交媒体文本表示为特征向量的形式,特征向量作为后续模型训练的输入,考虑到抑郁的症状及特点,定义并抽取如下文本特征;

抑郁症状的文本特征1:抑郁症患者有自我否定倾向,社交媒体文本上的否定词出现的频率反映了用户抑郁倾向的程度,将否定词的频率作为文本特征,定义为f

抑郁症状的文本特征2:抑郁患者具有由于认知受损导致的语言流畅性差的问题,反映到社交媒体文本中就是用户所发布的社交媒体文本文字的流畅性和可读性程度,为对文字的流畅性和可读性进行定量评估和特征抽取,在机器翻译和文本摘要任务中,句子的流畅度通过BLEU指标衡量,定义如下特征:

首先基于给定社交媒体文本句子s利用搜索引擎进行检索,将检索的得到的相关句子表示为T={t1,t2,t3…},统计给定社交媒体文本句子s中n-gram数和相关句子T中的n-gram数量,用以计算Pt,t=1,…,N,即社交媒体文本句子s中n-gram在相关句子数中的比率,例如P1=(s中1-gram在T中出现的次数)/(s中1-gram的数量);n-gram中n是一个变量,表示n元语言模型,下文具体解释的内容就是1-gram,2-gram的含义,这是领域常用的概率统计方法,用于统计词与词之间的共同出现的频率。

例如,s=今天天气很好,设n=2,那么社交媒体文本句子s中1-gram分别为{今,天,天,气,很,好};社交媒体文本句子s中2-gram分别为{今天,天天,天气,气很,很好}

前文通过检索相关的句子,判断句子与社交媒体文本的相似性,即判断社交媒体文本中的字词在其他相关句子中是否频繁出现。检索得到相关句子T分别为:今天天气很棒,昨天天气还行,那么T中的1-gram分别为{今,天,天,气,很,棒,昨,天,天,气,还,行},2-gram分别为{今天,天天,天气,气很,很棒,昨天,天天,天气,气还,还行}

P1=(1+4+4+2+1)/6=2

P2=(1+2+2+1)/5=1.2

带入公式求得f2的值;

抑郁症状的文本特征3:抑郁倾向的患者具有晨重夜轻的随时间变化的规律,将社交媒体文本发布的时间作为一个特征值,定义如下特征:

f3=num(t,t+1),其中num(t)表示用户在t至t+1时间段发布的社交媒体文本数量,t取{0,1,2,…,23},表示一天中的0点到23点;

类似的定义特征f4=num(t,t+1)/num(t-12,t+12)表示用户在某一个小时内发布的社交媒体文本数量占24小时内发布数量的比例;

抑郁症状的文本特征4:具有抑郁倾向的患者不愿意直接表达自己的真实情绪,转而采用一些隐喻、暗喻的方式加以表达,同时伴随有情绪的波动,比喻词汇或者情绪词反应出抑郁的程度,定义如下特征:

f5=用户出现隐喻的社交媒体文本数量/社交媒体文本总数,其中出现隐喻的社交媒体文本是指社交媒体文本中出现{像,似,如,若}等的社交媒体文本;

f6=包含感官动词的社交媒体文本数/社交媒体文本总数,其中感官动词包括{感觉,感到,看到,听见,看见}等动词;

f7=包含情感词的社交媒体文本数/社交媒体文本总数,其中情感词包含情感词典中的词;

抑郁症状的文本特征5:具有抑郁倾向的用户具有躯体症状,即感觉身体部位的不适,通过社交媒体文本中包含的症状词汇加以衡量;

f8=包含症状词汇的社交媒体文本数量/社交媒体文本总数,症状词汇包括但不限定于:呼吸困难,心悸,胸闷,心跳加速,胀气,反胃,恶心,胃痉挛,累,疼痛,眩晕词。

S3、训练排序模型;

将用户u所发布的每一条社交媒体文本表示为特征向量F={f1,f2,f3,…,f8},将特征向量F作为排序学习模型训练的输入数据,训练得到抑郁风险评估模型;

排序学习训练的目的是学习一个打分函数

L(g;s,y)=-log P(y|g(w,s))

y表示给定用户的社交媒体文本的真实标签序列{y1,y2,…,yn},真实标签由社交媒体文本的话题标签给出,对于话题标签为“抑郁”的社交媒体文本标签设置为1,否则标签设置为0,上述损失函数L(g;s,y)采用计算真实标签序列和打分函数预测的标签序列之间的极大似然概率值求得,对于任意给定用户,g得出的社交媒体文本排序和真实排序越接近时,表示损失越小,采用梯度下降优化损失函数,迭代降低损失,不断优化参数w,得到最终的预测模型,即打分函数各个特征的权重值。

S4、基于排序模型的抑郁风险评估。

给定的测试样本社交媒体文本,抽取上述特征向量F={f1,f2,f3,…,f8},利用学习得到的打分函数中的权重参数w,计算得到该社交媒体文本的抑郁风险值,作为判定用户是否具有抑郁倾向性的依据。

以上内容是结合具体的优选技术方案对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号