首页> 中国专利> 本土人格评估方法、系统、存储介质和电子设备

本土人格评估方法、系统、存储介质和电子设备

摘要

本发明提供一种本土人格评估方法、系统、存储介质和电子设备,涉及人格评估技术领域。本发明获取并预处理用户的社交媒体数据,获取社交媒体数据的向量表示;根据预处理后的社交媒体数据,采用统计学习方法获取第一人格特征表示;根据向量表示和预处理后的社交媒体数据,采用深度学习算法获取第二人格特征表示;融合第一人格特征表示和第二人格特征表示,获取用户的本土人格表示。本发明通过对用户的社交媒体信息进行分析,属于无接触无问卷式的方法,所得到的数据是用户在自然状态下产生的,不仅减少设置特定情境或者使用特定设备对测试者带来的心理干扰,同时缓解用户主观意图对测试结果的影响;本发明提供的本土人格分析方法评估人格,准确度高。

著录项

说明书

技术领域

本发明涉及人格评估技术领域,具体涉及一种本土人格评估方法、系统、存储介质和电子设备。

背景技术

人格是人对现实的稳定态度,以及与这种态度相应的、习惯化了的行为方式中表现出来的个性心理特征,它表现了人们对世界的态度,并体现在自己的言行上。

目前,常用的人格评估方法主要包括基于问卷调查和基于传感器采集生理信息技术。其中,基于问卷调查技术主要形式为通过填写调查问卷进行人格测验评估;基于传感器采集生理信息技术主要形式为通过各种不同的传感器采集生理信息(皮肤电阻,语音信号等)进行人格预测。

但是,上述现有的人格评估方法都存在着描述人格不准确的缺陷,亟待人们解决。

发明内容

(一)解决的技术问题

针对现有技术的不足,本发明提供了一种本土人格评估方法、系统、存储介质和电子设备,解决了现有的人格评估方法描述人格不准确的技术问题。

(二)技术方案

为实现以上目的,本发明通过以下技术方案予以实现:

一种本土人格评估方法,包括:

S1、获取并预处理用户的社交媒体数据,获取社交媒体数据的向量表示;

S2、根据预处理后的社交媒体数据,采用统计学习方法获取第一人格特征表示;

S3、根据所述向量表示和预处理后的社交媒体数据,采用深度学习算法获取第二人格特征表示;

S4、融合所述第一人格特征表示和第二人格特征表示,获取用户的本土人格表示。

优选的,所述步骤S2具体包括:

S21、统计国际通用的大五人格表示词在预处理的社交媒体数据中出现的第一频率;

S22、统计本土人格词典中的表示词在预处理后的社交媒体数据中出现的第二频率;

S23、根据所述预处理后的社交媒体数据,确定用户的用词偏好;

S24、根据所述第一频率、第二频率和用词偏好,采用统计学习方法获取第一人格特征表示。

优选的,所述统计学习方法包括主成分分析法或TF-IDF算法。

优选的,所述步骤S3具体包括:

S31、根据所述向量表示,结合国际通用的人格表示词典,获取第三人格特征表示;

S32、将预处理后的社交媒体数据输入预先训练的情感分类模型中,获取情感向量表示;

S33、拼接所述第三人格特征表示和情感向量表示,获取第二人格特征表示。

优选的,所述步骤S4具体包括:

融合所述第一人格特征表示和第二人格特征表示后,与本土化人格词典中每个词的向量表示计算相似度,获取用户在本土化人格词典中每个词的得分对应的向量,即用户的本土人格表示。

优选的,所述步骤S1中预处理社交媒体数据前还包括数据清洗。

优选的,所述数据清洗包括内容去重、低频词/低频用户删除或者异常信息处理。

一种本土人格评估系统,包括:

获取模块,用于获取并预处理用户的社交媒体数据,获取社交媒体数据的向量表示;

第一学习模块,用于根据预处理后的社交媒体数据,采用统计学习方法获取第一人格特征表示;

第二学习模块,用于根据所述向量表示和预处理后的社交媒体数据,采用深度学习算法获取第二人格特征表示;

融合模块,用于融合所述第一人格特征表示和第二人格特征表示,获取用户的本土人格表示。

一种存储介质,其存储用于本土人格评估的计算机程序,其中,所述计算机程序使得计算机执行如上述任一项所述的本土人格评估方法。

一种电子设备,其特征在于,包括:

一个或多个处理器;

存储器;以及

一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上述任一项所述的本土人格评估方法。

(三)有益效果

本发明提供了一种本土人格评估方法、系统、存储介质和电子设备。与现有技术相比,具备以下有益效果:

本发明获取并预处理用户的社交媒体数据,获取社交媒体数据的向量表示;根据预处理后的社交媒体数据,采用统计学习方法获取第一人格特征表示;根据所述向量表示和预处理后的社交媒体数据,采用深度学习算法获取第二人格特征表示;融合所述第一人格特征表示和第二人格特征表示,获取用户的本土人格表示。与现有技术相比,本发明通过对用户的社交媒体信息进行分析,属于无接触无问卷式的方法,而且所得到的数据均是用户在自然状态下产生的,不仅减少了设置特定情境或者使用特定设备对测试者带来的心理干扰,同时缓解了用户主观意图对测试结果的影响;使用本发明提供的本土人格分析方法进行人格评估,准确度高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种本土人格评估方法的流程示意图;

图2为本发明实施例提供的一种本土人格评估系统的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本申请实施例通过提供一种本土人格评估方法、系统、存储介质和电子设备,解决了现有的人格评估方法描述人格不准确的技术问题,实现提高人格评估准确度的有益效果。

本申请实施例中的技术方案为解决上述技术问题,总体思路如下:

本发明实施例获取并预处理用户的社交媒体数据,获取社交媒体数据的向量表示;根据预处理后的社交媒体数据,采用统计学习方法获取第一人格特征表示;根据所述向量表示和预处理后的社交媒体数据,采用深度学习算法获取第二人格特征表示;融合所述第一人格特征表示和第二人格特征表示,获取用户的本土人格表示。与现有技术相比,本发明实施例通过对用户的社交媒体信息进行分析,属于无接触无问卷式的方法,而且所得到的数据均是用户在自然状态下产生的,不仅减少了设置特定情境或者使用特定设备对测试者带来的心理干扰,同时缓解了用户主观意图对测试结果的影响;使用本发明实施例提供的本土人格分析方法进行人格评估,准确度高。

为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

如图1所示,本发明实施例提供一种本土人格评估方法,包括:

S1、获取并预处理用户的社交媒体数据,获取社交媒体数据的向量表示;

S2、根据预处理后的社交媒体数据,采用统计学习方法获取第一人格特征表示;

S3、根据所述向量表示和预处理后的社交媒体数据,采用深度学习算法获取第二人格特征表示;

S4、融合所述第一人格特征表示和第二人格特征表示,获取用户的本土人格表示。

与现有技术相比,本发明实施例通过对用户的社交媒体信息进行分析,属于无接触无问卷式的方法,而且所得到的数据均是用户在自然状态下产生的,不仅减少了设置特定情境或者使用特定设备对测试者带来的心理干扰,同时缓解了用户主观意图对测试结果的影响;使用本发明实施例提供的本土人格分析方法进行人格评估,准确度高。

实施例:

第一方面,如图1所示,本发明实施例提供了一种本土人格评估方法,具体包括:

S1、获取并预处理用户的社交媒体数据,获取社交媒体数据的向量表示。

本发明实施例利用爬虫技术从包括微博,豆瓣等在内的社交媒体平台爬取用户发布的各种数据,主要包括文字,图片等信息。

考虑到原始数据比较杂乱,噪声比较高,某些用户的社交媒体数据过少等问题,预处理社交媒体数据前还包括数据清洗,具体包括:

内容去重:针对每一个用户,将用户发表的每一条信息作为一个字符串,直接对比任意两个字符串是否相同,相同的字符串仅保留一条。

低频词/低频用户删除:针对低频词,首先在爬取到的整个数据上统计得到的每个词出现的频率,设定频率阈值f

异常信息处理:考虑到本发明实施例的目的是为了构建本土人格词典,主要以字词为主,因此例如链接,表情图片,特殊符号之类的并不属于分析的对象,应该去除。

所以针对爬取到的文本数据中包含的异常信息,例如链接,表情图片等,可以通过Unicode编码查询的形式删除非文本内容,基本汉字的编码范围为4E00-9FA5,删除所有不属于这些范围的信息。

所述预处理用户的社交媒体数据包括:

首先通过已有的分词技术(例如Jieba分词)对进行数据清洗后的文本内容进行分词;同时利用命名实体识别,词性标注等方法(例如斯坦福大学的CoreNLP工具,HanLP等)为文本内容补充信息,标注出每个词的词性(形容词,名词,连词,副词,方位词等)。

此外,本发明实施例还采用情感分类模型为每一条所述社交媒体数据标注情感评分。例如将情感划分为5类,1表示最消极,5表示最积极。

同时借助注意力机制抽取对当前数据情感贡献最大的词语。假设社交媒体数据中单个句子S可以表示为

S=[s

其中,s

利用注意力机制抽取其中贡献最大的词语具体包括:

m=ω

其中,[ω,W,b]是注意力机制计算的参数,m是计算得到的注意力权值。

α=soft max(m) (3)

其中,α是经过归一化之后的注意力概率分布,softmax是归一化函数。

[j

Index(Top-k)表示取值最大的前k个值对应的索引,k根据具体需求提前设定,[j

其中,s

将所有句子重复执行上述步骤,并采用Word2Vec,BERT等工具处理,得到每条数据信息的向量表示h

S2、根据预处理后的社交媒体数据,采用统计学习方法获取第一人格特征表示。

社交媒体数据预处理之后,分别利用国际通用的大五人格表示词典,本土人格词典(例如现有的中文人格词典),结合统计学习中的主成分分析,TF-IDF等方法,识别每个用户的用词习惯,结合人格词典中的人格描述词统计用户在不同人格上的用词偏好(风格),用词习惯分布,最常用词频率与最不常用词频率之间的差异(比率)等,从统计分析的角度生成用户人格特征表示。

具体包括:

S21、统计国际通用的大五人格表示词在预处理的社交媒体数据中出现的第一频率。

S22、统计本土人格词典中的表示词在预处理后的社交媒体数据中出现的第二频率。

S23、根据所述预处理后的社交媒体数据,确定用户的用词偏好。

本发明实施例采用TF-IDF方法抽取预处理后的社交媒体数据抽取Top-k个词,即用户的用词偏好。

S24、根据所述第一频率、第二频率和用词偏好,采用统计学习方法获取第一人格特征表示。

具体来说,根据用户所使用的人格表示词在整个文档中所占的比例,各类表示不同人格的人格词之间的使用频率差异,最常用的词与最不常用的词频率之间的差异等,从统计学习角度生成用户的第一人格特征表示r

S3、根据所述向量表示和预处理后的社交媒体数据,采用深度学习算法获取第二人格特征表示,具体包括:

S31、根据所述向量表示,结合国际通用的人格表示词典,获取第三人格特征表示。

结合深度学习中的预训练模型(Pre-Trained Models,PTM)和语言模型(LanguageModel,LM)首先对整个预处理后的社交媒体数据中的文本句子进行处理。

具体而言,假设文本句子的表示为S=[s

(h

其中,h

通过上述操作,就能够得到预处理后的社交媒体数据的每个词的向量表示,以及国际通用的人格表示词典以及本土化人格词典中的词均可以以向量的形式表示。

在此基础上,使用预训练好的模型分别处理用户发布社交媒体数据的文本句子和图像信息(例如处理文本的BERT,处理图像的ResNet),分别得到两者的特征表示向量。

然后使用一个门控结构实现对这两种数据信息的融合,得到用户发布的单条数据信息的向量表示,该过程可以表示为:

其中,S

计算用户单条数据信息和整个国际通用的人格表示词典中词的向量表示的相似度或者距离得到用户的单条输入在人格词典上的人格特征表示v

v

其中,Sim表示计算相似度或者距离函数(例如cosine相似度,欧拉距离等),V是国际通用的人格表示词典的所有词的向量,以矩阵的形式进行表示。

将每个用户对应的所有数据信息对应所有人格特征表示求平均,就得到了用户对应的第三人格特征表示v

v

其中,Avg表示求平均操作;N表示用户发表社交媒体数据的信息数,与具体用户相关。

S32、将预处理后的社交媒体数据输入预先训练的情感分类模型中,获取情感向量表示。

本发明实施例通过情感分类模型得到用户整篇文档上的情感倾向。

用户的单条信息可以用h

S33、拼接所述第三人格特征表示和情感向量表示,获取第二人格特征表示。

拼接所述第三人格特征表示v

S4、融合所述第一人格特征表示和第二人格特征表示,获取用户的本土人格表示。

融合所述第一人格特征表示和第二人格特征表示后,与本土化人格词典中每个词的向量表示计算相似度,获取用户在本土化人格词典中每个词的得分对应的向量,即用户的本土人格表示。

具体而言,将r

其中,⊙表示向量点乘操作。

得到用户在每个人格表示词上的得分,根据得分实现本土人格的评估预测:

其中,Sim

第二方面,如图2所示,本发明实施例提供一种本土人格评估系统,包括:

获取模块,用于获取并预处理用户的社交媒体数据,获取社交媒体数据的语义向量表示;

第一学习模块,用于根据预处理后的社交媒体数据,采用统计学习方法获取第一人格特征表示;

第二学习模块,用于根据所述语义向量表示和预处理后的社交媒体数据,采用深度学习算法获取第二人格特征表示;

融合模块,用于融合所述第一人格特征表示和第二人格特征表示,获取用户的本土人格表示。

可理解的是,本发明提供的本土人格评估系统与本发明提供的本土人格评估方法相对应,其有关内容的解释、举例和有益效果等部分可以参考本土人格评估方法中的相应部分,此处不再赘述。

第三方面,本发明实施例提供一种存储介质,其存储用于本土人格评估的计算机程序,其中,所述计算机程序使得计算机执行如上述任一项所述的本土人格评估方法。

第四方面,本发明实施例提供一种电子设备,包括:

一个或多个处理器;

存储器;以及

一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上述任一项所述的本土人格评估方法。

综上所述,与现有技术相比,具备以下有益效果:

本发明实施例获取并预处理用户的社交媒体数据,获取社交媒体数据的向量表示;根据预处理后的社交媒体数据,采用统计学习方法获取第一人格特征表示;根据所述向量表示和预处理后的社交媒体数据,采用深度学习算法获取第二人格特征表示;融合所述第一人格特征表示和第二人格特征表示,获取用户的本土人格表示。与现有技术相比,本发明实施例通过对用户的社交媒体信息进行分析,属于无接触无问卷式的方法,而且所得到的数据均是用户在自然状态下产生的,不仅减少了设置特定情境或者使用特定设备对测试者带来的心理干扰,同时缓解了用户主观意图对测试结果的影响;使用本发明实施例提供的本土人格分析方法进行人格评估,准确度高。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号