首页> 中国专利> 基于人际间会话信息的人际关系自动化画像方法

基于人际间会话信息的人际关系自动化画像方法

摘要

本发明公开了一种基于人际间会话信息的人际关系自动化画像方法,主要是通过提取会话信息中的频繁项集,进而挖掘频繁项集中的主题来反映关系内涵,步骤是,首先定义会话双方之间的会话信息集合,然后采用FP‑Growth算法在会话信息集合中挖掘出一个频繁项集,所述频繁项集中频繁项的长度为2到10,所述频繁项集的最小支持度的最小取值为2,最大取值为会话信息集合中会话信息的数量;根据上述挖掘出的频繁项集中提取多个关键主题词,将这些关键主题词组合后即为会话信息中的主题;最后将主题作为会话双方的关系内涵。

著录项

  • 公开/公告号CN106776895A

    专利类型发明专利

  • 公开/公告日2017-05-31

    原文格式PDF

  • 申请/专利权人 天津大学;

    申请/专利号CN201611078731.3

  • 发明设计人 王博;王渊;武贤丽;

    申请日2016-11-29

  • 分类号G06F17/30(20060101);

  • 代理机构12201 天津市北洋有限责任专利代理事务所;

  • 代理人李丽萍

  • 地址 300072 天津市南开区卫津路92号

  • 入库时间 2023-06-19 02:23:20

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-05-14

    授权

    授权

  • 2017-06-23

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20161129

    实质审查的生效

  • 2017-05-31

    公开

    公开

说明书

技术领域

本发明涉及一种人际关系画像方法,属于社会计算领域的一个重点研究问题。该方法利用人际间的会话信息对人际关系进行自动化画像。

背景技术

识别和了解人们之间的人际关系是社会计算中一个非常必要的问题,它是许多相关研究如社区发现、影响力分析、链接预测、个性化推荐等的基础。要对一个关系进行画像,可以有两个基本层次,分别是关系的特性和关系的内涵。其中,关系的特性指的是关系较为简单和易于量化的基本属性;而关系的内涵则指的是两个人之间的关系的内容。

在当前研究中,关系的内涵建模主要表现为关系的类型识别。多数情况,这些类型是已知的,例如敌友、师生、论文合作等。在更一般的情况,多数研究将关系类型抽象为简单的正负二元化类别。在这种思路下,关系的内涵分析,转化为关系的类型识别,进而转化为经典的分类问题。

但是,这种基于已知类型和分类方法的关系内涵分析不能够充分满足关系内涵分析的需要。一方面,已知的关系类型是十分有限的,人们之间的关系内涵往往十分复杂,在实际经验中,往往很难用一个简单的类型名称来准确刻画两个人之间的关系,而需要用一系列具体的描述来更为准确的刻画一个关系的内涵。另一方面,即使是已知的关系类型,往往也可以具有不同的内涵。例如同样是朋友关系,即可能是工作伙伴,也可能是具有相同的兴趣爱好。

由此可见,需要一种信息量更加丰富的方法,来实现关系的内涵的语义化的刻画。要实现这一点,人际之间的会话信息是一个非常好的资源。

在社会语言学中,语言代码不仅具有单纯语言学上的符号意义,而且蕴含着复杂的社会因素和深刻的文化意义,语言的符号体系既实现又控制着社会关系的结构。社会语言学认为社会结构与语言结构互相影响。萨丕尔-沃尔夫假设认为语言结构决定着人们对世界的看法,即语言影响思维,进而思维决定行为与社会关系。

发明内容

在本发明中,将尝试通过提取会话信息中的频繁项集,进而挖掘频繁项集中的主题来反映关系内涵,来建立一种基于会话信息的人际关系自动化画像方法。

为了解决上述技术问题,本发明提出的一种基于人际间会话信息的人际关系自动化画像方法,包括以下步骤:

步骤一、定义会话双方之间的会话信息集合:

P={P1,P2,...,Pn},P是指会话双方之间的会话信息集合;其中,Pi是指会话信息集合中的某一条会话信息;当Wi.sup>=min_sup时,将会话信息集合P中的一个单词集合Wi称为一个频繁项;其中,Wi.sup表示会话信息集合P中一个单词集合Wi的支持度,支持度为n表示在会话信息集合P中有n条信息包含单词集合Wi;min_sup用来表示会话信息集合P中一个频繁项的最小支持度;

步骤二、频繁项集的挖掘:

采用FP-Growth算法在会话信息集合P中挖掘出一个频繁项集。设会话信息集合P的大小为size,单位是kb,且会话集中共包含m条会话信息,则最小支持度的取值按照如下公式计算可得:

其中公式中的p可根据具体操作数据取0.2-0.5之间的值。除此之外,本发明还限制所述频繁项集中频繁项的长度为2到10。因为长度为1或者太长的频繁项难以说明频繁项的含义。

步骤三、提取会话信息中的主题,有下述两种方法之一:

方法一是将步骤二挖掘出的频繁项集中的频繁项按照频繁项的支持度进行降序排列,然后提取前3-5个频繁项作为主题,这些主题组合后即为会话信息中的主题;

方法二包括以下两步骤:

步骤2-1、频繁项集聚类:

首先,进行相似频繁项的过滤,过滤掉所述频繁项集中的所有子集和频繁项集中相似度很高的交叉项得到重要频繁项集;其中,交叉项指的是频繁项集中有相同单词的频繁项;F={F1,F2,...,Fm}为过滤前的频繁项集,将重要频繁项集初始化为Key_F=Φ,重要频繁项集记为Key_F;对于进行下述处理过程:

对于如果Fi是Fj的一个子集,将Fi从F移除;如果Fi是Fj的交叉项,Fi与Fj之间的Jacard相似度J(Fi,Fj)用以下公式计算:

J(Fi,Fj)=|Fi∩Fj|/|Fi∪Fj|

当Fi与Fj之间的相似度大于0.5时,将Fi从F中移除;如果对于J(Fi,Fj)均小于等于0.5时,则将Fi添加至Key_F;

重复上述处理过程直至F=Key_F;此时Key_F中的项集即为过滤后的重要频繁项集;

然后,计算过滤后的重要频繁项集Key_F中包含的全部单词在会话双方会话信息集合P中的逆向文本频率即idf值;利用所述idf值计算重要频繁项集Key_F中任意两个频繁项之间的相似度,两个频繁项之间的相似度等于两个频繁项的相关文本集之间的相似度;其中,相关文本集用以下方法求得:

通过计算过滤前的频繁项集中的Fi与会话信息集合P中的某一条会话信息Pi之间的相似度,如果Fi与Pi之间的相似度大于c,c的取值范围为0.05-0.2;则将Pi添加至Fi的相关文本集当中,最终,Fi的相关文本集用Ri进行表示,Fi与Pi之间的相似度由如下公式求得:

其中,tfij指的是Fi中的第j个单词在Pi中出现的频率,idfij指的Fi中的第j个单词的逆向文本频率,得到每个频繁项的相关文本集之后,利用相关文本集计算频繁项之间的相似度,计算公式如下:

得到任意两个频繁项之间的相似度之后,进行聚类个数的估计。

设定有一频繁项集簇,并将该频繁项集簇初始化为C={C1},C1={F1},F1是从Key_F中随机选择的一个频繁项;

对于比较Fi和C中当前所有的簇之间的相似度,频繁项Fi和簇Ck之间的相似度计算如下:

如果Csim是与Fi相似度最高的那个簇而且sim(Fi,Csim)>b,b=0.2,则将Fi添加至Csim;如果sim(Fi,Csim)<=b,则创建一个新的簇并把Fi添加至新簇;

然后,把C中的簇按照簇的大小进行降序排列,即Csort={C(1),C(2),...,C(n)};依次累加C(i)中的频繁项个数直至累加和超过Key_F中总的频繁项个数的80%;如果k是最后一个在Csort中累加的下标,则k就是最终的预估聚类个数;得到预估的聚类个数,使用K-means算法对Key_F中的所有频繁项进行聚类;

步骤2-2、提取聚类后的主题:

通过抽取聚类之后的每个类中的主题词,将这些主题词组合作为该类的主题,抽取主题词时,考虑的因素包括词的tf值、簇内支持度和簇间区分度;

对于每个类中的所有单词,按照如下公式计算每一个词的重要程度:

在此公式中,第一项、第二项、第三项分别表示词的tf值、簇内支持度和簇间区分度。其中,Wki指的是第k个类中的第i个单词,tfki指的是第k个类中的第i个单词的的tf值;|Fki|指的是在第k个类中包含单词wki的频繁项个数;|Fk|指的是第k个类中总的频繁项个数;|Fi|指的是在Key_F中包含单词Wki的频繁项个数;|F|指的是Key_F中总的频繁项个数;|Ci|指的是包含单词Wki的类的个数;|C|指的是类的总数;

得到每个单词的重要程度之后,把每个类中的单词按照其重要程度进行降序排列,然后选择前3~6个的单词作为主题词,这些主题词的组合即为该类中的主题;

步骤四、确定会话双方的关系内涵:

在本发明中,关系内涵即定义为主题,通过对主题即关系内涵的理解可以帮助理解会话双方的关系。

附图说明

图1是本发明方法流程图。

具体实施方式

下面结合附图和具体实施例对本发明技术方案作进一步详细描述,所描述的具体实施例仅对本发明进行解释说明,并不用以限制本发明。

本发明一种基于人际间会话信息的人际关系自动化画像方法,主要是通过提取会话双方会话信息中的频繁项集,进而挖掘频繁项集中的主题来反映关系内涵,具体步骤如下:

步骤一、定义会话双方之间的会话信息集合:

P={P1,P2,...,Pn},P是指会话双方之间的会话信息集合;其中,Pi是指会话信息集合中的某一条会话信息;当Wi.sup>=min_sup时,将会话信息集合P中的一个单词集合Wi称为一个频繁项;其中,Wi.sup表示会话信息集合P中一个单词集合Wi的支持度,支持度为n表示在会话信息集合P中有n条信息包含单词集合Wi;min_sup用来表示会话信息集合P中一个频繁项的最小支持度;

步骤二、频繁项集的挖掘:

采用FP-Growth算法在会话信息集合P中挖掘出一个频繁项集。设会话信息集合P的大小为size,单位是kb,且会话集中共包含m条会话信息,则最小支持度的取值按照如下公式计算可得:

其中公式中的p可根据具体操作数据取0.2-0.5之间的值。除此之外,本发明还限制所述频繁项集中频繁项的长度为2到10。因为长度为1或者太长的频繁项难以说明频繁项的含义。

步骤三、提取会话信息中的主题,有下述两种方法之一:

方法一是将步骤二挖掘出的频繁项集中的频繁项按照频繁项的支持度进行降序排列,然后提取前3-5个频繁项作为主题,这些主题组合后即为会话信息中的主题;

方法二包括以下两步骤:

步骤2-1、频繁项集聚类:

首先,进行相似频繁项的过滤,过滤掉所述频繁项集中的所有子集和频繁项集中相似度很高的交叉项得到重要频繁项集;其中,交叉项指的是频繁项集中有相同单词的频繁项;F={F1,F2,...,Fm}为过滤前的频繁项集,将重要频繁项集初始化为Key_F=Φ,重要频繁项集记为Key_F;对于进行下述处理过程:

对于如果Fi是Fj的一个子集,将Fi从F移除;如果Fi是Fj的交叉项,Fi与Fj之间的Jacard相似度J(Fi,Fj)用以下公式计算:

J(Fi,Fj)=|Fi∩Fj|/|Fi∪Fj|

当Fi与Fj之间的相似度大于0.5时,将Fi从F中移除;如果对于J(Fi,Fj)均小于等于0.5时,则将Fi添加至Key_F;

重复上述处理过程直至F=Key_F;此时Key_F中的项集即为过滤后的重要频繁项集;

然后,计算过滤后的重要频繁项集Key_F中包含的全部单词在会话双方会话信息集合P中的逆向文本频率即idf值;利用所述idf值计算重要频繁项集Key_F中任意两个频繁项之间的相似度,两个频繁项之间的相似度等于两个频繁项的相关文本集之间的相似度;其中,相关文本集用以下方法求得:

通过计算过滤前的频繁项集中的Fi与会话信息集合P中的某一条会话信息Pi之间的相似度,如果Fi与Pi之间的相似度大于c,c的取值范围为0.05-0.2;则将Pi添加至Fi的相关文本集当中,最终,Fi的相关文本集用Ri进行表示,Fi与Pi之间的相似度由如下公式求得:

其中,tfij指的是Fi中的第j个单词在Pi中出现的频率,idfij指的Fi中的第j个单词的逆向文本频率,得到每个频繁项的相关文本集之后,利用相关文本集计算频繁项之间的相似度,计算公式如下:

得到任意两个频繁项之间的相似度之后,进行聚类个数的估计。

设定有一频繁项集簇,并将该频繁项集簇初始化为C={C1},C1={F1},F1是从Key_F中随机选择的一个频繁项;

对于比较Fi和C中当前所有的簇之间的相似度,频繁项Fi和簇Ck之间的相似度计算如下:

如果Csim是与Fi相似度最高的那个簇而且sim(Fi,Csim)>b,b=0.2,则将Fi添加至Csim;如果sim(Fi,Csim)<=b,则创建一个新的簇并把Fi添加至新簇;

然后,把C中的簇按照簇的大小进行降序排列,即Csort={C(1),C(2),...,C(n)};依次累加C(i)中的频繁项个数直至累加和超过Key_F中总的频繁项个数的80%;如果k是最后一个在Csort中累加的下标,则k就是最终的预估聚类个数;得到预估的聚类个数,使用K-means算法对Key_F中的所有频繁项进行聚类;

步骤2-2、提取聚类后的主题:

通过抽取聚类之后的每个类中的主题词,将这些主题词组合作为该类的主题,抽取主题词时,考虑的因素包括词的tf值、簇内支持度和簇间区分度;

对于每个类中的所有单词,按照如下公式计算每一个词的重要程度:

在此公式中,第一项、第二项、第三项分别表示词的tf值、簇内支持度和簇间区分度。其中,Wki指的是第k个类中的第i个单词,tfki指的是第k个类中的第i个单词的的tf值;|Fki|指的是在第k个类中包含单词wki的频繁项个数;|Fk|指的是第k个类中总的频繁项个数;|Fi|指的是在Key_F中包含单词Wki的频繁项个数;|F|指的是Key_F中总的频繁项个数;|Ci|指的是包含单词Wki的类的个数;|C|指的是类的总数;

得到每个单词的重要程度之后,把每个类中的单词按照其重要程度进行降序排列,然后选择前3~6个的单词作为主题词,这些主题词的组合即为该类中的主题;

步骤四、确定会话双方的关系内涵:

在本发明中,关系内涵即定义为主题,通过对主题即关系内涵的理解可以帮助理解会话双方的关系。

本发明实验材料1:安然邮件数据集实验

首先采集了安然公司的邮件数据,共得到1078对用户之间的邮件集合。该数据集的特点是:规范度较强、会话信息较长。

利用主题反映关系内涵,利用本发明方法在用户对的邮件集合中抽取主题,一些主题示例如下表1所示:

表1、利用安然数据集的交互邮件内容主题进行人际关系画像

由于没有关系内涵的明确标准答案,因此,通过人工阅读用户对之间完整的邮件序列来理解他们的关系,进而考察自动抽取的主题是否与人的理解相符。比如,根据阅读和理解第一对用户对的邮件信息,推测他们是关于IT和网络的工作关系,其中一个人是首席技术官。由实验结果可知,提取的主题基本上可以反应这一关系内涵。根据表格中的例子显示,这个数据集上的人物关系大都是有一些特定区别的工作关系,本发明方法可以得到更多关于用户关系内涵的细节。然而,有一些主题词是无意义的,比如‘cc’、‘Enron’。许多关系内涵隐藏在互动语言的深层语义中,不容易从主题词中刻画。为了描述更为丰富的社会关系,在微博数据集上再次做了实验。

本发明实验材料2:微博数据集实验

从新浪微博上爬取了2015.7.1-2016.7.15间的来自4296个用户之间的2263对关系的互相评论和转发内容,并爬取了这4296个用户的用户属性。将用户对之间的互相评论和转发内容作为它们的交互语言集合并抽取了集合内容多余15条的用户对来做实验,共得到105对用户对。该数据集的特点是:会话信息较短、关系类型丰富。

利用主题反映关系内涵,利用本发明方法在用户对的交互语言集合中抽取主题,一些主题示例如下表2所示:

表2、利用微博数据集的互相评论和转发内容主题进行人际关系画像

由于没有关系内涵的明确标准答案,因此通过人工阅读用户对之间完整的互评和转发内容来理解他们的关系,进而考察自动抽取的主题是否与人的理解相符。比如,根据阅读和理解第二对用户对的邮件信息,推测他们是有着同样兴趣的朋友关系,他们都是表的爱好者。由实验结果可知,提取的主题基本上可以反应这一关系内涵。根据表格中的例子显示,本发明方法可以帮助得到更多关于用户关系内涵的细节。然而,有一些主题是有歧义的,比如第5对用户,很难通过主题来分辨她们是刚生完孩子的母亲和于嫂的关系还是两位刚生完孩子的母亲关系。

综上,基于主题的人际关系画像方法适合于作为人际关系画像的辅助手段。尽管上面结合附图对本发明进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨的情况下,还可以做出很多变形,这些均属于本发明的保护之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号