首页> 中国专利> 一种基于语义和词扩展的社交用户主题分析方法及系统

一种基于语义和词扩展的社交用户主题分析方法及系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于语义和词扩展的社交用户主题分析方法及系统，涉及网络用户信息评定技术领域，解决了现有技术主题分析方法中用户发文信息间很可能不存在任何上下文关联，其技术方案是：提出了一种基于语义和词扩展的短文本主题模型，不仅融合了短文本的语义信息，还通过外部语料知识进行词对扩展，在解决短文本稀疏问题的同时，增强文本的主题倾向；在基于语义和词扩展的短文本主题模型之上，采用了一种依据用户间互动量的发文主题加权法，区别发文间的重要程度，从而计算用户的主题分布。本发明的社交用户主题分析方法相较于传统的主题特征分析方法，更具合理性。

著录项

公开/公告号CN114580436A

专利类型发明专利
公开/公告日2022-06-03

原文格式PDF
申请/专利权人重庆邮电大学;
展开▼

申请/专利号CN202210203458.1
发明设计人李臻;邵亚斌;夏书银;
展开▼

申请日2022-03-02
分类号G06F40/35;G06F40/284;G06F40/205;
代理机构成都行之专利代理事务所(普通合伙);
代理人伍旭伟
地址 400000 重庆市南岸区南山街道崇文路2号
入库时间 2023-06-19 15:32:14

法律信息

法律状态公告日

法律状态信息

法律状态
2022-06-03

公开

发明专利申请公布

说明书

技术领域

本发明涉及一种网络用户信息评定技术领域，更具体地说，它涉及一种基于语义和词扩展的社交用户主题分析方法及系统。

背景技术

随着互联网的不断发展，网络中的短文本数据呈爆发式增长，人们可以在各种社交平台中发布各种信息。因此，如何从社交平台中分析用户特征是非常有研究价值和实际意义的事情。其中，社交用户的主题特征便是研究重点之一。目前各大社交平台如微博、推特、微信等的信息传播大多都是短文本形式。短文本数据和篇章级的长文本数据不同，短文本数据有着不同的语言规律。而用户又是社交平台中的主体，每位用户可以发布成千的短文本信息。对于企业来讲，针对用户的主题信息进行分析，可以让企业提出具有针对性的方案以此提升用户体验，具有一定的商业价值，对于学者而言，分析用户的主题分布，可以作为社会科学研究成果。

当前，针对社交平台用户的主题特征提取常用方法是将同一用户所有的发文整合成一个整体，使其成为一个长文档，再把该长文档输入到主题模型中便得到文档的主题分布，将此分布视为用户的主题分布，这样做虽然可以解决短文本稀疏问题，同时也能获取“用户级”的主题特征。但是，用户的发文间很可能不存在任何上下文关联，甚至讲述的不是同一主题的事物。因此，简单的将同一用户的所有发文合并成伪文档是不合理的。

因此，如何使得分析出的用户的主题分布特征更加的合理是目前亟需解决的问题。

发明内容

本发明的目的是提供一种基于语义和词扩展的社交用户主题分析方法及系统；解决了现有技术主题分析方法得出的主题分布特征的用户发文信息间很可能不存在任何上下文关联，甚至讲述的不是同一主题的事物的问题；本发明改进了传统的短文本主题模型，提出了基于语义和词扩展的短文本主题模型，该模型针对每条社交发文信息进行主题分析，得到主题分布矩阵，再根据每条发文信息的互动信息计算出该条发文信息的权重矩阵，即该条发文信息的重要程度，最后利用主题分布矩阵和权重矩阵计算出用户的主题分布，相较于现有技术的直接构造伪文档的用户主题分析方法，本发明的基于语义和词扩展的社交用户主题分析方法更具优势性。

本发明的上述技术目的是通过以下技术方案得以实现的：

第一方面，提供了一种基于语义和词扩展的社交用户主题分析方法，包括以下步骤：

获取用户的发文信息和所述发文信息在社交网络平台中产生的互动信息；

对所述发文信息进行预处理操作，获得发文信息的文本数据；

根据所述文本数据构建基于语义和词扩展的短文本主题模型；

将所述发文信息输入所述短文本主题模型进行计算，获得所述发文信息的多个第一主题分布矩阵；

根据所述互动信息计算用户每条所述发文信息的权重矩阵；

根据所述权重矩阵对多个所述第一主题分布矩阵进行加权处理，获得多个第二主题分布矩阵；

对所述多个第二主题分布矩阵进行向量合并和归一化处理，获得用户所述发文信息的主题分布。

与现有技术相比较而言，本发明改进了传统的短文本主题模型，提出了基于语义和词扩展的短文本主题模型，该模型针对每条社交发文信息进行主题分析，得到主题分布矩阵，再根据每条发文信息的互动信息计算出该条发文信息的权重矩阵，即该条发文信息的重要程度，最后利用主题分布矩阵和权重矩阵计算出用户的主题分布，相较于现有技术的直接构造伪文档的用户主题分析方法，本发明的基于语义和词扩展的社交用户主题分析方法更具优势性。

进一步的，所述预处理操作包括对所述发文信息进行分词操作、去除所述发文信息的停用词以及去除所述发文信息中的干扰符号。

进一步的，所述根据所述文本数据构建基于语义和词扩展的短文本主题模型的步骤如下：

采用语义依存分析法提取所述文本数据上下文中具有语义关联的第一词对；

获取所述文本数据的待扩展关键词，将所述待扩展关键词输入外部语料库中，利用点互信息计算所述待扩展关键词与外部词料库中词的相关性。

进一步的，设定所述相关性的判断阈值，若所得所述相关性大于所述判断阈值，则将待扩展关键词与外部语料库中的词组成第二词对。

进一步的，对所述多个第二主题分布矩阵内所有的向量进行合并，获得用户的主题分布特征向量，利用softmax函数对所述主题分布特征向量进行归一化处理，获得用户所述发文信息的主题分布。

第二方面，提供了一种基于语义和词扩展的社交用户主题分析系统，包括：

信息获取单元，用于获取用户的发文信息和所述发文信息在社交网络平台中产生的互动信息；

预处理单元，用于对所述发文信息进行预处理操作，获得发文信息的文本数据；

模型构建单元，用于根据所述文本数据构建基于语义和词扩展的短文本主题模型；

第一计算单元，用于将所述发文信息输入所述短文本主题模型进行计算，获得所述发文信息的多个第一主题分布矩阵；

第二计算单元，用于根据所述互动信息计算用户每条所述发文信息的权重矩阵；

加权处理单元，用于根据所述权重矩阵对多个所述第一主题分布矩阵进行加权处理，获得多个第二主题分布矩阵；

合并处理单元，用于对所述多个第二主题分布矩阵进行向量合并和归一化处理，获得用户所述发文信息的主题分布。

进一步的，所述预处理单元包括分词单元和去除单元；

所述分词单元，用于对所述发文信息进行分词操作，所述去除单元，用于去除所述发文信息的停用词以及去除所述发文信息中的干扰符号。

进一步的，所述模型构建单元包括语义提取单元和词扩展单元；

所述语义提取单元，用于采用语义依存分析法提取所述文本数据上下文中具有语义关联的第一词对；

所述词扩展单元，用于获取所述文本数据的待扩展关键词，将所述待扩展关键词输入外部语料库中，利用点互信息计算所述待扩展关键词与外部词料库中词的相关性。

进一步的，所述词扩展单元还包括判断单元；

所述判断单元，用于设定所述相关性的判断阈值，若所得所述相关性大于所述判断阈值，则将待扩展关键词与外部语料库中的词组成第二词对。

进一步的，所述合并处理单元还包括向量合并单元和处理单元；

所述向量合并单元，用于对所述多个第二主题分布矩阵内所有的向量进行合并，获得用户的主题分布特征向量；

所述处理单元，用于利用softmax函数对所述主题分布特征向量进行归一化处理，获得用户所述发文信息的主题分布。

与现有技术相比，本发明具有以下有益效果：

1.本发明的分析方法提出了一种基于语义和词扩展的短文本主题模型，该模型在传统的短文本主题模型基础之上，不仅融合了短文本的语义信息，还通过外部语料知识库进行词对扩展，在解决短文本稀疏问题的同时，增强文本的主题倾向。

2.本发明在基于语义和词扩展的短文本主题模型之上，采用了一种依据用户发文信息之间的互动信息的发文主题加权法，区别发文间的重要程度，从而计算用户的主题分布。相较于传统的主题特征计算方法，更具合理性。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明一实施例提供的社交用户主题分析方法流程示意图；

图2为现有技术的短文本主题模型词对获取示意图；

图3为本发明一实施例提供的基于语义和词扩展的短文本主题模型的词对获取示意图；

图4为本发明一实施例提供的获取用户主题分布的流程示意图；

图5为本发明一实施例提供的构建基于语义和词扩展的短文本主题模型的方法流程示意图；

图6为本发明一实施例提供的社交用户主题分析系统结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

需说明的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

实施例一：

如图1所示，本申请实施例一提供一种基于语义和词扩展的社交用户主题分析方法，包括以下步骤：

S1，获取用户的发文信息和所述发文信息在社交网络平台中产生的互动信息；

用户的发文信息包括用户的固定个人信息，如用户ID，以及其原创的作品信息，如文章ID、发文内容等，发文信息主要指的是短文本信息。与每条发文信息产生互动行为的为互动信息，包括转发数量、点赞数量、收藏数量、评论数量、关注数量和分享数量等。要分析社交网络众用户发文的主题分布，本申请以社交网络用户中的所有发文信息作为基础，以及与每篇发文信息产生互动行为的互动信息。

S2，对所述发文信息进行预处理操作，获得发文信息的文本数据；

对于发文信息进行预处理操作得到发文信息的文本数据是本领域的常规技术手段，因此不再进行多余的叙述。

S3，根据所述文本数据构建基于语义和词扩展的短文本主题模型；

具体的，如图2所示，图2即是现有技术中的短文本主题模型(简称BTM模型)用来获取短文本的词对信息的方式，但是采用滑动窗口的方式获取词对信息时忽略了词对在短文本中的上下文的语义关联，因此本申请的基于语义和词扩展的短文本主题模型采用语义依存的方法来提取文本中的词对，使得BTM模型能够融合上下文本的语义信息。在现有技术中主要是通过构造伪文档的方式来提取用户的主题特征，其能解决了短文本稀疏问题，因此为使本申请提出的短文本主题模型能够解决短文本稀疏这一问题，提出了基于词关联的词对扩展方法(即词扩展的短文本主题模型)，使得BTM模型能够解决短文本的稀疏问题。

S4，将所述发文信息输入所述短文本主题模型进行计算，获得所述发文信息的多个第一主题分布矩阵；

将用户所有发文信息输入基于语义和词扩展的短文本主题模型，可获得每条发文信息的第一主题分布矩阵，则每个用户所有发文信息的主题分布实质为一个D*K维的第一主题分布矩阵，D表示用户所有的发文信息，K表示设定的主题数。D*K维的第一主题分布矩阵记为Tuser。

S5，根据所述互动信息计算用户每条所述发文信息的权重矩阵；

每位用户可以获得D*1维度的权重矩阵，D表示用户所有的发文信息，D*1维度的权重矩阵记为H

S6，根据所述权重矩阵对多个所述第一主题分布矩阵进行加权处理，获得多个第二主题分布矩阵；

在S5中，权重值表示该条发文信息对于用户的重要程度，因此通过互动信息所计算的权重矩阵H

S7，对所述多个第二主题分布矩阵进行向量合并和归一化处理，获得用户所述发文信息的主题分布。

对于多个第二主题分布矩阵X

本申请实施例一的又一个实施例中，所述预处理操作包括对所述发文信息进行分词操作、去除所述发文信息的停用词以及去除所述发文信息中的干扰符号。

需要说明的是，预处理操作还可包括对发文信息进行词性标注处理，对发文信息进行关键词抽取、主题抽取、摘要、事件抽取和语义抽取，使得其转化的文本数据更加多样性。

本申请实施例一的又一个实施例中，如图5所示，所述根据所述文本数据构建基于语义和词扩展的短文本主题模型的步骤如下：

采用语义依存分析法提取所述文本数据上下文中具有语义关联的第一词对；

获取所述文本数据的待扩展关键词，将所述待扩展关键词输入外部语料库中，利用点互信息计算所述待扩展关键词与外部词料库中词的相关性。

具体的，基于语义和词扩展的短文本主题模型对传统BTM模型进行改进。如图2所示，传统BTM模型中采用滑动窗口的方式获取词对信息时忽略了词对在文本中的上下文的语义关联。如图3所示，改进后的BTM模型采用语义依存的方法来提取文本中的词对，使得BTM模型融合了文本语义信息，如在传统BTM模型中，以“xx赢得xx国大选成为下届xx国总统”为例，在对发文信息进行预处理操作后，构建词对数据集的过程中，滑动窗口会将“大选”和“成为”构建为一个词对，但是以人对这句话地理解分析，“大选”和“成为”之间没有语法和逻辑上的关联，将两个词组成词对并增强两词同属一个主题的概率是不合理的，“xx”和“总统”两词之间，明显有着语义和逻辑关联，增强它们同属一个主题的概率更加合理，但由于滑动窗口大小的原因，“xx”和“总统”并不会将构成一个词对。而在以语义依存方法提取的第一词对，仍以“xx赢得xx国大选成为下届xx国总统”这句话为例，“xx”与“成为”之间属于主谓关系，“成为”与“总统”之间属于动宾关系，“xx”与“总统”为主宾关系。因此在词对构建中，选择将强关联关系的词组成第一词对，使得组成的第一词对具备在发文信息中的上下文的语义关联。

同时，为了保证该模型可进一步解决发文信息为短文本时的稀疏问题，提出了基于词关联的词对扩展方法，该方法是通过对待扩展关键词x输入到外部语料中，通过点互信息PMI来计算待扩展关键词x与外部语料中词y的相关性。x和y的点互信息记为PMI(x,y)，如下式所示：

其中，P(x)为关键词x在外部语料库中出现的概率；P(y)为词y在外部语料库中出现的概率。例如以“小米”、“苹果”、“华为”、“电脑”等词为例(假如这些词是从文本中用户发文信息中从提取出来的)，在新闻类外部数据集中提取与这些词的PMI值最高的目标词：

表1词扩展计算的结果示例

最终可以“小米”一词扩展出的词对为“小米酷派”、“小米MIUI”、“小米生态链”等。“苹果”一词可扩展的词对：“苹果apple”、“苹果乔布斯”、“苹果库克”等，其他词也是类似的词扩展方法。从而解决发文信息为短文本信息时的稀疏问题。

本申请实施例一的又一个实施例中，设定所述相关性的判断阈值，若所得所述相关性大于所述判断阈值，则将待扩展关键词与外部语料库中的词组成第二词对。

具体的，通过相关性计算所得的相关性值，满足设定的判断阈值，判断阈值一般为200，则认为待扩展关键词与外部语料库中词所具备关联性较强，可以组成第二词对。

本申请实施例一的又一个实施例中，对所述多个第二主题分布矩阵内所有的向量进行合并，获得用户的主题分布特征向量，利用softmax函数对所述主题分布特征向量进行归一化处理，获得用户所述发文信息的主题分布。

具体的，如图4所示，现在已有的技术方案中是将用户所有发文组合成一个长文档后，直接输入传统BTM模型中进行主题分析。而本发明是将用户每一个发文单独进行主题分析后，再将同一用户所有个发文的主题分布合并和归一化处理，以此作为用户的主题特征。归一化处理如下式所示：

综合上述技术方案，本申请实施例一的社交用户主题分析方法，在传统的短文本主题模型基础上，提出了基于语义和词扩展的短文本主题模型，该模型针对每条社交发文信息进行主题分析，得到主题分布矩阵，再根据每条发文信息的互动信息计算出该条发文信息的权重矩阵，即该条发文信息的重要程度，最后利用主题分布矩阵和权重矩阵计算出用户的主题分布，相较于现有技术的直接构造伪文档的用户主题分析方法，本发明的基于语义和词扩展的社交用户主题分析方法更具优势性。

实施例二：

基于同一构思，如图6所示，本实施例二在实施例一的基础上提供了一种基于语义和词扩展的社交用户主题分析系统，包括：

信息获取单元110，用于获取用户的发文信息和所述发文信息在社交网络平台中产生的互动信息；

预处理单元120，用于对所述发文信息进行预处理操作，获得发文信息的文本数据；

模型构建单元130，用于根据所述文本数据构建基于语义和词扩展的短文本主题模型；

第一计算单元140，用于将所述发文信息输入所述短文本主题模型进行计算，获得所述发文信息的多个第一主题分布矩阵；

第二计算单元150，用于根据所述互动信息计算用户每条所述发文信息的权重矩阵；

加权处理单元160，用于根据所述权重矩阵对多个所述第一主题分布矩阵进行加权处理，获得多个第二主题分布矩阵；

合并处理单元170，用于对所述多个第二主题分布矩阵进行向量合并和归一化处理，获得用户所述发文信息的主题分布。

本申请实施例二的社交用户主题分析系统，在传统的短文本主题模型基础上，提出了基于语义和词扩展的短文本主题模型，该模型针对每条社交发文信息进行主题分析，得到主题分布矩阵，再根据每条发文信息的互动信息计算出该条发文信息的权重矩阵，即该条发文信息的重要程度，最后利用主题分布矩阵和权重矩阵计算出用户的主题分布，相较于现有技术的直接构造伪文档的用户主题分析系统，本发明基于语义和词扩展的社交用户主题分析系统更具优势性。

本申请实施例二的又一个实施例中，所述预处理单元120包括分词单元和去除单元；

所述分词单元，用于对所述发文信息进行分词操作，所述去除单元，用于去除所述发文信息的停用词以及去除所述发文信息中的干扰符号。

本申请实施例二的又一个实施例中，所述模型构建单元130包括语义提取单元和词扩展单元；

所述语义提取单元，用于采用语义依存分析法提取所述文本数据上下文中具有语义关联的第一词对；

本申请实施例二的又一个实施例中，所述词扩展单元还包括判断单元；

所述判断单元，用于设定所述相关性的判断阈值，若所得所述相关性大于所述判断阈值，则将待扩展关键词与外部语料库中的词组成第二词对。

本申请实施例二的又一个实施例中，所述合并处理单元170还包括向量合并单元和处理单元；

所述向量合并单元，用于对所述多个第二主题分布矩阵内所有的向量进行合并，获得用户的主题分布特征向量；

所述处理单元，用于利用softmax函数对所述主题分布特征向量进行归一化处理，获得用户所述发文信息的主题分布。

需要说明的是，本实施例二中上述各程序单元所执行的方法可参照本发明社交用户主题分析方法中各个实施例，因此不再叙述。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于主题关联度与关键词联想的短文本特征扩展方法 [P] . 中国专利： CN114462392A . 2022-05-10
2. 一种基于词嵌入的书面语篇多层次差异分析方法 [P] . 中国专利： CN109977407A . 2019-07-05
3. 一种基于集成学习的工业控制系统入侵检测方法 [P] . 世界知识产权组织专利： WO2020/143226A1 . 2020.07.16
4. 基于智能合约的收款方法、系统及可读存储介质 [P] . 世界知识产权组织专利： WO2020/143378A1 . 2020.07.16
5. 基于固定式基础的风浪互补能源集成系统及其发电与输电方法 [P] . 世界知识产权组织专利： WO2020/143287A1 . 2020.07.16