首页> 中国专利> 互联网用户的知识与兴趣个性化描摹系统

互联网用户的知识与兴趣个性化描摹系统

摘要

本发明基于对互联网用户微博数据的解析,提出一种基于LDA改进模型的互联网用户知识与兴趣描摹系统,在LDA改进模型对用户的兴趣进行解析的基础上,对用户的知识分布进行进一步的描摹,从用户兴趣描述层面进行扩展,提出根据知识与兴趣两个方面的描摹方式进行用户描述的方法,精准对用户进行个性化刻画;加入互联网用户知识层级的概念,将知识层级融合进LDA改进模型当中,用户兴趣建模主要采用关键词模型对用户兴趣进行建模,用户知识建模将知识层级这纳入用户的知识描摹模型当中来,以有向连通图对用户知识建模。能够精准快速的对用户进行特征描摹,有较高的可行性与准确性。

著录项

  • 公开/公告号CN112733021A

    专利类型发明专利

  • 公开/公告日2021-04-30

    原文格式PDF

  • 申请/专利权人 荆门汇易佳信息科技有限公司;

    申请/专利号CN202011641277.4

  • 发明设计人 刘文平;王辉;

    申请日2020-12-31

  • 分类号G06F16/9535(20190101);G06F40/289(20200101);G06N20/00(20190101);G06Q30/06(20120101);

  • 代理机构

  • 代理人

  • 地址 448000 湖北省荆门市高新区龙井大道238号(九派通创业园)

  • 入库时间 2023-06-19 10:48:02

说明书

技术领域

本发明涉及一种用户的知识与兴趣描摹系统,特别涉及一种互联网用户的知识与兴趣个性化描摹系统,属于互联网用户描摹技术领域。

背景技术

近年来,随着互联网特别是移动互联网的快速发展,包括无线WIFI、电信服务商提供的4G网络、尤其是当前各大电信服务商着重推出的移动5G网络都昭示着以用户为核心的移动社交网络、电子商务未来高速发展的大趋势,因而互联网用户刻画解析开始得到重点关注。互联网用户个性化描摹计算就是根据互联网用户的网络使用历史对用户行为特征、兴趣分布和用户个人已有知识领域分布进行全方位解析,其具体难点在于行为的表示、兴趣的量化和知识领域的度量,以及三者之间结合点的研究分析。

依托全球移动信息网络的普及和信息化进程的加快推进,移动互联网站点,门户网站、公司网站、博客、微博、论坛等网络媒体以及各类移动APP产生的用户数据量巨大,且分布十分不均衡。然而,对于无差别搜索来说,在快速搜索符合查询相关结果的问题上,各大搜索引擎已经提供了解决方案。然而,随着移动互联网应用和大数据技术的不断发展和移动终端大趋势导致移动互联网用户数快速增长,加之网络用户对于互联网知识获取提出了更高的要求,因此未来的移动搜索必将朝着智能型和知识型搜索引擎的方向发展,期以提供更加符合用户个性化搜索要求和理解用户逻辑的事件要素型的精准事件摘要的智能搜索功能。

作为产生用户数据最集中的移动互联网媒体,移动社交网络类APP作为一种应用服务,能帮助人们快速方便的发起社会性的网络活动,移动社交网络的存在形式多种多样,在此长期过程中产生的多样化的数据恰恰可以为研究分析用户个性化特征,如用户兴趣分布、用户行为解析、用户已有知识,提供丰富的解析数据类型的支持;尤其是在移动终端不断发展,移动终端数量爆发式增长的情况下,各类互联网公司提供了大量移动APP,产生了大量的用户个人文本数据为分析研究用户个性化特征提供充分的数据量支持。

微博作为新型自媒体,从兴起到蓬勃发展过程中所引起的对于网络用户的大量解析研究中,用户个人已有知识体系的解析研究很少得到关注,然而该用户特征对于网络用户使用搜索引擎过程中的真实搜索意图的反映、网络购物中对于专业产品的选择、产生文本信息的质量等方面却是非常关键的因素。随着互联网的迅速发展,电子商务也同样以超快的速度发展,各种不同类别的电子商务网站数量也与日俱增,电商之间的竞争越来越激烈,如何将手机屏幕前的潜在用户转化为实际消费者,如何为网站注册用户推荐更多他们感兴趣的商品并刺激消费也成为各电商企业现在遇到的挑战,这也成为了在这个竞争激烈的行业里立足的重点攻关技术。

随着更丰富更便捷的移动互联网时代的到来,人们对获取信息的需求越来越强,标准也越来越高,用户个性化服务能够很好地协调爆炸式增长的信息与人们获取自己真实关心的特定领域内容之间的矛盾。

在电子商务领域,要完成以上目标首先要做的便是深刻解析互联网用户的特点,如用户的兴趣,知识层级。因为这是正确给用户推荐用户潜在购买商品的前提,如果无法做到这一点,用户只会被淹没在眼花缭乱甚至完全不符合用户需求的商品洪流之中,这样下去只会让用户花费更多的时间通过一次又一次的筛选、搜索,浪费许多不必要的精力去寻找符合自己需要的商品。这样的体验对用户来说是相当糟糕,对企业来说也没有创造其应有的价值,对各方都是一个巨大的损失。

在搜索引擎领域,为在过度冗余繁杂的信息当中,筛选出用户当前最需要的搜索结果,也必然要基于对用户的兴趣爱好和知识等方面。将这些信息整合起来,能够整体描摹出一个真实而具体的用户,返回的搜索结果在对用户理解的基础上也会反馈得到更加贴合用户的意图。这样,用户不用再去花费大量不必要的时间来在仍旧杂乱的搜索结果中二次、甚至三次过滤来寻找自己真正所需的信息,既节约了用户的时间也节省了用户的精力,对用户的使用体验来说,也同样起到了巨大的改善和推动作用。

综合现有技术的的现状和不足,本发明拟解决的问题表现在:

第一,随着移动互联网的高速发展和数据量急速膨胀,海量信息给快速信息搜索带来极大困难,用户对信息获取的要求也越来越高,越来越多的用户不满足简单的信息搜索服务,更需要快速高效的找到满足自己需求的准确信息,这给数据服务带来了较大挑战,现有技术对用户已有的知识分布没有给予足够的重视,海量信息给快速信息搜索带来极大困难的问题,无法满足用户对信息获取的高要求,无法提供精准的个性化信息搜索服务,用户无法快速高效的找到满足自己需求的准确信息;

第二,现有技术对用户个人已有知识体系的解析研究很少得到关注,然而该用户特征对于网络用户使用搜索引擎过程中的真实搜索意图的反映、网络购物中对于专业产品的选择、产生文本信息的质量等方面却是非常关键的因素。当前电商之间的竞争越来越激烈,如何将手机屏幕前的潜在用户转化为实际消费者,如何为网站注册用户推荐更多他们感兴趣的商品并刺激消费也成为各电商企业现在遇到的挑战,这也成为了在这个竞争激烈的行业里立足的重点攻关技术,现有技术无法深刻解析互联网用户的特点,用户被淹没在眼花缭乱甚至完全不符合用户需求的商品洪流之中,用户花费更多的时间通过一次又一次的筛选、搜索,浪费许多不必要的精力去寻找符合自己需要的商品。这样的体验对用户来说是相当糟糕,对企业来说也没有创造其应有的价值,对各方都是一个巨大的损失;

第三,在搜索引擎领域,为在过度冗余繁杂的信息当中,现有技术无法筛选出用户当前最需要的搜索结果,无法整体描摹出一个真实而具体的用户,返回的搜索结果不贴合用户的意图,用户需要再去花费大量不必要的时间来在仍旧杂乱的搜索结果中二次、甚至三次过滤来寻找自己真正所需的信息,既浪费用户的时间也浪费用户的精力,对用户的使用体验来说,也同样非常糟糕,未来的移动搜索需要朝着智能型和知识型搜索引擎的方向发展,提供更加符合用户个性化搜索要求和理解用户逻辑的事件要素型的精准事件摘要的智能搜索功能;

第四,海量信息给快速信息搜索带来极大困难的问题,现有技术无法满足用户对信息获取的要求越来越高,提供精准的个性化信息搜索服务,让用户更快速高效的找到满足自己需求的准确信息的要求,爆炸式增长的信息与人们获取自己真实关心的特定领域内容之间的矛盾十分突出,现有技术无法通过用户的网络使用历史对用户行为特征进行全方位解析,通过互联网用户个性化计算对用户行为特征、兴趣分布和用户个人已有知识领域分布进行全方位解析,无法对用户使用搜索引擎过程中真实搜索意图的反映、网络购物中专业产品的选择、产生文本信息的质量进行优化和指导。

发明内容

针对现有技术的不足,本发明提供的互联网用户的知识与兴趣个性化描摹系统,解决海量信息给快速信息搜索带来极大困难的问题,满足用户对信息获取的要求越来越高,提供精准的个性化信息搜索服务,让用户更快速高效的找到满足自己需求的准确信息,通过用户的网络使用历史对用户行为特征进行全方位解析,通过互联网用户个性化计算对用户行为特征、兴趣分布和用户个人已有知识领域分布进行全方位解析,通过网络用户的个人已有知识体系的解析获取用户特征,对用户使用搜索引擎过程中真实搜索意图的反映、网络购物中专业产品的选择、产生文本信息的质量进行优化和指导。

为达到以上技术效果,本发明所采用的技术方案如下:

互联网用户的知识与兴趣个性化描摹系统,通过网络用户的个人已有知识体系的解析获取用户特征,基于对互联网用户数据的解析,提出一种基于LDA改进模型的互联网用户知识与兴趣描摹系统,在LDA改进模型对用户的兴趣进行解析的基础上,对用户的知识分布进行进一步的描摹;

本发明从用户兴趣描述层面进行扩展,提出根据知识与兴趣两个方面的描摹方式进行用户描述的方法,精准对用户进行个性化刻画;加入互联网用户知识层级的概念,将知识层级融合进LDA改进模型当中,提出互联网用户的知识与兴趣个性化描摹系统;用户兴趣建模中,主要采用关键词模型对用户兴趣进行建模,在用户知识建模中,将知识层级这纳入用户的知识描摹模型当中来,以有向连通图对用户知识建模;

互联网用户知识与兴趣个性化描摹模型的用户解析有如下三个层级:

第一层级,对于每个用户v,对应多个主题的兴趣和已有知识,生成主题分布x,用户-兴趣分布j和用户-知识分布w;

第二层级,对于每条微博q,对应一个主题的兴趣度量和已有知识程度量两方面,生成兴趣-微博分布e

第三层级,对于每个词k,对应多个主题,生成主题-词分布s;

互联网用户的知识与兴趣个性化描摹解析概率模型的生成过程为:

过程一,采样分布:G

过程二,对于每一个用户v=1,2,...,V,

采样分布:H

采样分布:j

采样分布:w

过程三,对于每一条微博q=1,2,...,Q,

采样主题:x-Multinomial(H

采样微博描述话题的深度类型z-Multinomial(w

过程四,对于每一个词k=1,2,...,K,

采样词:k

用户知识与兴趣描摹模型参数说明:A

互联网用户的知识与兴趣个性化描摹系统,进一步的,构建用户知识与兴趣个性化模型包括构建互联网用户兴趣模型和构建互联网用户知识模型;

互联网用户兴趣建模采用关键词用户兴趣表达模型,用一个关键词列表来呈现一个用户的兴趣,通过这样的方式获取关键词表示出一个用户,通过各种挖掘技术或机器学习的方式获取一个用户的关键词集合。

互联网用户的知识与兴趣个性化描摹系统,进一步的,构建互联网用户知识模型中,基于主体需求知识的层级角度,将知识划分为四个层级:生存知识、技能知识、精神知识、自我实现知识,知识组织满足人类客观知识主观化的需要,针对客观知识的无序化状态实施一系列有序化组织活动;

知识组织的前提是对客观知识进行最大化的发现,知识发现的重要内容是对知识结构的发现,知识结构是通过特定的方法对客观知识进行归纳,使其具有关联性,知识结构为一种网状结构,它由众多知识因子的节点和知识关联的节点联系两要素构成,知识因子为元知识,表达元知识之间关联关系的结构成为知识链,元知识是组成知识网络的最基本单位,每个单独存在的元知识通过知识链关联,知识体系不断扩张,知识只会增加,不会消亡,不断发现新的元知识,不断将元知识间的关联表达出来,是开展知识管理的其它活动的出发点和开端;

主体发现元知识及关联关系是一个循序渐进的过程,根据具体的客观环境进行知识组织,将发现的元知识通过知识表达、知识重组、知识存检、知识聚类、知识布局、知识编辑和知识监控方法,最终提高知识的有序化程度,增强知识集中性。

互联网用户的知识与兴趣个性化描摹系统,进一步的,用户知识层级表达:互联网用户的知识层面呈现为网状结构,同时在这一网状结构中也具有明确的层级关系,本发明采用有向连通图的方式表示这个网状结构,设置一个超根root根节点,将不同的领域连接起来,这些领域的节点从超根发散出来,在这些不同的领域下面,有细分的子领域,只拓展到子领域下一层节点,在第四层的词则同样会同时隶属于不同的子领域之内,构成了一个由超跟-领域-子领域-词构成的四层的有向连通图表示用户的知识层级结构;在这个层级结构里,用户所涵盖的知识领域越趋向于这个知识层级图的底层,这个用户在这个领域越趋近于专家级别,通过这个方式表示出一个用户的知识深度。

互联网用户的知识与兴趣个性化描摹系统,进一步的,互联网平台用户解析是对互联网用户的上网和使用移动APP所产生的文本痕迹进行深度数据挖掘,获得对用户的客观个性化了解,本发明采用新浪微博的移动APP产生的文本数据作为数据集来进行解析;

用户描述归纳为用户客观描述和用户主观描述两个类别,用户主观性描述包括用户兴趣、已有知识分布、行为模式的内在表达,这其中深度挖掘用户兴趣和用户知识两个领域,用户同时对应用户兴趣向量和已有知识向量,且这两个向量对应的属性维相同,每一个属性维表示同一事件类或话题,用户兴趣向量和已有知识向量中每一维对应的值表示用户对于该维所表示的事件类或话题的兴趣度和理解深度;

以词袋的方式表示文本生成,主题或话题有一定的概率分布,通过概率模型重现文本的生成方法,然后结合参数估计获取主题,当指定主题个数为一个值M时,经过主题模型的不断监督或无监督训练学习,得到M个主题,采用以话题模型为基础进行整个模型的构建。

互联网用户的知识与兴趣个性化描摹系统,进一步的,互联网用户兴趣描摹架构存在以下三个层级:

层级一,对于每一个用户v,对应多个主题和兴趣,生成主题分布x,用户-兴趣分j;

层级二,对于每一条微博q,对应一个主题兴趣度量方面,将生成兴趣-微博分布e

层级三,对于每一个词k,它对应主题会生成主题-词分布s;

互联网用户的兴趣描摹概率图模型的生成过程为:

第一,采样分布:G

第二,对于每一个用户v=1,2,...,V,

采样分布:H

采样分布:j

第三,对于每一条微博q=1,2,...,Q,

采样主题:x-Multinomial(H

第四,对于每一个词k=1,2,...,K,

采样词:k

用户兴趣描摹模型参数说明:A

互联网用户的知识与兴趣个性化描摹系统,进一步的,互联网用户知识描摹架构的用户解析有如下三个层级:

第一层次,对于每个用户v,对应多个主题和相关的已有知识,生成主题分布x,用户-知识分布w;

第二层次,对于每条微博q,对应一个主题已有知识程度量方面,生成知识-微博分布e

第三层次,对于每个词k,对应多个主题和事件类,生成主题词分布s;

互联网用户知识描摹解析概率模型的生成过程为:

步骤一,采样分布:G

步骤二,对于每一个用户v=1,2,...,V,

采样分布:H

采样分布:j

步骤三,对于每一条微博q=1,2,...,Q,

采样主题:x-Multinomial(H

采样微博描述话题的深度类型z-Multinomial(w

步骤四,对于每一个词k=1,2,...,K,

采样词:k

用户知识描摹模型参数说明:A

互联网用户的知识与兴趣个性化描摹系统,进一步的,用户个性化描摹模型对常见的事件进行分类,并且对用户感兴趣的日常生活话题进行总结,将用户描摹的领域分为事件分类和话题集合,表示为特征集:{{事件类集}

用户已有知识的解析,结合用户自我标签性描述与先验知识和用户对事件或话题观点和评述性内容描述的深度解析进一步判断,具体观点和评述深度根据用户发布文本中有关话题和事件的内容深度进行判断,对事件描述词和术语进行层级分类,采用概率图模型对用户兴趣和用户已有知识进行解析,在本发明的主题模型中加入一个二项分布的变量π对二者进行区分,对用户文本中所使用领域词在知识领域树中的层级对于事件解析深度进行区分,将领域词对于事件或主题的深度划分为五层,引入多项分布变量z用于标识主题-词深度层级分布和事件类-词深度层级分布。

互联网用户的知识与兴趣个性化描摹系统,进一步的,模型中输入的分析数据是用户的微博数据,同时每个用户都对应着该用户本身的微博文本集,将这M个用户的微博文本作为模型的输入数据集,结果有两部分,一部分是用户兴趣,另一部分是用户知识;

用户兴趣方面,模型得出用户的每个微博文本和兴趣的向量矩阵,计算出每个用户对于每个兴趣领域的权重,计算式为:

式中,x

用户知识方面,将用户的所有微博经过模型划分为四类:超根、超话题、子话题、词,超根表示所有超话题的根,在模型中并无实际的值,超话题包括用户的兴趣层面领域,子话题是连接超话题和词之间的纽带,是超话题细分下的结果,最底层的词是用户微博中分词出来。

与现有技术相比,本发明的贡献和创新点在于:

第一,本发明提供的互联网用户的知识与兴趣个性化描摹系统,解决海量信息给快速信息搜索带来极大困难的问题,满足用户对信息获取的要求越来越高,提供精准的个性化信息搜索服务,让用户更快速高效的找到满足自己需求的准确信息,通过用户的网络使用历史对用户行为特征进行全方位解析,通过互联网用户个性化计算对用户行为特征、兴趣分布和用户个人已有知识领域分布进行全方位解析,通过网络用户的个人已有知识体系的解析获取用户特征,对用户使用搜索引擎过程中真实搜索意图的反映、网络购物中专业产品的选择、产生文本信息的质量进行优化和指导;

第二,本发明基于对互联网用户微博数据的解析,提出一种基于LDA改进模型的互联网用户知识与兴趣描摹系统,在LDA改进模型对用户的兴趣进行解析的基础上,对用户的知识分布进行进一步的描摹,从用户兴趣描述层面进行扩展,提出根据知识与兴趣两个方面的描摹方式进行用户描述的方法,精准对用户进行个性化刻画;加入互联网用户知识层级的概念,将知识层级融合进LDA改进模型当中,用户兴趣建模主要采用关键词模型对用户兴趣进行建模,用户知识建模将知识层级这纳入用户的知识描摹模型当中来,以有向连通图对用户知识建模。结果显示本发明能够精准快速的对用户进行特征描摹,有较高的可行性与准确性,并在实际的互联网用户个性化项目中得到应用;

第三,个性化服务在互联网用户描摹的地位开始凸显,在用户兴趣挖掘领域越来越重要,本发明个性化服务的关键在于挖掘用户的兴趣爱好,能够准确挖掘出一个用户的兴趣爱好,搜索引擎不会在同样的关键字下出现大量与用户搜索目标信息无关的垃圾信息,相反还会根据关键字基于不同用户的兴趣爱好,给出最符合用户需求的搜索结果,最大限度满足用户需求;

第四,本发明提供的互联网用户的知识与兴趣个性化描摹系统,根据互联网用户的网络使用历史对用户行为特征、兴趣分布和用户个人已有知识领域分布进行全方位解析,创造性的解决了行为的表示、兴趣的量化和知识领域的度量,以及三者之间结合点的问题,能够整体描摹出一个真实而具体的用户,返回的搜索结果在对用户理解的基础上也会反馈得到更加贴合用户的意图,用户不用再去花费大量不必要的时间来在仍旧杂乱的搜索结果中二次、甚至三次过滤来寻找自己真正所需的信息,既节约了用户的时间也节省了用户的精力,对用户的使用体验来说,也同样起到了巨大的改善和推动作用,能够提供更加符合用户个性化搜索要求和理解用户逻辑的事件要素型的精准事件摘要的智能搜索功能;

第五,本发明深刻解析互联网用户的特点,如用户的兴趣,知识层级,是正确给用户推荐用户潜在购买商品的前提,用户不会被淹没在眼花缭乱甚至完全不符合用户需求的商品洪流之中,网络购物中对于专业产品的选择、产生文本信息的质量等方面是非常关键的因素,本发明有利于将手机屏幕前的潜在用户转化为实际消费者,为网站注册用户推荐更多他们感兴趣的商品并刺激消费,是电子商务竞争激烈行业里立足的重点攻关技术,具有广阔的市场应用前景。

附图说明

图1是本发明的互联网用户兴趣描摹架构示意图。

图2是本发明的互联网用户兴趣描摹架构示意图。

图3是互联网用户的知识与兴趣个性化描摹架构示意图。

具体实施方式

下面结合附图,对本发明提供的互联网用户的知识与兴趣个性化描摹系统的技术方案进行进一步的描述,使本领域的技术人员能更好的理解本发明并能予以实施。

随着移动互联网的高速发展,数据量急速膨胀,随之而来的海量信息给快速信息搜索带来极大困难。同时,用户对信息获取的要求也越来越高,越来越多的用户不满足简单的信息搜索服务,更需要快速高效的找到满足自己需求的准确信息,这给个性化数据服务带来了新的挑战和机遇,而个性化数据服务的重要部分就是通过用户的网络使用痕迹对用户行为特征进行全方位解析,通过互联网用户个性化计算对用户行为特征、兴趣分布和用户个人已有知识领域分布进行全方位解析。

现有技术对用户已有的知识分布没有给予足够的重视,本发明通过网络用户的个人已有知识体系的解析获取用户特征,对用户使用搜索引擎过程中真实搜索意图的反映、网络购物中专业产品的选择、产生文本信息的质量进行优化和指导,基于对互联网用户微博数据的解析,提出一种基于LDA改进模型的互联网用户知识与兴趣描摹系统,在LDA改进模型对用户的兴趣进行解析的基础上,对用户的知识分布进行进一步的描摹。

本发明从用户兴趣描述层面进行扩展,提出根据知识与兴趣两个方面的描摹方式进行用户描述的方法,精准对用户进行个性化刻画;加入互联网用户知识层级的概念,将知识层级融合进LDA改进模型当中,提出互联网用户的知识与兴趣个性化描摹系统;用户兴趣建模中,主要采用关键词模型对用户兴趣进行建模,在用户知识建模中,将知识层级这纳入用户的知识描摹模型当中来,以有向连通图对用户知识建模。

本发明通过实施例,对十个领域不同人的微博进行解析,在互联网用户的知识与兴趣个性化描摹系统的基础上,对这些人进行了这两个方面的描摹,结果显示本发明能够精准快速的对用户进行特征描摹,有较高的可行性与准确性,并在实际的互联网用户个性化项目中得到应用。

一、构建用户知识与兴趣个性化模型

个性化服务在互联网用户描摹的地位开始凸显,在用户兴趣挖掘领域越来越重要。在繁杂的互联网信息轰炸下,每个人都想以最快的速度获取对自己最重要的知识内容,最快速的方法就是使用搜索引擎,但如果搜索引擎对于每个人搜索的关键字都返回同样的结果,只会让用户花费更多的时间在信息过滤上,这样的搜索引擎并没有实现根据用户的兴趣爱好提供用户最想要的信息。个性化服务的关键在于挖掘用户的兴趣爱好,如果能够准确挖掘出一个用户的兴趣爱好,那么搜索引擎就不会在同样的关键字下出现大量与用户搜索目标信息无关的垃圾信息,相反还会根据关键字基于不同用户的兴趣爱好,给出最符合用户需求的搜索结果,最大限度满足用户需求。

(一)构建互联网用户兴趣模型

1.互联网用户兴趣建模

随着互联网个性化服务的不断的发展和成熟,要逐步完善和全面实现个性化服务,需要一种模型来整体描摹用户的兴趣、爱好、习惯一系列相关的信息。

本发明用户建模不需要用户本身自己参与建模过程,系统建模过程中,不需要用户主观给出任何跟用户个人有关的信息,系统所需要的信息都是系统隐性获取并解析,用户建模方式不需要用户的参与,得到的信息相对交互式用户建模有更加真实可靠的数据,用户体验也更好。

2.用户兴趣模型表达

用户建模正确反映出用户的兴趣、爱好方面的信息,落脚于用户兴趣模型的表达。本发明采用关键词用户兴趣表达模型,用一个关键词列表来呈现一个用户的兴趣,实施例为一个用户对电子产品比较感兴趣,用关键词来表示,表示如下{平板、手机、智能手环、智能手表、电子设备},很多关键词在用户注册时提供,而这些关键词由他们自己选定,通过这样的方式获取关键词在一定程度上表示出一个用户,实施例是一种方式,本发明通过各种挖掘技术或机器学习的方式获取一个用户的关键词集合。

(二)构建互联网用户知识模型

1.互联网用户知识层级结构

基于主体需求知识的层级角度,将知识划分为四个层级:生存知识、技能知识、精神知识、自我实现知识,知识组织满足人类客观知识主观化的需要,针对客观知识的无序化状态实施一系列有序化组织活动。

知识组织的前提是对客观知识进行最大化的发现,知识是指经过人脑加工过的信息,依附于不同类型的载体存在,知识存在不是孤立的,而是呈现出体系性、结构性特点,知识发现的重要内容是对知识结构的发现,知识结构是通过特定的方法对客观知识进行科学、合理的归纳,使其具有关联性,知识的结构为一种网状结构,它由众多知识因子的节点和知识关联的节点联系两要素构成,知识因子为元知识,表达元知识之间关联关系的结构成为知识链,元知识是组成知识网络的最基本单位,每个单独存在的元知识通过知识链关联,知识体系客观存在,不因为主题认识而改变,这是知识体系的客观存在性。另外知识体系还具有逐渐增加性和不可消失性,即其体系根据时代、环境的变化而不断扩张,知识只会增加,不会消亡,不断发现新的元知识,不断将元知识间的关联表达出来,是开展知识管理的其它活动的出发点和开端。

主体发现元知识及关联关系是一个循序渐进的过程,根据具体的客观环境进行知识组织,将发现的元知识通过知识表达、知识重组、知识存检、知识聚类、知识布局、知识编辑和知识监控方法,最终提高知识的有序化程度,增强知识集中性。

2.用户知识层级表达

互联网用户的知识层面呈现为网状结构,同时在这一网状结构中也具有明确的层级关系,本发明采用有向连通图的方式表示这个网状结构,由于上层知识层面覆盖范围大,根据不同的方面划分为许多不同的领域,这些领域有的有交集,有的无交集,因此,设置一个超根root根节点,将不同的领域连接起来,这些领域的节点从超根发散出来,在这些不同的领域下面,都会有细分的子领域,不同的领域下的子领域有可能相同,为了便于解析数据,只拓展到子领域下一层节点,在第四层的词则同样会同时隶属于不同的子领域之内,这样就构成了一个由超跟-领域-子领域-词构成的四层的有向连通图表示用户的知识层级结构。

在这个层级结构里,用户所涵盖的知识领域越趋向于这个知识层级图的底层,这个用户在这个领域越趋近于专家级别,通过这个方式表示出一个用户的知识深度。

二、用户描摹模型

互联网平台用户解析是对互联网用户的上网和使用移动APP所产生的文本痕迹进行深度数据挖掘,获得对用户的客观个性化了解,通过解析得到的数据针对性的进行数据和应用推送、知识传播、网络营销的各种不同的目的。由于微博APP产生的数据量十分丰富而且接近互联网用户表达的最真实可靠的信息,本发明采用新浪微博的移动APP产生的文本数据作为数据集来进行解析。

用户描述归纳为用户客观描述和用户主观描述两个类别,用户客观性描述包括用户的性别、年龄、身高、籍贯、学历、婚姻状况客观实在的描述,用户主观性描述包括用户兴趣、已有知识分布、行为模式的内在表达,这其中深度挖掘用户兴趣和用户知识两个领域,用户同时对应用户兴趣向量和已有知识向量,且这两个向量对应的属性维相同,每一个属性维表示同一事件类或话题,用户兴趣向量和已有知识向量中每一维对应的值表示用户对于该维所表示的事件类或话题的兴趣度和理解深度。

以词袋的方式表示文本生成,主题或话题有一定的概率分布,在此基础上,通过概率模型重现文本的生成方法,然后结合参数估计获取主题,当指定主题个数为一个值M时,经过主题模型的不断监督或无监督训练学习,得到M个主题。结合互联网用户平台的特点,本发明采用以话题模型为基础进行整个模型的构建。

(一)互联网用户兴趣描摹架构

兴趣是个体对特定的事物、活动以及认为对象产生的态度和情绪,是一种无形的动力,兴趣会受不同因素的影响,周围因素不一致的不同人的兴趣和爱好都不一样。本发明用户兴趣描摹架构模型如图1所示。

互联网用户兴趣描摹架构存在以下三个层级:

层级一,对于每一个用户v,对应多个主题和兴趣,生成主题分布x,用户-兴趣分j;

层级二,对于每一条微博q,对应一个主题兴趣度量方面,将生成兴趣-微博分布e

层级三,对于每一个词k,它对应主题会生成主题-词分布s;

互联网用户的兴趣描摹概率图模型的生成过程为:

第一,采样分布:G

第二,对于每一个用户v=1,2,...,V,

采样分布:H

采样分布:j

第三,对于每一条微博q=1,2,...,Q,

采样主题:x-Multinomial(H

第四,对于每一个词k=1,2,...,K,

采样词:k

用户兴趣描摹模型参数说明:A

(二)互联网用户知识描摹架构

知识是个体对特定事物、活动及对象理解的客观知识范围,当用户面对某件事情或某项活动时,结合自己已有的在脑中对它们的理解,形成一系列对这些事情和活动所有的相关信息储备。对于不同环境、不同经历、不同职业的人,知识不可能一样。用户知识描摹架构模型如图2所示。

互联网用户知识描摹架构的用户解析有如下三个层级:

第一层次,对于每个用户v,对应多个主题和相关的已有知识,生成主题分布x,用户-知识分布w;

第二层次,对于每条微博q,对应一个主题已有知识程度量方面,生成知识-微博分布e

第三层次,对于每个词k,对应多个主题和事件类,生成主题词分布s;

互联网用户知识描摹解析概率模型的生成过程为:

步骤一,采样分布:G

步骤二,对于每一个用户v=1,2,...,V,

采样分布:H

采样分布:j

步骤三,对于每一条微博q=1,2,...,Q,

采样主题:x-Multinomial(H

采样微博描述话题的深度类型z-Multinomial(w

步骤四,对于每一个词k=1,2,...,K,

采样词:k

用户知识描摹模型参数说明:A

(三)互联网用户的知识与兴趣个性化描摹模型

用户描摹主要是用户兴趣描摹和用户知识描摹,用户兴趣是用户对于某个事件类或话题类的偏好程度,用户知识是对事件类和话题的知识领域的了解程度,两者属于不同的范畴。现有技术用户知识方面没有给予应得的重视,本发明的重要创新点在于用户知识的描摹。

用户个性化描摹模型对常见的事件进行分类,并且对用户感兴趣的日常生活话题进行总结,这不同于用户兴趣中只对应于话题的局限性,也不同于将事件划分为公共话题和日常话题的不明确性,本发明将用户描摹的领域分为事件分类和话题集合,表示为特征集:{{事件类集}

本发明不同于现有技术关于用户兴趣或用户行为模式研究的是对于用户已有知识的解析。用户已有知识的解析,需要结合用户自我标签性描述与先验知识和用户对事件或话题观点和评述性内容描述的深度解析进一步判断,具体观点和评述深度需要根据用户发布文本中有关话题和事件的内容深度进行判断,因而需要对事件描述词和术语进行层级分类。本发明采用概率图模型对用户兴趣和用户已有知识进行解析。在现有技术的主题模型中,对于事件类和话题不能进行准确区分,因此,在本发明的主题模型中加入一个二项分布的变量π对二者进行区分;其次,对用户文本中所使用领域词在知识领域树中的层级对于事件解析深度进行区分,以助于对用户已有知识的研究,将领域词对于事件或主题的深度划分为五层,引入多项分布变量z用于标识主题-词深度层级分布和事件类-词深度层级分布。用户知识与兴趣个性化描摹架构如图3所示。

互联网用户知识与兴趣个性化描摹模型的用户解析有如下三个层级:

第一层级,对于每个用户v,对应多个主题的兴趣和已有知识,生成主题分布x,用户-兴趣分布j和用户-知识分布w;

第二层级,对于每条微博q,对应一个主题的兴趣度量和已有知识程度量两方面,生成兴趣-微博分布e

第三层级,对于每个词k,对应多个主题,生成主题-词分布s。

互联网用户的知识与兴趣个性化描摹解析概率模型的生成过程为:

过程一,采样分布:G

过程二,对于每一个用户v=1,2,...,V,

采样分布:H

采样分布:j

采样分布:w

过程三,对于每一条微博q=1,2,...,Q,

采样主题:x-Multinomial(H

采样微博描述话题的深度类型z-Multinomial(w

过程四,对于每一个词k=1,2,...,K,

采样词:k

用户知识与兴趣描摹模型参数说明:A

三、实施例设计和分析

(一)实施例数据集

本实施例选取政治、经济、汽车、历史、军事、互联网、环境、地产、艺术、体育十个领域,并且在这十个领域中的每个领域都挑出五个质量高的用户,质量高指用户对该领域非常了解,微博内容质量也较高,总共五十个用户,在微博上爬取这50个用户的微博数据,对每个用户爬取其1000条微博,对专家级的定位是这个用户在这一领域所涉及到的程度较深。

(二)数据预处理

在爬取微博时对微博添加一定条件的限制,用户微博中有两种具体形式,一种是转发别人的微博,另一种是作者自己发的微博,爬取微博处理时如果是转发并评论微博,去掉中间的“转发”“@”字样,并将该用户的评论与其评论的微博合并关联,转发别人的微博反映出用户的兴趣和知识层面。

在分词方面,采用计算汉语词法分析系统ICTCLAS,该系统分词正确率高,并且支持GBK、UTF-8、BIG5多种编码,提供多种平台的API及新增微博分词。

(三)实施例设计

模型中输入的分析数据是用户的微博数据,同时每个用户都对应着该用户本身的微博文本集,将这M个用户的微博文本作为模型的输入数据集,结果有两部分,一部分是用户兴趣,另一部分是用户知识,用户兴趣方面,模型得出用户的每个微博文本和兴趣的向量矩阵,计算出每个用户对于每个兴趣领域的权重,计算式为:

式中,x

用户知识方面,将用户的所有微博经过模型划分为四类:超根、超话题、子话题、词,超根表示所有超话题的根,在模型中并无实际的值,超话题包括用户的兴趣层面领域,子话题是连接超话题和词之间的纽带,是超话题细分下的结果,最底层的词是用户微博中分词出来的。模型中设定超话题个数为1,子话题个数为10,每一个子话题下词汇个数为5,这一个层次数最底层有50个词,用户知识层次图在实施例的所有数据集的基础上产生,不针对具体的用户,在得到用户的兴趣分布基础上,将用户的微博中的词与知识层次分布结合,得到用户知识程度刻画,用户v对某一特定兴趣领域下的知识深度,具体通过下式计算:

dep(w)

(四)实施例分析

在以上步骤的基础上,将用户兴趣权重的阈值设置为0.1,只要在某些领域里用户的兴趣权重值超过0.1,就将其归类到用户的兴趣中。对于用户知识的界定,在模型中由于层次中节点太多,随机挑选几个节点,表示为一个简单的层次结构,可以看到超话题有两个:互联网和汽车,互联网和汽车这两个主题下也同样有一个共同的子话题:车联网,互联网这个超话题下存在着子话题大数据,分布式系统下又存在更多专业性的词,汽车结构话题下同样如此。在这样一个层次结构中,越到底层,涉及到的词汇越专业。如果一个用户发的微博中涉及到的专业词汇越多,可以在一定程度上确认其在这一领域的知识深度,而知识越深,则更能刻画出用户在这一领域的知识。本实施例中根据知识深度将用户划分为了五个层次,依次为:一般、了解、理解、掌握、专业,这五个层次是根据用户的dep(w)值划分。

知识隐含于兴趣当中,模型在兴趣的基础上挖掘出用户的知识深度,以此确认这个用户在某一兴趣方面仅仅只是停留在感兴趣的表面层次还是更进一步地属于掌握甚至专业的深度认知层次。在兴趣刻画方面,将用户的兴趣与用户自身的标签进行对比为主,如果用户兴趣能够涵盖于用户自身定义的标签中,且不一致的情况少于或等于一个标签,将其判定为准确,反之为不准确。在知识刻画评价方面,如果人工标记结果和模型结果相差一个级别也就是一个是五级,另外一个是四级,将其仍旧判定为结果准确,而一旦相差到等于或者大于两个级别的话,判定为结果不准确。

实施例对选择的50个高质量的用户在用户刻画模型中跑出的结果与进行了人工标记的平均判别结果进行对比与统计,结果在兴趣刻画方面,43个用户的对比结果为准确,准确了率高达86%;在知识刻画方面,有42个用户的对比结果为准确,准确率达到了84%,表明本发明在用户的刻画准确性上比较准确,经过仔细研究发现,由于一些用户转发的微博中大量包含图片和长微博等模型无法读取和处理的数据,而在进行人工标记的时候,这些图片和长微博都纳入了考虑范围,一定程度上降低了模型的准确率。

互联网的飞速发展,网络信息数据量越来越大,人们快速准确获取信息的要求越来越高,个性化服务也遇到了越来越大的挑战,需要准确的对用户进行个性化描摹来提高自身服务质量。本发明基于互联网用户,结合用户的微博信息,进行了以下创新:一是本发明不局限于兴趣描述的层面,提出了根据知识与兴趣两个方面的描摹方式来进行用户刻画的方法。二是将知识层级融合进LDA改进模型中,提出了互联网用户的知识与兴趣个性化描摹模型。实施例结果显示,本发明能够比较准确的描摹出互联网用户的知识与兴趣。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号