公开/公告号CN104050298A
专利类型发明专利
公开/公告日2014-09-17
原文格式PDF
申请/专利权人 成都品果科技有限公司;
申请/专利号CN201410317014.6
发明设计人 张一文;
申请日2014-07-04
分类号G06F17/30(20060101);
代理机构51214 成都九鼎天元知识产权代理有限公司;
代理人邓世燕
地址 610041 四川省成都市高新区天府软件园C12-16楼
入库时间 2023-12-17 01:14:57
法律状态公告日
法律状态信息
法律状态
2018-04-06
专利权人的姓名或者名称、地址的变更 IPC(主分类):G06F17/30 变更前: 变更后: 申请日:20140704
专利权人的姓名或者名称、地址的变更
2017-09-26
授权
授权
2014-10-22
实质审查的生效 IPC(主分类):G06F17/30 申请日:20140704
实质审查的生效
2014-09-17
公开
公开
技术领域
本发明涉及一种基于LDA主题模型算法的用户细分方法。
背景技术
本发明先介绍用户细分过程,紧随其后的是个人偏好小节,最终则得出关 于LDA理论方面的简要介绍。
1.用户分类
数据挖掘可以提供客户洞察力,这对建立有效的市场营销、销售以及个性 化策略是至关重要的。它会导致客户之间的个性化交流,因此通过数据分析来 提升满意度以及有益的客户关系。
通过客户生活周期的各个阶段,即从获取和建立一种强大的关系到预防摩 擦和赢回失去的客户,它可支持一种“个性化”且优化的客户管理。营销人员 努力获得更大的市场份额以及更大比例的客户。简单来讲,他们负责获取、开 发并维持顾客。
为了能够提供个性化的市场营销战略,用户细分的主要流程是根据用户的 一些特征,把用户群划分为不同的群体。
在手动或者传统用户细分中,通常按用户的行为和使用特点进行细分。尽 管行为分类可以由业务规则创建,但这项方法拥有很多基础性的缺点:它只能 有效地处理少数分类领域,而且其客观性是受到质疑的,因为它是基于业务专 家的个人感知。
另一方面,基于数据挖掘的方法可以创建数据驱动的行为细分。细分算法 可以分析行为数据,确认不同群组的客户并且提出基于数据格式的方法。
流行的基于数据挖掘的分类方法包括:价值基础细分法(value-based segmentation)、行为细分法(behavioral segmentation)、忠诚度细分法 (loyalty segmentation)、社会细分法(socio-based segmentation)以及需求 基础细分法(needs-based segmentation)。
还存在另一种用户细分法,该方法是建立在个人偏好主观性的基础上的。
2.个人偏好
个人偏好可以看作是对于特定的物体或者概念的情感、行为以及感受的独 特结合,这种全面融合使得用户细分方法更具个性化的独特性。
为了更好地了解用户,可以定义许多个人偏好,用于量化客户。比如:
(1)喜欢玩游戏的用户;
(2)喜欢听音乐的用户;
(3)喜欢看电影的用户;
(4)喜欢网上购物的用户;
(5)喜欢阅读的用户;
(6)喜欢旅行的用户;
(7)喜欢美食的用户。
为了将这些个性化标签应用到用户身上,从而有效地细分用户,首先需要 了解他们的不同特征。这是项挑战性工作,因为用户不会明确地告诉我们他们 是谁,偏好是什么;我们需要根据一些隐含信息来间接地获取。
举例来说,用户隐含的一些信息如下:他们所听的音乐类型、喜欢看的电 影或者电视剧类型、浏览的网站类型、喜欢拍或者观赏的照片、社交网络上结 交的朋友类型以及喜欢阅读的书籍类型。最终,我们能够从社交网络上搜寻到 某个特定的用户,例如他们的爱好和私人信息。
本发明并不关注如何从用户获取这些隐含的私人特征。本发明假设这些用 户间接信息或特征已经获取了,并且基于那些信息建立LDA模型。
3.Latent Dirichlet Allocation(潜在主题抽取)算法
Latent Dirichlet Allocation(潜在主题抽取)或者LDA,是一种被应用在 文本挖掘方面的机器学习方法,通常目的在于从一个文档集合中自动发现专题 论题。
简而言之,LDA模型从一大堆文档集合中抽取一个预先确定数量的主题, 而且该训练模式可以被用来推断其后任何文档的主题(不同的权重)。例如, 一个文档谈论苹果电脑和汽车,那么其推断主题很可能即为“电脑”和“汽车”。
主题建模是指,将整个文档集合细分成相关少数主题的词并且作为主题融 合代表每个文档。这样,通过察看主题中的词就可以解释这个模型。
发明内容
为了克服现有技术的上述缺点,本发明提供了一种基于LDA主题模型算法 的用户细分方法,目的在于将社交网络平台上众多的用户或客户贴上富有个性 化的标签,例如游戏玩家、社交网络发烧友、音乐爱好者、喜欢网上购物、高 级用户、旅行家、喜欢阅读的等其他标签。而且,根据本发明,一个用户或客 户还可以同时继承多个标签。
本发明解决其技术问题所采用的技术方案是:一种基于LDA主题模型算 法的用户细分方法,包括如下步骤:
步骤一、随机挑选一组用户,并为每一用户建立一个对应的文本文档;
步骤二、构建用户偏好属性字典;
步骤三、LDA模型训练:
(1)基于构建好的用户偏好属性字典,创建一个代表整个训练数据集的 词袋;
(2)利用创建好的词袋,把所有训练用户的偏好从文字格式转换到BOW 格式;
(3)将BOW格式的训练数据填入LDA模型来进行训练;
步骤四、预测且细分新用户:
(1)对于每一位新用户,按照步骤二的方法构建该用户的偏好属性字典;
(2)按照步骤三的方法将该用户的偏好从文字格式转化为BOW格式,再 将BOW格式的训练数据填入训练好的LDA模型;
(3)LDA模型按照该用户的实际偏好输出跟该用户相关的各种主题标签 及其权重。
与现有技术相比,本发明的积极效果是:能够将社交网络平台上众多的用 户或客户个性化;即所有客户不再被看成简单的数字,而是具有不同偏好(标 签)的个体。用个体的偏好和习惯来量化地勾勒出个体的具体细节轮廓。采用 本发明方法得出的对个体属性和偏好的诠释在某些时候甚至能超过个体本人 对自身的诠释和了解。
本发明可以将用户细分为个性化的群组,例如,喜欢网上购物的用户、喜 欢阅读的用户以及喜欢听音乐的用户;可以用群组主题上类似的理念或者偏好 一起来构成主题上有联系的群组;本发明还可以预测或者细分新的(或者未预 见的)用户为各种主题。
具体实施方式
本发明主要包括两部分,第一,基于用户偏好和习惯的LDA建模。第二, 运用训练好的模型来预测并且将用户细分为个性化群组。
第一部分:LDA模型训练
LDA算法的核心在于将用户偏好转变为便于LDA使用的文本模式:
首先将某一用户的习惯和偏好用来建立该用户的多个维度或者方面。例 如,该人是否喜欢阅读、购物、旅行或者玩游戏。这就类似于一篇文档,其内 容或者词从整体上来描述该文档的意义或者信息。
然后将这些用习惯和偏好表示的用户的维度信息填充到LDA算法里面。经 历特定数量的模型培养,将这些用习惯和偏好表示的特定数量的用户的维度信 息细分为N个不同的主题,即“主题1”、“主题2”、“主题3”、…“主题N”、, 每个主题代表一个偏好和习惯。
第二部分:预测及用户聚类
在第二部分,基于用户的偏好,使用训练好的LDA模型来细分新用户:将 各新用户的偏好数据填充到已经培育的LDA模型,然后输出各用户的各个主题 的可能性,并与所有可能的主题相对应。比如:
用户1(主题3:50%;主题1:15%;…);
用户2(主题10:45%;主题47:6%;…);
用户3(主题23:54%;主题6:26%;...);
…
用户M(主题7:76%;主题2:3%;…);
例如,如果某位用户喜欢网上购物、阅读以及欣赏音乐,那么当我们把这 些信息输入到训练好的LDA模型后,模型的输出(主题标签)在理论上是应该 能把这些不同纬度的爱好反映出来的。也就是说,通过几个主题标签就能把一 个用户的偏好和习惯表达出来。
以下是本发明方法步骤的详细描述:
一种基于LDA主题模型算法的用户细分方法,包括如下步骤:
步骤一、随机挑选一组用户,并为每一用户建立一个对应的文本文档:
1、随机挑选一组用户来构建训练数据集,用户数可为1000至1000万;
2、对于每一用户,从其文本文档中提取一组属性,用于描述该用户的偏好 和习惯。也就是说,每位用户实际上就是一个单独的文档,用户的偏好和习 惯也就是这个文档里的文字内容。
步骤二、构建用户偏好属性字典
1、结合所有训练用户的偏好属性于一个单独的字典,而且这个字典会记 录每一个偏好属性的出现频率。比如,“网上购物”在5000个训练用户的偏好 里出现,那么这个偏好属性的出现频率就是5000。
2、移除训练数据中出现频率低于5%的偏好属性。这是因为出现频率太低 的偏好属性不会对LDA模型的准确度有任何的帮助;相反,频率低的偏好属性 对模型的准确度是有害的。
3、移除训练数据中出现频率高于90%的偏好属性。这是因为出现频率太高 的偏好属性不会对LDA模型的准确度有任何的帮助;相反,频率高的偏好属性 对模型的准确度是有害的。
4、在剩下的偏好属性中,仅保留按出现频率从高到低排列的前N个偏好 属性。N通常取6000至10000个,只要能满足用户偏好的维度即可,太多的偏 好属性会影响计算速度。
步骤三、LDA模型训练
1、基于构建好的偏好属性字典,创建一个代表整个训练数据集的词袋BOW (Bag of words)。BOW算法的主要功能在于对一个文本,忽略其词序、语法和 句法,将其仅仅看作是一个词的集合。也就是说,用一些比较有代表性的词的 集合来代表一个文本的内容。
2、利用创建好的词袋(BOW),把所有训练用户的偏好从文字格式转换到 BOW格式。如表1所示,也就是说,我们所有的训练用户都用1或0来代替他 们的偏好。1代表这个用户拥有某个偏好,0代表用户没有这个偏好。
表1:
3、将BOW格式的训练数据填入LDA模型来进行训练。也就是说,利用LDA 算法把用户爱好根据相似度细分到不同的主题。以表2为例具体说明如下:
表2:
表2中左边是被LDA细分到一起的用户偏好,右边是根据相似度细分的主 题标签。即,每一个LDA主题标签(右边的)会拥有不用维度的内容(左边的)。
步骤四、预测且细分新用户:
1、对于每一位新用户,按照步骤二的方法构建该用户的偏好属性字典;
2、按照步骤三的方法将该用户的偏好从文字格式转化为BOW格式,再将 BOW格式的训练数据填入训练好的LDA模型;
3、LDA模型按照该用户的实际偏好输出跟该用户相关的各种主题标签及 其权重,如表3所示。
表3:
也就是说,通过把用户的偏爱和爱好首先用文字描述,然后转变成BOW格 式,输入到训练好的LDA模型来进行对用户画像。按照以上的例子,因为用户 1001偏好有32%属于“女生主题”,30%属于“儿童游戏主题”,和24%的“网 上购物主题”。那我们就可以判断这位用户是一名女性、可能有小孩和喜欢网 上购物。
机译: 用于制造道路用户计算机仿真的道路用户算法的方法,用于训练机动车辆,计算机程序产品和机动车的控制单元的至少一种算法
机译: 一种计算机支持的方法,系统和计算机程序,用于提供直观的用户界面和算法,以利用分配算法来创建动态花名册,以利用分配算法来执行工作人员对任务的分配任务
机译: 偏好分析设备,一种分析方法,一种存储方式,一种信息提供系统,一种信息提供服务服务器,一种信息提供方法和一种偏好分析算法,特别是用于计算用户的当前权益和偏好