首页> 中国专利> 根据用户兴趣点/关注点进行个性化推荐的方法和系统

根据用户兴趣点/关注点进行个性化推荐的方法和系统

摘要

提供了一种根据用户兴趣点/关注点进行个性化推荐的方法和系统。所述方法包括:(a)整合用户在多个产品线上的在预定时间段内的用户行为日志;(b)针对用户在预定时间段内的行为日志进行会话划分;(c)对划分的会话的用户行为日志进行同类需求行为信息整合并且挖掘用户关注点/兴趣点;(d)根据挖掘出的用户兴趣点/关注点通过推荐排序模型展示针对用户兴趣点/关注点的个性化推荐。

著录项

  • 公开/公告号CN103399883A

    专利类型发明专利

  • 公开/公告日2013-11-20

    原文格式PDF

  • 申请/专利权人 百度在线网络技术(北京)有限公司;

    申请/专利号CN201310304671.2

  • 发明设计人 徐倩;向伟;陈明星;詹金波;黄硕;

    申请日2013-07-19

  • 分类号G06F17/30(20060101);

  • 代理机构11286 北京铭硕知识产权代理有限公司;

  • 代理人王艳娇;戴嵩玮

  • 地址 100085 北京市海淀区上地十街10号百度大厦三层

  • 入库时间 2024-02-19 20:56:53

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-02-08

    授权

    授权

  • 2013-12-18

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20130719

    实质审查的生效

  • 2013-11-20

    公开

    公开

说明书

技术领域

本发明涉及网络通信,更具体地讲,涉及一种根据用户兴趣点进行个性 化推荐的方法和系统。

背景技术

随着电子信息技术的发展,网络已经改变了人们的生活方式。例如,人 们可以利用网络获取自己感兴趣的书籍、电影、音乐、商品等,因此网络带 给了人们高效快捷的生活。人们已经习惯利用计算机、手机等具有上网功能 的设备,通过浏览自己感兴趣的网页进行学习、娱乐、购物等来满足自身多 方位的需求。

一般,用户通过在网络的搜索引擎输入关键字来找到感兴趣的网页。然 而通过这种搜索引擎的搜索,会呈现给用户非常多的网页,因此给用户找到 自己期望的内容带来困难。

发明内容

本发明目的是实现从用户在多个产品线上的行为记录,挖掘用户的关注 需求点来弥补单一产品线用户行为的稀疏性,从多个维度充分地了解和刻画 用户,从而给用户提供更好的个性化的搜索和推荐服务。

本发明的目的在于提供一种根据用户兴趣点进行个性化推荐的方法和系 统。

根据本发明的一方面,提供了一种根据用户兴趣点/关注点进行个性化推 荐的方法,该方法包括:(a)整合用户在多个产品线上的在预定时间段内的用 户行为日志;(b)针对用户在预定时间段内的行为日志进行会话划分;(c)对划 分的会话的用户行为日志进行同类需求行为信息整合并且挖掘用户关注点/ 兴趣点;(d)根据挖掘出的用户兴趣点/关注点通过推荐排序模型展示针对用户 兴趣点/关注点的个性化推荐。

步骤(b)可包括以下子步骤:针对用户在预定时间段内的行为日志进行块 划分;通过使用分类器来判断划分的块集合所在的会话。

所述块划分可基于以下规则中的至少一个来执行:规则1:时间完全相 同的连续日志归为同一个块;规则2:如果连续的2条日志时间间隔大于一 定时间,则归为不同的块;规则3:如果连续日志的产品线为特定产品线, 则将之归为同一个块;规则4:对比当前日志中抽取的文本信息和上一条日 志中抽取的文本信息是否相同,如果相同则归为同一个块,否则为新的一个 块的开始。

判断划分的块集合所在的会话的步骤可包括:通过遍历划分的块集合, 对于给定当前块,首先判断是否和上一个块同属于一个会话中;如果是,则 将该块归入前一个块所在的会话;否则利用回溯策略,判断往前看预定时间 内的所有块中是否有与当前块同属于一个会话的块,如果有,则将当前块归 入找到的块所在的会话中,否则将当前块归入新的会话中。

步骤(c)可包括以下子步骤:通过提取划分的会话中的特定字段来计算目 标数据;利用主题分类技术来计算每个目标的主题,并将每个主题分类相同 的目标归并在一起以形成多个目标集合;对每个目标集合进行分词以建立术 语共现图;通过应用图聚类算法来识别用户兴趣点/关注点。

展示针对用户兴趣点/关注点的个性化推荐的步骤可包括:当用户在搜索 引擎中进行搜索时,基于用户输入的搜索词将符合用户兴趣点/关注点的个性 化推荐显示在搜索结果的前面。

展示针对用户兴趣点/关注点的个性化推荐的步骤可包括:在用户浏览网 页时,在除浏览的网页的主要区块的其余区块中显示符合用户兴趣点/关注点 的个性化推荐。

根据本发明的另一方面,提供了一种根据用户兴趣点/关注点进行个性化 推荐的系统,该系统包括:整合数据源模块,用于整合用户在多个产品线上 的在预定时间段内的用户行为日志;会话划分模块,用于针对用户在预定时 间段内的行为日志进行会话划分;关注点/兴趣点挖掘模块,用于对划分的会 话的用户行为日志进行同类需求行为信息整合并且挖掘用户关注点/兴趣点; 个性化推荐模块,用于根据挖掘出的用户兴趣点/关注点通过推荐排序模型展 示针对用户兴趣点/关注点的个性化推荐。

会话划分模块可包括:块划分子模块,用于针对用户在预定时间段内的 行为日志进行块划分;会话划分子模块,用于通过使用分类器来判断划分的 块集合所在的会话。

块划分子模块可基于以下规则中的至少一个来执行块划分:规则1:时 间完全相同的连续日志归为同一个块;规则2:如果连续的2条日志时间间 隔大于一定时间,则归为不同的块;规则3:如果连续日志的产品线为特定 产品线,则将之归为同一个块;规则4:对比当前日志中抽取的文本信息和 上一条日志中抽取的文本信息是否相同,如果相同则归为同一个块,否则为 新的一个块的开始。

会话划分子模块可通过以下步骤来判断划分的块集合所在的会话:通过 遍历划分的块集合,对于给定当前块,首先判断是否和上一个块同属于一个 会话中;如果是,则将该块归入前一个块所在的会话;否则利用回溯策略, 判断往前看预定时间内的所有块中是否有与当前块同属于一个会话的块,如 果有,则将当前块归入找到的块所在的会话中,否则将当前块归入新的会话 中。

关注点/兴趣点挖掘模块可包括:目标数据计算子模块,用于通过提取划 分的会话中的特定字段来计算目标数据;目标集合形成子模块,用于利用主 题分类技术来计算每个目标的主题,并将每个主题分类相同的目标归并在一 起以形成多个目标集合;术语共现图建立子模块,用于对每个目标集合进行 分词以建立术语共现图;用户兴趣点/关注点识别子模块,用于通过应用图聚 类算法来识别用户兴趣点/关注点。

当用户在搜索引擎中进行搜索时,可通过基于用户输入的搜索词将符合 用户兴趣点/关注点的个性化推荐显示在搜索结果的前面,个性化推荐模块来 展示针对用户兴趣点/关注点的个性化推荐。

在用户浏览网页时,可通过在除浏览的网页的主要区块的其余区块中显 示符合用户兴趣点/关注点的个性化推荐,个性化推荐模块来展示针对用户兴 趣点/关注点的个性化推荐。

将在接下来的描述中部分阐述本发明另外的方面和/或优点,还有一部分 通过描述将是清楚的,或者可以经过本发明的实施而得知。

附图说明

通过下面结合附图进行的描述,本发明的上述和其他目的和特点将会变 得更加清楚,其中:

图1是示出根据本发明实施例的根据用户兴趣点进行个性化推荐的方法 的流程图;

图2是示出session划分的流程图;

图3是示出session划分的示例;

图4是示出对划分的session的用户行为日志进行同类需求行为信息整合 并且挖掘用户关注点/兴趣点的过程的流程图;

图5是根据本发明实施例的根据用户兴趣点/关注点进行个性化推荐的系 统的框图。

具体实施方式

现在,详细描述本发明的实施例,其示例在附图中表示,其中,相同的 标号始终表示相同的部件。以下通过参考附图描述实施例以解释本发明。

图1是示出根据本发明实施例的根据用户兴趣点/关注点进行个性化推荐 的方法的流程图。

如图1所示,在步骤S101,整合多个数据源,即整合用户在多个产品线 上的在预定时间段内的用户行为日志(例如,搜索点击行为日志)。这里的产品 线可包括例如大搜索、贴吧、知道、文库等等。具体地讲,通过以用户身份 (ID)为关键词依据时间顺序来组织用户在各个产品线上的搜索点击行为日 志。

在步骤S102,针对用户在预定时间段内的行为日志进行会话(session)划 分。

具体地讲,会话(session)是一个逻辑意义,它代表一个用户在某段时间内 的一个意图,从用户的日志行为来看,会话具体可以规约成具有相关联的一 组检索和点击。例如,一个用户连续搜索了“北京鲜花”“宝马”“鲜花快递” “奔驰”“别克”“鲜花购买”6个查询。其中我们可以看出<“北京鲜花”“鲜 花快递”“鲜花购买”>和<“宝马”“奔驰”“别克”>这两组检索属于不同的 行为意图,即为两个不同的session。因此,同一session可被定义为同一用户 在一段连续时间内为满足某个单一信息需求的搜索点击行为。

图2是示出session划分的流程图。

在步骤S201,针对每个用户在预定时间段内的行为日志进行块(block)划 分。所述block划分基于以下规则来执行:

规则1:时间完全相同的连续日志归为同一个block;

规则2:如果连续的2条日志时间间隔大于一定时间(例如,5分钟), 则归为不同的block;

规则3:如果连续日志的产品线是为特定产品线(例如“news”、“ting”、 “map”),则将之归为同一个block(常识上认为如果有人连续时间内在阅读 新闻、听歌、或是浏览地图则认为是同一个意图,故归为同一个block);

规则4:对比当前日志中抽取的文本信息和上一条日志中抽取的文本信 息是否相同,如果相同则归为同一个block,否则为新的一个block的开始。

应该理解,按照上述规则(规则1至规则4)的先后顺序来针对用户日志判 断是否属于同一block,即先判断用户日志是否满足规则1,如果没有满足规 则1,则继续判断规则2,以此类推。

在步骤S202,通过使用分类器来判断划分的block集合所在的session。 由于分类器属于机器学习中的现有技术,因此不在此进行赘述。

具体地讲,通过遍历划分的block集合,对于给定当前block,首先判断 是否和上一个block同属于一个session中。如果是,则将该block归入前一 个block所在的session;否则利用回溯策略,判断往前看预定时间(例如一个 小时)内的所有block中是否有与当前block同属于一个session的block,如果 有则将当前block归入找到的block所在的session中,否则将当前block归入 新的session中。更具体地讲,回溯策略主要在判断2个block是否属于同一 个session之后,再往回看预定时间(例如一个小时)之内的block是否与当前 block属于同一个session。如果没有则重新开启一个新的session,否则记录 当前block和之前的block为相同的session id。

下面将参照图3给出的示例来详细描述session划分过程。

如图3所示,该用户在时间20:19:14进行“曼联”查询、在20:21:38进 行“曼联直播”查询、在22:01:04进行“长痘痘的位置”查询、在22:11:51 进行“如何改善员工不稳定性”查询、在22:19:11进行“长痘痘是吃什么” 查询、在23:02:44进行“如何稳定员工队伍”查询。

根据上述block划分,可得到图3中间的6个block,然后遍历这6个block, 对于当前的block利用分类器判断是否和上一个block属于同个session,用分 类器判断block1(曼联)和block2(曼联直播)同属于一个session中。然后 考虑block3和block2,根据分类器确定这两个block不属于同一个session, 则接下来往回考虑block3和block1,由于这两个block的时间间隔大于预定 时间(即1个小时),故block3属于新的session。同理当遍历到block5的时候, 发现其和block4不属于同一个session,往回看一个小时内的block,发现和 block4、block3的时间间隔均在一个小时之内,故把block5和block4、block3 进行了判断,通过分类器发现block5和block4不在一个session中,而和block3 同属一个session,则把block5归入block3所在的session中。以此类推,发 现block6和block4同属一个session。当遍历完所有block之后,输出图3中 右边的结果,而左边为不考虑回溯策略的session划分结果。

现回到图1,在步骤S103,对划分的session的用户行为日志进行同类需 求行为信息整合并且挖掘用户关注点/兴趣点。

下面将参照图4对步骤S103进行详细描述。

在步骤S401,通过提取划分的会话(session)中的有用字段来计算目标 (goal)数据。

具体地讲,针对不同数据源的特点,因为不同的产品线的日志不同,因 此通过使用不同策略提取对计算兴趣点有用的字段来计算生成用户的目标数 据,因此这里的有用字段可以指查询(Query)、标题(title)等。在计算目标时一 般查询字段中的查询信息会两倍处理,其他都是一倍处理,这是由于我们认 为查询更能表达用户兴趣,而标题字段(这里的标题是指用户搜索后点击的网 页标题)等非查询信息字段只是对查询的有益补充。

在步骤S402,利用主题分类技术来计算每个目标的主题,并将每个用户 主题分类相同的目标归并在一起以形成多个目标集合。主题分类技术是对用 户搜索查询或者点击标题进行分类的机器学习技术。输入是一个查询或者标 题文本,输出为该查询或者标题能分到的某一个类别,比如“娱乐人物”,“交 通票务”,“教育培训”等等。该主题分类技术为机器学习中的常规技术,因 此在此不再累述。

在步骤S403,对每个目标集合进行分词以建立术语(term)共现图。

具体地讲,对每个目标集合中的用户的查询和标题进行切词,根据术语 共现建立术语共现图。图中每个术语共现图中的节点对应一个术语,节点的 权重对应术语出现的频次。共现图的每条边对应两个术语的共现,连接的权 重对应两个术语共现的频次。例如,以查询“我喜欢狗”为例,切词后变成 “我”、“喜欢”、“狗”这几个词,那建立的图有三个节点,每个节点一个词, 节点上的权重就是这几个词出现的频次,连接的边上的权重就是两个词共同 出现的次数,比如说我和喜欢共同出现了1次。

在步骤S404,通过应用图聚类算法来识别用户兴趣点/关注点。

具体地讲,对术语共现图进行凝聚层次聚类,以识别出术语共现图中共 有多少个Cluster(簇),这里认为每一个簇对应一个用户的兴趣点。

其后,通过下一步骤来分别输出各个聚类结果中的兴趣点:抽取用户兴 趣点时,先选择在该簇中权重最大的节点作为该兴趣点的核心术语。然后选 取连接权重乘以节点权重最大且与核心节点相连接的术语作为第一辅助术 语。最后将所有与核心术语和第一辅助术语相连的术语都提取出来作为其他 辅助术语。所以每个兴趣点的术语数量是不确定的,如果为非孤立节点,则 术语数量一定大于等于2;若为孤立节点,则术语数量为1。

之后,回到原始Session中重新核对兴趣点是否可以输出:如果兴趣点在 多天出现过或在单天出过3次以上,则认为行为够丰富,可以输出,否则不 输出。

此外,输出的每个兴趣点包括核心术语,辅助术语等。每个兴趣点还输 出来源的产品线,以辅助应用方部署策略过滤策略;同时还输出地名术语, 从而识别兴趣的地域倾向;并且输出其末次出现日期和总出现天数,以辅助 应用方判断兴趣点的时效性等。

接着,利用已经构建的词典,将已经输出的兴趣点过词典匹配模块,以 对该兴趣点加标签(tag)。词典匹配策略只考虑核心术语和第一辅助术语,首 先将这两个术语连接(包括正向和反向),进行词典匹配。若匹配成功,则输 出匹配的标签;否则利用核心术语进行匹配,若匹配成功,则输出匹配的标 签;否则利用第一辅助术语进行匹配,若匹配成功,则输出匹配的标签。

现在返回图1,在步骤S104,根据挖掘出的用户兴趣点/关注点通过推荐 排序模型展示针对用户兴趣点/关注点的个性化推荐。

上述步骤S101、S102和S103可在用户终端中执行或者在服务器中执行。 具体地讲,用户终端可从服务器上下载相应的用户兴趣点/关注点挖掘软件以 便挖掘用户兴趣点/关注点。根据以上描述,用户兴趣点/关注点挖掘软件可根 据用户的查询点击操作日志来不断地更新用户兴趣点/关注点。

上述步骤S104可在服务器上执行。上述推荐排序模型可由现有的推荐排 序模型来实现,例如,现有的推荐排序模型可根据商家竞价、根据用户IP地 址等等条件对搜索结果进行排序,因此在此不对其进行详细描述。

根据本发明的实施例,例如,当用户在搜索引擎中进行搜索时推荐排序 模型可基于用户输入的搜索词将符合用户兴趣点/关注点的网站、文章、视频 等列在搜索结果的前面。或者,可在用户浏览网页时,在除浏览的网页的主 要区块的其余区块中显示根据用户兴趣点/关注点而推荐的网站、文章、视频 等,例如,当用户兴趣点/关注点为股票时,可在用户浏览的网页的其余区块 中为用户推荐与股票相关的网站、文章、视频等。

图5是根据本发明实施例的根据用户兴趣点/关注点进行个性化推荐的系 统的框图。

如图5所示,根据本发明的根据用户兴趣点进行个性化推荐的系统包括: 整合数据源模块501、会话划分模块502、关注点/兴趣点挖掘模块503和个 性化推荐模块504。

整合数据源模块501用于整合用户在多个产品线上的在预定时间段内的 用户行为日志。

会话划分模块502用于针对用户在预定时间段内的行为日志进行会话划 分。

关注点/兴趣点挖掘模块503用于对划分的session的用户行为日志进行 同类需求行为信息整合并且挖掘用户关注点/兴趣点。

个性化推荐模块504用于根据挖掘出的用户兴趣点/关注点通过推荐排序 模型展示针对用户兴趣点/关注点的个性化推荐。

应该理解,整合数据源模块501、会话划分模块502、关注点/兴趣点挖 掘模块503可被单独或集成实现在用户终端中或集成实现在服务器上。个性 化推荐模块504可被实现在服务器上。

如图5所示,会话划分模块502包括块划分子模块5021和会话划分子模 块5022。

其中,块划分子模块5021用于针对每个用户在预定时间段内的行为日志 进行块(block)划分。所述block划分基于以下规则来执行:

规则1:时间完全相同的连续日志归为同一个block;

规则2:如果连续的2条日志时间间隔大于一定时间(例如,5分钟), 则归为不同的block;

规则3:如果连续日志的产品线是为特定产品线(例如“news”、“ting”、 “map”),则将之归为同一个block(常识上认为如果有人连续时间内在阅读 新闻、听歌、或是浏览地图则认为是同一个意图,故归为同一个block);

规则4:对比当前日志中抽取的文本信息和上一条日志中抽取的文本信 息是否相同,如果相同则归为同一个block,否则为新的一个block的开始。

会话划分子模块5022用于通过使用分类器来判断划分的block集合所在 的session。

又如图5所示,关注点/兴趣点挖掘模块503包括目标数据计算子模块 5031、目标集合形成子模块5032、术语共现图建立子模块5033和用户兴趣 点/关注点识别子模块5034。

目标数据计算子模块5031用于通过提取划分的会话(session)中的有用字 段来计算目标(goal)数据。

目标集合形成子模块5032用于利用主题分类技术来计算每个目标的主 题,并将每个用户主题分类相同的目标归并在一起以形成多个目标集合。

术语共现图建立子模块5033用于对每个目标集合进行分词以建立术语 共现图。

用户兴趣点/关注点识别子模块5034用于通过应用图聚类算法来识别用 户兴趣点/关注点。

通过根据本发明的根据用户兴趣点/关注点进行个性化推荐的方法和系 统,通过判定出用户的兴趣点/关注点,从而向用户推荐更符合用户兴趣点/ 关注点的产品,从而提高用户的满意度。

尽管已经参照本发明实施例具体显示和描述了本发明,但是本领域的技 术人员应该理解,在不脱离由权利要求限定的本发明的精神和范围的情况下, 可以对其进行形式和细节上的各种改变。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号