首页> 中国专利> 日志分类模型的建立、行为日志分类方法及装置

日志分类模型的建立、行为日志分类方法及装置

摘要

本发明提供一种日志分类模型的建立、行为日志分类方法及装置。一方面,本发明实施例通过根据每个Session段中所包括的行为日志的检索关键词、题目和URL,获得每个所述Session段中每个行为日志的对应字段所属的至少一个第一候选主题,进而根据所述至少一个第一候选主题,利用投票方法,确定每个所述Session段所属的第二候选主题,使得能够将每个所述Session段所属的第二候选主题,作为每个所述Session段中每个行为日志所属的主题,以作为目标训练数据,由于通过对行为日志进行基于主题的分类,实现对该行为日志的统计,能够避免现有技术中由于很多行为日志缺少Query或Title等字段而导致的无法对行为日志进行统计的问题,从而提高了行为日志的分析的准确性。

著录项

  • 公开/公告号CN103455411A

    专利类型发明专利

  • 公开/公告日2013-12-18

    原文格式PDF

  • 申请/专利权人 百度在线网络技术(北京)有限公司;

    申请/专利号CN201310331868.5

  • 发明设计人 黄世维;黄硕;徐倩;向伟;

    申请日2013-08-01

  • 分类号

  • 代理机构北京鸿德海业知识产权代理事务所(普通合伙);

  • 代理人袁媛

  • 地址 100085 北京市海淀区上地十街10号百度大厦

  • 入库时间 2024-02-19 21:57:24

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-04-27

    授权

    授权

  • 2014-01-15

    实质审查的生效 IPC(主分类):G06F11/34 申请日:20130801

    实质审查的生效

  • 2013-12-18

    公开

    公开

说明书

【技术领域】

本发明涉及数据挖掘技术,尤其涉及一种日志分类模型的建立、行为日 志分类方法及装置。

【背景技术】

随着通信技术的发展,终端集成了越来越多的功能,从而使得终端的系 统功能列表中包含了越来越多相应的应用程序,例如,电脑中安装的应用程 序,第三方智能手机中安装的应用程序(Application,APP)等。这些应用程 序每天都会产生大量的用户的行为日志,对这些行为日志进行分析,能够确 定用户的兴趣变化、突发热点事情、产品优缺点等重要信息。现有技术中, 在对用户的行为日志进行分析的过程中,可以通过对检索关键词(Query)或 题目(Title)等字段,进行基于主题的分类,例如,体育类、娱乐类、游戏类 或医疗类等,实现对Query或Title等字段所属的行为日志进行统计。基于统 计之后的行为日志进行分析,会使得分析结果更加准确。

然而,由于行为日志的多样性,因此,有很多行为日志可能会缺少Query 或Title等字段,使得无法对Query或Title等字段,进行基于主题的分类, 这样,则无法对行为日志进行统计,从而导致了行为日志的分析的准确性的 降低。

【发明内容】

本发明的多个方面提供一种日志分类模型的建立、行为日志分类方法及 装置,用以提高行为日志的分析的准确性。

本发明的一方面,提供一种日志分类模型的建立方法,包括:

从至少一个数据源中,获取指定用户的行为日志;

对所述行为日志进行划分,以获得至少一个Session段;

根据每个所述Session段中所包括的行为日志的检索关键词、题目和 URL,获得每个所述Session段中每个行为日志的对应字段所属的至少一个 第一候选主题;

根据所述至少一个第一候选主题,利用投票方法,确定每个所述Session 段所属的第二候选主题;

将每个所述Session段所属的第二候选主题,作为每个所述Session段 中每个行为日志所属的主题,以作为目标训练数据;

利用所述至少一个第一候选主题和所述目标训练数据,训练日志分类模 型,所述日志分类模型用于将待分类的行为日志映射到对应主题。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所 述根据每个所述Session段中所包括的行为日志的Query、Title和URL,获 得每个所述Session段中每个行为日志的对应字段所属的至少一个第一候选 主题,包括:

利用每个所述Session段中所包括的行为日志的Query作为第一输入参 数,运行Query分类模型,以获得每个所述Session段中每个行为日志的对 应字段所属的第一候选主题;

利用每个所述Session段中所包括的行为日志的Title作为第二输入参数, 运行Title分类模型,以获得每个所述Session段中每个行为日志的对应字段 所属的第一候选主题;以及

利用每个所述Session段中所包括的行为日志的URL作为第三输入参 数,运行URL分类模型,以获得每个所述Session段中每个行为日志的对应 字段所属的第一候选主题。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所 述利用所述至少一个第一候选主题和所述目标训练数据,训练日志分类模型, 所述日志分类模型用于将待分类的行为日志映射到对应主题,包括:

根据所述至少一个第一候选主题,生成训练主题特征;

利用所述训练主题特征和所述目标训练数据,训练所述日志分类模型。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所 述根据所述至少一个第一候选主题,生成训练主题特征,包括:

根据所述至少一个第一候选主题中每个所述第一候选主题,生成至少一 个第三候选主题;

根据所述至少一个第一候选主题和所述至少一个第三候选主题,生成所 述训练主题特征。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所 述将每个所述Session段所属的第二候选主题,作为每个所述Session段中 每个行为日志所属的主题,以作为目标训练数据,包括:

将每个所述Session段所属的第二候选主题,作为每个所述Session段 中每个行为日志所属的主题,以生成候选训练数据;

对所述候选训练数据,进行有效性验证;

将通过所述有效性验证的候选训练数据,作为所述目标训练数据

本发明的另一方面,提供一种基于日志分类模型的行为日志分类方法, 所述分类模型为采用如上所述的日志分类模型的建立方法建立;所述方法包 括:

获取待识别的行为日志;

根据所述行为日志的Query、Title和URL,获得所述行为日志的对应字 段所属的至少一个第一候选主题;

根据所述至少一个第一候选主题,利用所述日志分类模型,对所述行为 日志进行分类,以将所述行为日志映射到对应主题。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所 述根据所述行为日志的Query、Title和URL,获得所述行为日志的对应字段 所属的至少一个第一候选主题,包括:

利用所述行为日志的Query作为第一输入参数,运行Query分类模型, 以获得所述行为日志的对应字段所属的第一候选主题;

利用所述行为日志的Title作为第二输入参数,运行Title分类模型,以获 得所述行为日志的对应字段所属的第一候选主题;以及

利用所述行为日志的URL作为第三输入参数,运行URL分类模型,以 获得所述行为日志的对应字段所属的第一候选主题。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所 述根据所述至少一个第一候选主题,利用所述日志分类模型,对所述行为日 志进行分类,以将所述行为日志映射到对应主题,包括:

根据所述至少一个第一候选主题,生成匹配主题特征;

利用所述匹配主题特征作为第四输入参数,运行所述日志分类模型,以 将所述行为日志映射到对应主题。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所 述根据所述至少一个第一候选主题,生成匹配主题特征,包括:

根据所述至少一个第一候选主题中每个所述第一候选主题,生成至少一 个第二候选主题;

根据所述至少一个第一候选主题和所述至少一个第二候选主题,生成所 述匹配主题特征。

本发明的另一方面,提供一种日志分类模型的建立装置,包括:

获取单元,用于从至少一个数据源中,获取指定用户的行为日志;

划分单元,用于对所述行为日志进行划分,以获得至少一个Session段;

匹配单元,用于根据每个所述Session段中所包括的行为日志的Query、 Title和URL,获得每个所述Session段中每个行为日志的对应字段所属的至 少一个第一候选主题;

确定单元,用于根据所述至少一个第一候选主题,利用投票方法,确定 每个所述Session段所属的第二候选主题;

准备单元,用于将每个所述Session段所属的第二候选主题,作为每个 所述Session段中每个行为日志所属的主题,以作为目标训练数据;

训练单元,用于利用所述至少一个第一候选主题和所述目标训练数据, 训练日志分类模型,所述日志分类模型用于将待分类的行为日志映射到对应 主题。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所 述匹配单元,具体用于

利用每个所述Session段中所包括的行为日志的Query作为第一输入参 数,运行Query分类模型,以获得每个所述Session段中每个行为日志的对 应字段所属的第一候选主题;

利用每个所述Session段中所包括的行为日志的Title作为第二输入参数, 运行Title分类模型,以获得每个所述Session段中每个行为日志的对应字段 所属的第一候选主题;以及

利用每个所述Session段中所包括的行为日志的URL作为第三输入参 数,运行URL分类模型,以获得每个所述Session段中每个行为日志的对应 字段所属的第一候选主题。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所 述训练单元,具体用于

根据所述至少一个第一候选主题,生成训练主题特征;

利用所述训练主题特征和所述目标训练数据,训练所述日志分类模型。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所 述训练单元,具体用于

根据所述至少一个第一候选主题中每个所述第一候选主题,生成至少一 个第三候选主题;

根据所述至少一个第一候选主题和所述至少一个第三候选主题,生成所 述训练主题特征。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所 述准备单元,具体用于

将每个所述Session段所属的第二候选主题,作为每个所述Session段 中每个行为日志所属的主题,以生成候选训练数据;

对所述候选训练数据,进行有效性验证;

将通过所述有效性验证的候选训练数据,作为所述目标训练数据

本发明的另一方面,提供一种基于日志分类模型的行为日志分类装置,所 述分类模型为采用如上所述的日志分类模型的建立方法建立;所述装置包括:

获取单元,用于获取待识别的行为日志;

匹配单元,用于根据所述行为日志的Query、Title和URL,获得所述行 为日志的对应字段所属的至少一个第一候选主题;

分类单元,用于根据所述至少一个第一候选主题,利用所述日志分类模 型,对所述行为日志进行分类,以将所述行为日志映射到对应主题。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所 述匹配单元,具体用于

利用所述行为日志的Query作为第一输入参数,运行Query分类模型, 以获得所述行为日志的对应字段所属的第一候选主题;

利用所述行为日志的Title作为第二输入参数,运行Title分类模型,以获 得所述行为日志的对应字段所属的第一候选主题;以及

利用所述行为日志的URL作为第三输入参数,运行URL分类模型,以 获得所述行为日志的对应字段所属的第一候选主题。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所 述分类单元,具体用于

根据所述至少一个第一候选主题,生成匹配主题特征;

利用所述匹配主题特征作为第四输入参数,运行所述日志分类模型,以 将所述行为日志映射到对应主题。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所 述分类单元,具体用于

根据所述至少一个第一候选主题中每个所述第一候选主题,生成至少一 个第二候选主题;

根据所述至少一个第一候选主题和所述至少一个第二候选主题,生成所 述匹配主题特征。

由上述技术方案可知,一方面,本发明实施例通过根据每个Session段 中所包括的行为日志的检索关键词、题目和URL,获得每个所述Session段 中每个行为日志的对应字段所属的至少一个第一候选主题,进而根据所述至 少一个第一候选主题,利用投票方法,确定每个所述Session段所属的第二 候选主题,使得能够将每个所述Session段所属的第二候选主题,作为每个 所述Session段中每个行为日志所属的主题,以作为目标训练数据,由于通 过对行为日志进行基于主题的分类,实现对该行为日志的统计,能够避免现 有技术中由于很多行为日志缺少Query或Title等字段而导致的无法对行为日 志进行统计的问题,从而提高了行为日志的分析的准确性。

由上述技术方案可知,另一方面,本发明实施例通过根据所述行为日志 的Query、Title和URL,获得所述行为日志的对应字段所属的至少一个第一 候选主题,进而根据所述至少一个第一候选主题,利用所述日志分类模型, 对所述行为日志进行分类,以将所述行为日志映射到对应主题,由于通过对 行为日志进行基于主题的分类,实现对该行为日志的统计,能够避免现有技 术中由于很多行为日志缺少Query或Title等字段而导致的无法对行为日志进 行统计的问题,从而提高了行为日志的分析的准确性。

【附图说明】

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有 技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的 附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造 性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的日志分类模型的建立方法的流程示意图;

图2为本发明另一实施例提供的基于日志分类模型的行为日志分类方法 的流程示意图;

图3为本发明另一实施例提供的日志分类模型的建立装置的结构示意图;

图4为本发明另一实施例提供的基于日志分类模型的行为日志分类装置 的结构示意图。

【具体实施方式】

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发 明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述, 显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获 得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,本发明实施例中所涉及的终端可以包括但不限于手机、 个人数字助理(Personal Digital Assistant,PDA)、无线手持装置、无线上 网本、个人电脑、便携电脑、MP3播放器、MP4播放器等。

另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示 可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A 和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对 象是一种“或”的关系。

图1为本发明一实施例提供的日志分类模型的建立方法的流程示意图, 如图1所示。

101、从至少一个数据源中,获取指定用户的行为日志。

102、对所述行为日志进行划分,以获得至少一个用户意图(Session) 段。

103、根据每个所述Session段中所包括的行为日志的检索关键词 (Query)、题目(Title)和统一资源定位符(Uniform Resource Locator, URL),获得每个所述Session段中每个行为日志的对应字段所属的至少一个 第一候选主题。

104、根据所述至少一个第一候选主题,利用投票方法,确定每个所述 Session段所属的第二候选主题。

105、将每个所述Session段所属的第二候选主题,作为每个所述Session 段中每个行为日志所属的主题,以作为目标训练数据。

106、利用所述至少一个第一候选主题和所述目标训练数据,训练日志分 类模型,所述日志分类模型用于将待分类的行为日志映射到对应主题。

需要说明的是,101~106的执行主体可以是建模装置。

这样,通过根据每个Session段中所包括的行为日志的检索关键词、题 目和URL,获得每个所述Session段中每个行为日志的对应字段所属的至少 一个第一候选主题,进而根据所述至少一个第一候选主题,利用投票方法, 确定每个所述Session段所属的第二候选主题,使得能够将每个所述Session 段所属的第二候选主题,作为每个所述Session段中每个行为日志所属的主 题,以作为目标训练数据,由于通过对行为日志进行基于主题的分类,实现 对该行为日志的统计,能够避免现有技术中由于很多行为日志缺少Query或 Title等字段而导致的无法对行为日志进行统计的问题,从而提高了行为日志 的分析的准确性。

具体地,在全网的数据源中,用户的一个行为日志可以为如下格式:[uid  URL source query title date time ip actid actname actattr unifyUrl PtNumber  commonQuery]。其中,共包括14个字段,各字段的含义如下所述:

用户标识(User ID,uid):baiduid映射出来的用户id,由若干数字组 成;

统一资源定位符(Uniform Resource Locator,URL):可能为空,或可 能不以“http”开头;

数据源(source):产品线的数据来源,例如,百度百科(baike)、百度 论坛(forum)或百度地图(map);

检索关键词(query):可能为空;

题目(title):网页名称;

日期(date):例如,2013年6月3日,其格式一般可以为“20120603”。

时间(time):例如,12点34分02秒,其格式一般可以为12:34:02。

ip:IP地址

动作标识(actid):网页动作的标识;

动作名称(actname):网页动作的名称;

动作属性(actattr):网页动作的属性;

归一化URL(unifyUrl):URL的归一化结果;

URL资源类型(PtNumber):整数显示,默认‘‐’(即‘0’);

通用Query(commonQuery):URL最常用的query。

可选地,在本实施例的一个可能的实现方式中,在103中,具体可以包 括如下操作:

利用每个所述Session段中所包括的行为日志的Query作为第一输入参 数,运行Query分类模型,以获得每个所述Session段中每个行为日志的对 应字段所属的第一候选主题;

利用每个所述Session段中所包括的行为日志的Title作为第二输入参数, 运行Title分类模型,以获得每个所述Session段中每个行为日志的对应字段 所属的第一候选主题;以及

利用每个所述Session段中所包括的行为日志的URL作为第三输入参 数,运行URL分类模型,以获得每个所述Session段中每个行为日志的对应 字段所属的第一候选主题。

可以理解的是,每一种操作的详细描述可以参见现有技术中的相关内容, 此处不再赘述。

需要说明的是,利用测试样本中的行为日志的Query对所述Query分类 模型进行训练的训练方法,可以采用现有技术中的相关内容,此处不再赘述; 利用测试样本中的行为日志的Title对所述Title分类模型进行训练的训练方 法,可以采用现有技术中的相关内容,此处不再赘述;利用测试样本中的行 为日志的URL对所述URL分类模型进行训练的训练方法,可以采用现有技 术中的相关内容,此处不再赘述。

可选地,在本实施例的一个可能的实现方式中,在106中,具体可以根 据所述至少一个第一候选主题,生成训练主题特征。然后,则可以利用所述 训练主题特征和所述目标训练数据,训练所述日志分类模型。

具体地,具体可以根据所述至少一个第一候选主题中每个所述第一候选 主题,生成至少一个第三候选主题。然后,则可以根据所述至少一个第一候 选主题和所述至少一个第三候选主题,生成所述训练主题特征。

例如,具体可以将所述至少一个第一候选主题中,两两进行组合,生成 所述训练主题特征。

或者,再例如,具体还可以将所述至少一个第一候选主题中,三三进行 组合,生成所述训练主题特征。

可选地,在本实施例的一个可能的实现方式中,在105中,具体可以将 每个所述Session段所属的第二候选主题,作为每个所述Session段中每个 行为日志所属的主题,以生成候选训练数据。然后,对所述候选训练数据, 进行有效性验证,并将通过所述有效性验证的候选训练数据,作为所述目标 训练数据。

其中,所述有效性验证可以包括但不限于以下验证:

对Session段中每个行为日志对应的候选训练数据的数量进行验证,若 大于或等于预先设置的数量阈值,则确定该候选训练数据通过所述有效性验 证;

对相同的Query、Title或URL是否在两个或两个以上行为日志中出现, 如果是,则确定两条或两条以上行为日志中的一个行为日志对应的候选训练 数据通过所述有效性验证;以及

对Session段中每个行为日志的Query、Title和URL中的至少一个字段 参与投票的情况,若参与投票的字段占字段总和的比例大于或等于预先设置 的比例阈值,则确定该候选训练数据通过所述有效性验证。

本实施例中,通过根据每个Session段中所包括的行为日志的检索关键 词、题目和URL,获得每个所述Session段中每个行为日志的对应字段所属 的至少一个第一候选主题,进而根据所述至少一个第一候选主题,利用投票 方法,确定每个所述Session段所属的第二候选主题,使得能够将每个所述 Session段所属的第二候选主题,作为每个所述Session段中每个行为日志所 属的主题,以作为目标训练数据,由于通过对行为日志进行基于主题的分类, 实现对该行为日志的统计,能够避免现有技术中由于很多行为日志缺少Query 或Title等字段而导致的无法对行为日志进行统计的问题,从而提高了行为日 志的分析的准确性。

图2为本发明另一实施例提供的基于日志分类模型的行为日志分类方法 的流程示意图,如图2所示。

201、获取待识别的行为日志。

202、根据所述行为日志的Query、Title和URL,获得所述行为日志的 对应字段所属的至少一个第一候选主题。

203、根据所述至少一个第一候选主题,利用所述日志分类模型,对所述 行为日志进行分类,以将所述行为日志映射到对应主题。

其中,所述日志分类模型为采用图1对应的实施例提供的日志分类模型 的建立方法建立,详细描述可以参见图1对应的实施例中的相关内容,此处 不再赘述。

需要说明的是,201~203的执行主体可以是数据挖掘工具,例如,日志 分析软件等,可以位于本地的客户端中,以进行离线服务,或者还可以位于 网络侧的服务器中,以进行在线服务,本实施例对此不进行限定。

可以理解的是,所述客户端可以是安装在终端上的应用程序,或者还可 以是浏览器的一个网页,只要能够实现用户的行为日志的挖掘,以提供相应 服务的客观存在形式都可以,本实施例对此不进行限定。

这样,通过根据行为日志的Query、Title和URL,获得所述行为日志的 对应字段所属的至少一个第一候选主题,进而根据所述至少一个第一候选主 题,利用所述日志分类模型,对所述行为日志进行分类,以将所述行为日志 映射到对应主题,由于通过对行为日志进行基于主题的分类,实现对该行为 日志的统计,能够避免现有技术中由于很多行为日志缺少Query或Title等字 段而导致的无法对行为日志进行统计的问题,从而提高了行为日志的分析的 准确性。

具体地,在全网的数据源中,用户的一个行为日志可以为如下格式:[uid  URL source query title date time ip actid actname actattr unifyUrl PtNumber  commonQuery]。其中,共包括14个字段,各字段的含义如下所述:

用户标识(User ID,uid):baiduid映射出来的用户id,由若干数字组 成;

统一资源定位符(Uniform Resource Locator,URL):可能为空,或可 能不以“http”开头;

数据源(source):产品线的数据来源,例如,百度百科(baike)、百度 论坛(forum)或百度地图(map);

检索关键词(query):可能为空;

题目(title):网页名称;

日期(date):例如,2013年6月3日,其格式一般可以为“20120603”。

时间(time):例如,12点34分02秒,其格式一般可以为12:34:02。

ip:IP地址

动作标识(actid):网页动作的标识;

动作名称(actname):网页动作的名称;

动作属性(actattr):网页动作的属性;

归一化URL(unifyUrl):URL的归一化结果;

URL资源类型(PtNumber):整数显示,默认‘‐’(即‘0’);

通用Query(commonQuery):URL最常用的query。

可选地,在本实施例的一个可能的实现方式中,在202中,具体可以包 括如下操作:

利用所述行为日志的Query作为第一输入参数,运行Query分类模型, 以获得所述行为日志的对应字段所属的第一候选主题;

利用所述行为日志的Title作为第二输入参数,运行Title分类模型,以获 得所述行为日志的对应字段所属的第一候选主题;以及

利用所述行为日志的URL作为第三输入参数,运行URL分类模型,以 获得所述行为日志的对应字段所属的第一候选主题。

可以理解的是,每一种操作的详细描述可以参见现有技术中的相关内容, 此处不再赘述。

需要说明的是,利用测试样本中的行为日志的Query对所述Query分类 模型进行训练的训练方法,可以采用现有技术中的相关内容,此处不再赘述; 利用测试样本中的行为日志的Title对所述Title分类模型进行训练的训练方 法,可以采用现有技术中的相关内容,此处不再赘述;利用测试样本中的行 为日志的URL对所述URL分类模型进行训练的训练方法,可以采用现有技 术中的相关内容,此处不再赘述。

可选地,在本实施例的一个可能的实现方式中,在203中,具体可以根 据所述至少一个第一候选主题,生成匹配主题特征。然后,则可以利用所述 匹配主题特征作为第四输入参数,运行所述日志分类模型,以将所述行为日 志映射到对应主题。

具体地,具体可以根据所述至少一个第一候选主题中每个所述第一候选 主题,生成至少一个第二候选主题。然后,则可以根据所述至少一个第一候 选主题和所述至少一个第二候选主题,生成所述匹配主题特征。

例如,具体可以将所述至少一个第一候选主题中,两两进行组合,生成 所述训练主题特征。

或者,再例如,具体还可以将所述至少一个第一候选主题中,三三进行 组合,生成所述训练主题特征。

本实施例中,通过根据行为日志的Query、Title和URL,获得所述行为 日志的对应字段所属的至少一个第一候选主题,进而根据所述至少一个第一 候选主题,利用所述日志分类模型,对所述行为日志进行分类,以将所述行 为日志映射到对应主题,由于通过对行为日志进行基于主题的分类,实现对 该行为日志的统计,能够避免现有技术中由于很多行为日志缺少Query或Title 等字段而导致的无法对行为日志进行统计的问题,从而提高了行为日志的分 析的准确性。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表 述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描 述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同 时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属 于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有 详述的部分,可以参见其他实施例的相关描述。

图3为本发明另一实施例提供的日志分类模型的建立装置的结构示意图, 如图3所示。本实施例的日志分类模型的建立装置可以包括获取单元31、划 分单元32、匹配单元33、确定单元34、准备单元35和训练单元36。其中, 获取单元31,用于从至少一个数据源中,获取指定用户的行为日志;划分单 元32,用于对所述行为日志进行划分,以获得至少一个Session段;匹配单 元33,用于根据每个所述Session段中所包括的行为日志的Query、Title和 URL,获得每个所述Session段中每个行为日志的对应字段所属的至少一个 第一候选主题;确定单元34,用于根据所述至少一个第一候选主题,利用投 票方法,确定每个所述Session段所属的第二候选主题;准备单元35,用于 将每个所述Session段所属的第二候选主题,作为每个所述Session段中每 个行为日志所属的主题,以作为目标训练数据;以及训练单元36,用于利用 所述至少一个第一候选主题和所述目标训练数据,训练日志分类模型,所述 日志分类模型用于将待分类的行为日志映射到对应主题。

需要说明的是,本实施例提供的装置可以是建模装置。

这样,通过匹配单元根据划分单元所划分的每个Session段中所包括的 行为日志的检索关键词、题目和URL,获得每个所述Session段中每个行为 日志的对应字段所属的至少一个第一候选主题,进而由确定单元根据所述至 少一个第一候选主题,利用投票方法,确定每个所述Session段所属的第二 候选主题,使得准备单元能够将每个所述Session段所属的第二候选主题, 作为每个所述Session段中每个行为日志所属的主题,以作为目标训练数据, 由于通过对行为日志进行基于主题的分类,实现对该行为日志的统计,能够 避免现有技术中由于很多行为日志缺少Query或Title等字段而导致的无法对 行为日志进行统计的问题,从而提高了行为日志的分析的准确性。

具体地,在全网的数据源中,用户的一个行为日志可以为如下格式:[uid  URL source query title date time ip actid actname actattr unifyUrl PtNumber  commonQuery]。其中,共包括14个字段,各字段的含义如下所述:

用户标识(User ID,uid):baiduid映射出来的用户id,由若干数字组 成;

统一资源定位符(Uniform Resource Locator,URL):可能为空,或可 能不以“http”开头;

数据源(source):产品线的数据来源,例如,百度百科(baike)、百 度论坛(forum)或百度地图(map);

检索关键词(query):可能为空;

题目(title):网页名称;

日期(date):例如,2013年6月3日,其格式一般可以为“20120603”。

时间(time):例如,12点34分02秒,其格式一般可以为12:34:02。

ip:IP地址

动作标识(actid):网页动作的标识;

动作名称(actname):网页动作的名称;

动作属性(actattr):网页动作的属性;

归一化URL(unifyUrl):URL的归一化结果;

URL资源类型(PtNumber):整数显示,默认‘‐’(即‘0’);

通用Query(commonQuery):URL最常用的query。

可选地,在本实施例的一个可能的实现方式中,所述匹配单元33,具体 可以用于执行如下操作:

利用每个所述Session段中所包括的行为日志的Query作为第一输入参 数,运行Query分类模型,以获得每个所述Session段中每个行为日志的对 应字段所属的第一候选主题;

利用每个所述Session段中所包括的行为日志的Title作为第二输入参 数,运行Title分类模型,以获得每个所述Session段中每个行为日志的对应 字段所属的第一候选主题;以及

利用每个所述Session段中所包括的行为日志的URL作为第三输入参 数,运行URL分类模型,以获得每个所述Session段中每个行为日志的对应 字段所属的第一候选主题。

可以理解的是,每一种操作的详细描述可以参见现有技术中的相关内容, 此处不再赘述。

需要说明的是,利用测试样本中的行为日志的Query对所述Query分类 模型进行训练的训练方法,可以采用现有技术中的相关内容,此处不再赘述; 利用测试样本中的行为日志的Title对所述Title分类模型进行训练的训练方 法,可以采用现有技术中的相关内容,此处不再赘述;利用测试样本中的行 为日志的URL对所述URL分类模型进行训练的训练方法,可以采用现有技 术中的相关内容,此处不再赘述。

可选地,在本实施例的一个可能的实现方式中,所述训练单元36,具体 可以用于根据所述至少一个第一候选主题,生成训练主题特征;然后,则可 以利用所述训练主题特征和所述目标训练数据,训练所述日志分类模型。

具体地,所述训练单元36,具体可以用于根据所述至少一个第一候选主 题中每个所述第一候选主题,生成至少一个第三候选主题;然后,则可以根 据所述至少一个第一候选主题和所述至少一个第三候选主题,生成所述训练 主题特征。

例如,所述训练单元36具体可以将所述至少一个第一候选主题中,两两 进行组合,生成所述训练主题特征。

或者,再例如,所述训练单元36具体还可以将所述至少一个第一候选主 题中,三三进行组合,生成所述训练主题特征。

可选地,在本实施例的一个可能的实现方式中,所述准备单元35,具体 可以用于将每个所述Session段所属的第二候选主题,作为每个所述Session 段中每个行为日志所属的主题,以生成候选训练数据;然后,对所述候选训 练数据,进行有效性验证,并将通过所述有效性验证的候选训练数据,作为 所述目标训练数据。

其中,所述有效性验证可以包括但不限于以下验证:

所述准备单元35对Session段中每个行为日志对应的候选训练数据的数 量进行验证,若大于或等于预先设置的数量阈值,则确定该候选训练数据通 过所述有效性验证;

所述准备单元35对相同的Query、Title或URL是否在两个或两个以上 行为日志中出现,如果是,则确定两条或两条以上行为日志中的一个行为日 志对应的候选训练数据通过所述有效性验证;以及

所述准备单元35对Session段中每个行为日志的Query、Title和URL 中的至少一个字段参与投票的情况,若参与投票的字段占字段总和的比例大 于或等于预先设置的比例阈值,则确定该候选训练数据通过所述有效性验证。

本实施例中,通过匹配单元根据划分单元所划分的每个Session段中所 包括的行为日志的检索关键词、题目和URL,获得每个所述Session段中每 个行为日志的对应字段所属的至少一个第一候选主题,进而由确定单元根据 所述至少一个第一候选主题,利用投票方法,确定每个所述Session段所属 的第二候选主题,使得准备单元能够将每个所述Session段所属的第二候选 主题,作为每个所述Session段中每个行为日志所属的主题,以作为目标训 练数据,由于通过对行为日志进行基于主题的分类,实现对该行为日志的统 计,能够避免现有技术中由于很多行为日志缺少Query或Title等字段而导致 的无法对行为日志进行统计的问题,从而提高了行为日志的分析的准确性。

图4为本发明另一实施例提供的基于日志分类模型的行为日志分类装置 的结构示意图,如图4所示。本实施例的基于日志分类模型的行为日志分类 装置可以包括获取单元41、匹配单元42和分类单元43。其中,获取单元41, 用于获取待识别的行为日志;匹配单元42,用于根据所述行为日志的Query、 Title和URL,获得所述行为日志的对应字段所属的至少一个第一候选主题; 分类单元43,用于根据所述至少一个第一候选主题,利用所述日志分类模型, 对所述行为日志进行分类,以将所述行为日志映射到对应主题。

其中,所述日志分类模型为采用图1对应的实施例提供的日志分类模型 的建立方法建立,详细描述可以参见图1对应的实施例中的相关内容,此处 不再赘述。

需要说明的是,本实施例提供的装置可以是数据挖掘工具,例如,日志 分析软件等,可以位于本地的客户端中,以进行离线服务,或者还可以位于 网络侧的服务器中,以进行在线服务,本实施例对此不进行限定。

可以理解的是,所述客户端可以是安装在终端上的应用程序,或者还可 以是浏览器的一个网页,只要能够实现用户的行为日志的挖掘,以提供相应 服务的客观存在形式都可以,本实施例对此不进行限定。

这样,通过匹配单元根据获取单元所获取的行为日志的Query、Title和 URL,获得所述行为日志的对应字段所属的至少一个第一候选主题,进而由 分类单元根据所述至少一个第一候选主题,利用所述日志分类模型,对所述 行为日志进行分类,以将所述行为日志映射到对应主题,由于通过对行为日 志进行基于主题的分类,实现对该行为日志的统计,能够避免现有技术中由 于很多行为日志缺少Query或Title等字段而导致的无法对行为日志进行统计 的问题,从而提高了行为日志的分析的准确性。

具体地,在全网的数据源中,用户的一个行为日志可以为如下格式:[uid  URL source query title date time ip actid actname actattr unifyUrl PtNumber  commonQuery]。其中,共包括14个字段,各字段的含义如下所述:

用户标识(User ID,uid):baiduid映射出来的用户id,由若干数字组 成;

统一资源定位符(Uniform Resource Locator,URL):可能为空,或可 能不以“http”开头;

数据源(source):产品线的数据来源,例如,百度百科(baike)、百 度论坛(forum)或百度地图(map);

检索关键词(query):可能为空;

题目(title):网页名称;

日期(date):例如,2013年6月3日,其格式一般可以为“20120603”。

时间(time):例如,12点34分02秒,其格式一般可以为12:34:02。

ip:IP地址

动作标识(actid):网页动作的标识;

动作名称(actname):网页动作的名称;

动作属性(actattr):网页动作的属性;

归一化URL(unifyUrl):URL的归一化结果;

URL资源类型(PtNumber):整数显示,默认‘‐’(即‘0’);

通用Query(commonQuery):URL最常用的query。

可选地,在本实施例的一个可能的实现方式中,所述匹配单元42,具体 可以用于执行以下操作:

利用所述行为日志的Query作为第一输入参数,运行Query分类模型, 以获得所述行为日志的对应字段所属的第一候选主题;

利用所述行为日志的Title作为第二输入参数,运行Title分类模型,以获 得所述行为日志的对应字段所属的第一候选主题;以及

利用所述行为日志的URL作为第三输入参数,运行URL分类模型,以 获得所述行为日志的对应字段所属的第一候选主题。

可以理解的是,每一种操作的详细描述可以参见现有技术中的相关内容, 此处不再赘述。

需要说明的是,利用测试样本中的行为日志的Query对所述Query分类 模型进行训练的训练方法,可以采用现有技术中的相关内容,此处不再赘述; 利用测试样本中的行为日志的Title对所述Title分类模型进行训练的训练方 法,可以采用现有技术中的相关内容,此处不再赘述;利用测试样本中的行 为日志的URL对所述URL分类模型进行训练的训练方法,可以采用现有技 术中的相关内容,此处不再赘述。

可选地,在本实施例的一个可能的实现方式中,所述分类单元43,具体 可以用于根据所述至少一个第一候选主题,生成匹配主题特征;然后,则可 以利用所述匹配主题特征作为第四输入参数,运行所述日志分类模型,以将 所述行为日志映射到对应主题。

具体地,所述分类单元43,具体可以用于根据所述至少一个第一候选主 题中每个所述第一候选主题,生成至少一个第二候选主题;然后则可以根据 所述至少一个第一候选主题和所述至少一个第二候选主题,生成所述匹配主 题特征。

例如,所述分类单元43具体可以将所述至少一个第一候选主题中,两两 进行组合,生成所述训练主题特征。

或者,再例如,所述分类单元43具体还可以将所述至少一个第一候选主 题中,三三进行组合,生成所述训练主题特征。

本实施例中,通过匹配单元根据获取单元所获取的行为日志的Query、 Title和URL,获得所述行为日志的对应字段所属的至少一个第一候选主题, 进而由分类单元根据所述至少一个第一候选主题,利用所述日志分类模型, 对所述行为日志进行分类,以将所述行为日志映射到对应主题,由于通过对 行为日志进行基于主题的分类,实现对该行为日志的统计,能够避免现有技 术中由于很多行为日志缺少Query或Title等字段而导致的无法对行为日志进 行统计的问题,从而提高了行为日志的分析的准确性。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描 述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应 过程,在此不再赘述。

在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和 方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示 意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可 以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个 系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间 的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合 或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作 为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方, 或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或 者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中, 也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单 元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件 功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机 可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指 令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等) 或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述 的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、 随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种 可以存储程序代码的介质。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其 限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术 人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或 者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技 术方案的本质脱离本发明各实施例技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号