首页> 中国专利> 基于海量搜索日志挖掘话题脉络的方法和系统

基于海量搜索日志挖掘话题脉络的方法和系统

摘要

提供一种基于海量搜索日志挖掘话题脉络的方法及装置,所述方法包括:统计网络搜索日志,产生第一搜索词统计数据;将第一搜索词统计数据统计为第二搜索词统计数据;为第一统计记录提取关键词;计算关键词的累计搜索次数,得到关键词搜索累计统计数据;计算单位时间段的关键词搜索热度值;确定单位时间段的话题综合搜索热度值;最后确定所述话题的关键时间节点。通过采用本发明所述方法及装置,不仅能够有效避免话题关联引起的话题漂移,而且能够挖掘出清晰完整的话题脉络。

著录项

  • 公开/公告号CN103324718A

    专利类型发明专利

  • 公开/公告日2013-09-25

    原文格式PDF

  • 申请/专利权人 百度在线网络技术(北京)有限公司;

    申请/专利号CN201310256084.0

  • 发明设计人 沈剑平;彭学政;罗嵘;吴波;

    申请日2013-06-25

  • 分类号G06F17/30(20060101);

  • 代理机构11286 北京铭硕知识产权代理有限公司;

  • 代理人罗延红;张川绪

  • 地址 100085 北京市海淀区上地十街10号百度大厦三层

  • 入库时间 2024-02-19 20:34:51

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-08-10

    授权

    授权

  • 2013-10-30

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20130625

    实质审查的生效

  • 2013-09-25

    公开

    公开

说明书

技术领域

本申请涉及一种基于海量搜索日志挖掘话题脉络的方法和系统,尤其涉 及一种从海量的网络搜索日志进行分析以挖掘出给定话题的发展脉络的技 术。

背景技术

随着互联网和移动终端的推广及应用,在网上浏览新闻已经成为网民最 为常见的一种休闲方式,据腾讯科技统计:有61.67%的手机用户上网以浏览 新闻为主。这些用户在浏览新闻时,往往点击浏览一些热门话题,而这些热 门话题通常由若干话题进展组成,例如,“钓鱼岛争端”中可以包括“日本购 岛”,“香港保钓”等若干事件。任何话题都有一个产生、发展、高潮、结束 这样一个过程,整个过程中重要时刻的话题串联起来便形成话题脉络,因此 如何在从海量历史话题信息中挖掘话题脉络成为了解一个新闻事件发展的重 要需求。

为了能够在海量信息中挖掘和了解话题脉络,现有技术通常采用基于人 工编辑标注和事件跟踪两种方式实现。其中,人工编辑标注方式需要对每篇 新闻文档进行人工标注,然后通过机器将编辑标注好的文档进行汇总展示, 这种方式挖掘到的话题信息覆盖面窄,人力成本高,不适应海量新闻事件脉 络挖掘的需求;而事件跟踪方式则是通过把本阶段发生的热门话题与前一阶 段发生的热门话题进行话题关联,如果有历史话题可以关联到当前话题,则 当前话题为历史话题的一个进展,但是话题关联往往会引起话题漂移,而且 这种方式跟踪的是话题的最新进展而不是关注话题的关键进展,因此挖掘到 的话题进展数据并不是清晰话题脉络,另外,由于需要把当前的所有话题与 历史所有话题进行关联匹配,因此这种方式的后期开发成本较大,周期较长。

发明内容

本发明的目的在于提供一种基于海量搜索日志挖掘话题脉络的方法及装 置,在不需要与历史所有话题进行关联匹配的情况下,不仅能够避免话题漂 移,而且能够生成清晰的话题脉络。

一种基于海量搜索日志挖掘话题脉络的方法,所述方法包括,在服务器 端执行以下步骤:A)将预定时间段的网络搜索日志,以预定的时间单位, 按照与给定话题相关的搜索词整理成为包括多个第一统计记录的第一搜索词 统计数据,每个第一统计记录包括搜索词以及其搜索记录列表,所述点击记 录列表包括所述预定时间段内的每个单位时间段以及所述搜索词的搜索次 数;B)按照单位时间段,将第一搜索词统计数据统计成为包括多个第二统计 记录的第二搜索词统计数据,每个第二统计记录包括单位时间段以及所述单 位时间段内各搜索词的总搜索次数;C)针对每个第一统计记录中的每个搜索 词,根据在所述话题中的重要性提取至少一个关键词作为所述第一统计记录 的关键词;D)遍历第一统计记录,计算每个关键词在各个单位时间段的累 计搜索次数,以得到包括多个第三统计记录的关键词搜索累计统计数据,每 个第三统计记录包括关键词、单位时间段以及所述关键词的累计搜索次数, 其中,对于没有在预定个数的连续单位时间段被搜索的关键词,自第一个不 连续的单位时间段起计算其将其累计搜索次数记为0;E)针对每个单位时间 段,计算所述单位时间段内的第三统计记录中的累积搜索次数的和作为所述 单位时间段的关键词搜索热度值;F)针对每个单位时间段,根据在步骤E) 计算的所述单位时间段的关键词搜索热度值和步骤B)统计的各搜索词的总 搜索次数,确定所述单位时间段的话题综合搜索热度值;G)将计算的话题 综合搜索热度值超过预定的搜索热度阈值的单位时间段确定为所述话题的关 键时间节点。

所述预定的时间单位可以是天,所述单位时间段是一天。

优选地,步骤F)包括,使用以下公式计算单位时间段的话题综合搜索 热度值:

话题综合搜索热度值=α×各搜索词的总搜索次数+β×关键词搜索 热度值,

其中,α和β分别是所述单位时间段内各搜索词的总搜索次数以及关键 词搜索热度值的权值常量。

优选地,所述的方法还包括:G-1)根据各个单位时间段的关键词搜索热 度值确定所述搜索热度阈值。

优选地,在步骤G-1),根据以下公式确定所述搜索热度阈值:

avg_time_hot=Σintime_hotn

std_time_hot=Σi(time_hoti-avg_time_hot)2n

thresold=avg_time_hot+α*std_time_hot

其中,avg_time_hot是平均关键词搜索热度值,time_hoti是单位时间段i 关键词搜索热度值,std_time_hot是标准关键词搜索热度值,threshold是搜索 热度阈值,n为单位时间段的个数。

优选地,所述的方法还包括:H)为各个关键时间节点产生描述信息。

优选地,步骤H)包括:针对每个关键时间节点,对所述关键事件节点 的第一统计记录中的搜索词进行切词,根据与所述话题的相关性对切出的词 加权,选取权值超过预定阈值的词作为所述关键时间节点的描述信息。

优选地,步骤H)包括:针对每个关键时间节点,对所述关键事件节点 的第一统计记录中的搜索词进行切词,根据与所述话题的相关性对切出的词 加权,选取权值超过预定阈值的词,使用选取的词从收录的新闻数据库或文 库查询匹配的文章,并且从查询到的文章中选取至少一篇文章作为所述关键 时间节点的事件文章。

优选地,所述的方法还包括:I)存储第一搜索词统计数据和第二搜索词 统计数据。

优选地,所述的方法还包括:J)获取增量的搜索日志;L)对增量的搜 索日志执行步骤A)和B);M)将由增量的搜索日志获得的第一搜索词统计 数据和第二搜索词统计数据分别与存储的第一搜索词统计数据和第二搜索词 统计数据合并;N)根据合并的第一搜索词统计数据和第二搜索词统计数据 执行步骤C)~G)。

根据本发明的另一方面,提供一种基于海量搜索日志挖掘话题脉络的装 置,所述装置包括:搜索日志获取单元,用于获取预定时间段的网络搜索日 志;第一搜索词统计数据产生单元,用于以预定的时间单位,按照与给定话 题相关的搜索词整理成为包括多个第一统计记录的第一搜索词统计数据,每 个第一统计记录包括搜索词以及其搜索记录列表,所述点击记录列表包括所 述预定时间段内的每个单位时间段以及所述搜索词的搜索次数;第二搜索词 统计数据产生单元,用于按照单位时间段,将第一搜索词统计数据统计成为 包括多个第二统计记录的第二搜索词统计数据,每个第二统计记录包括单位 时间段以及所述单位时间段内各搜索词的总搜索次数;关键词提取单元,用 于针对每个第一统计记录中的每个搜索词,根据在所述话题中的重要性提取 至少一个关键词作为所述第一统计记录的关键词;关键词搜索累计统计数据 计算单元,用于遍历第一统计记录,计算每个关键词在各个单位时间段的累 计搜索次数,以得到包括多个第三统计记录的关键词搜索累计统计数据,每 个第三统计记录包括关键词、单位时间段以及所述关键词的累计搜索次数, 其中,对于没有在预定个数的连续单位时间段被搜索的关键词,自第一个不 连续的单位时间段起计算其将其累计搜索次数记为0;关键词热度值计算单 元,用于针对每个单位时间段,计算所述单位时间段内的第三统计记录中的 累积搜索次数的和作为所述单位时间段的关键词搜索热度值;搜索热度值计 算单元,用于针对每个单位时间段,根据关关键词热度值计算单元计算的所 述单位时间段的关键词搜索热度值和第二搜索词统计数据产生单元统计的各 搜索词的总搜索次数,确定所述单位时间段的话题综合搜索热度值;关键时 间节点确定单元,用于将计算的话题综合搜索热度值超过预定的搜索热度阈 值的单位时间段确定为所述话题的关键时间节点。

所述预定的时间单位可以是天,所述单位时间段可以是一天。

优选地,所述关键时间节点确定单元使用以下公式计算单位时间段的话 题综合搜索热度值:

话题综合搜索热度值=α×各搜索词的总搜索次数+β×关键词搜索 热度值,

其中,α和β分别是所述单位时间段内各搜索词的总搜索次数以及关键 词搜索热度值的权值常量。

优选地,所述的装置还包括:搜索热度阈值确定单元,用于根据各个单 位时间段的关键词搜索热度值确定所述搜索热度阈值。

优选地,所述搜索热度阈值确定单元根据以下公式确定所述搜索热度阈 值:

avg_time_hot=Σintime_hotn

std_time_hot=Σi(time_hoti-avg_time_hot)2n

thresold=avg_time_hot+α*std_time_hot

其中,avg_time_hot是平均关键词搜索热度值,time_hoti是单位时间段i 关键词搜索热度值,std_time_hot是标准关键词搜索热度值,threshold是搜索 热度阈值,n为单位时间段的个数。

优选地,所述的装置还包括:关键时间节点描述信息产生单元,用于为 各个关键时间节点产生描述信息。

优选地,所述关键时间节点描述信息产生单元针对每个关键时间节点, 对所述关键事件节点的第一统计记录中的搜索词进行切词,根据与所述话题 的相关性对切出的词加权,选取权值超过预定阈值的词作为所述关键时间节 点的描述信息。

优选地,所述关键时间节点描述信息产生单元针对每个关键时间节点, 对所述关键事件节点的第一统计记录中的搜索词进行切词,根据与所述话题 的相关性对切出的词加权,选取权值超过预定阈值的词,使用选取的词从收 录的新闻数据库或文库查询匹配的文章,并且从查询到的文章中选取至少一 篇文章作为所述关键时间节点的事件文章。

优选地,所述的装置还包括:搜索词统计数据存储单元,用于存储第一 搜索词统计数据和第二搜索词统计数据。

优选地,所述的装置还包括:增量日志获取单元,用于获取增量的搜索 日志;搜索词统计数据合并单元,用于将由增量的搜索日志获得的第一搜索 词统计数据和第二搜索词统计数据分别与所述搜索词统计数据存储单元存储 的第一搜索词统计数据和第二搜索词统计数据合并。其中,关键词提取单元 根据合并的第一搜索词统计数据提取关键词,关键词搜索累计统计数据计算 单元遍历合并的第一搜索词统计数据中的第一统计记录,以得到合并的关键 词搜索累计统计数据,关键词热度值计算单元基于所述合并的关键词搜索累 计统计数据计算合并的关键词搜索热度值,搜索热度值计算单元根据合并的 关键词搜索热度值和合并的第二搜索词统计数据确定合并的话题综合搜索热 度值,并且关键时间节点确定单元基于所述合并的话题综合搜索热度值确定 所述话题的关键时间节点。

有益效果

本发明不仅能够挖掘到清晰完整的话题脉络,克服了由于话题关联引起 的话题漂移,而且还能够满足时效性需求,不断识别话题的最新进展。另外, 本发明还从减少内存消耗及提高计算效率的角度出发,通过采用存储挖掘的 历史数据,归并新增计算数据的方法,系统只需要对新增数据进行挖掘计算, 不但有效降低了计算量,而且避免大量重复冗余的计算,有效解决了系统冷 启动时由于全量挖掘引起的耗时较多的问题。

附图说明

通过下面结合附图进行的描述,本发明的上述和其他目的和特点将会变 得更加清楚,其中:

图1是示出根据本发明的示例性实施例的基于海量搜索日志挖掘话题脉 络的方法的流程图;

图2是示出根据本发明的示例性实施例的用户关注某个话题的热度趋势 示意图;

图3是示出根据本发明的示例性实施例的基于海量搜索日志挖掘话题脉 络的装置的逻辑框图。

具体实施方式

以下,将参照附图来详细说明本发明的实施例。

本发明的构思是通过采用从海量数据中计算用户话题关注趋势变化和话 题进展时间轴的方式,不仅挖掘到清晰完整的话题脉络,而且克服了因为采 用话题关联引起的话题漂移。与此同时,本发明还通过采用存储挖掘的历史 数据,计算和归并新增日志数据的方法,不但在避免大量重复冗余计算的同 时,还减少了对内存消耗,有效地提高了系统计算效率。

图1示出了本发明一种基于海量搜索日志挖掘话题脉络的方法的优选实 施例的流程图。图3示出的一种基于海量搜索日志挖掘话题脉络的装置可用 于实现图1中所述的方法。

参照图1,在步骤S110,将预定时间段的网络搜索日志,以预定的时间 单位,按照与给定话题相关的搜索词整理成为包括多个第一统计记录的第一 搜索词统计数据,每个第一统计记录包括搜索词以及其搜索记录列表,所述 点击记录列表包括所述预定时间段内的每个单位时间段以及所述搜索词的搜 索次数。

需要说明的是,本发明不需要限定预定时间段和预定的时间单位的长短, 所述预定时间段和预定的时间单位及单位时间段可以依据实际情况进行设 定,例如,可以是小时、天、周、月等等,只要能够反映话题脉络发展,便 于数据统计即可。

当所述预定的时间单位是天时。则步骤S110可进一步变换为:将预定时 间段的网络搜索日志,以天为单位,按照与给定话题相关的搜索词整理成为 包括多个第一统计记录的第一搜索词统计数据,每个第一统计记录包括搜索 词以及其搜索记录列表,所述搜索记录列表包括所述预定时间段内的每天的 日期以及所述搜索词的搜索次数。

具体实施时,所述装置应首先获取预定时间段内所有与话题相关的搜索 日志,并将所述日志中的搜索词进行归一化处理,在获取到归一化后的搜索 词后,统计所述搜索词在该预定时间段内每天的搜索次数,并形成如下kv数 据记录:

key:query

value:<time,click_num>

其中,所述key值中记录的是与给定话题相关的搜索词query;所述value 值中记录的是该搜索词在该预定时间段内某一天time的搜索次数click_num。

通过统计该搜索词query在预定时间段内的kv数据,所述装置得到预定 时间段内所述搜索词的第一统计记录,其结果可记录为<query,day_list>,其中 所述day_list记录的是该搜索词query在预定时间段内每天timei的搜索次数 click_numi,并记录该搜索词在预定时间段内的搜索数据,所述预定时间段内 的搜索数据记录如下:

day_list=[<time1,click_num1>,…<timei,click_numi>]

进一步地,可将所述每个搜索词对应的第一搜索词统计数据记录为:

query_infoi={queryi,[<time1,kv1>,…<timei,kvi>]}

所述装置通过汇总所有搜索词query在预定时间段内的在搜索记录列表, 继而得到本发明所述第一搜索词统计数据:

query_list=[query_info1,…,query_infoi]

在步骤S120,按照单位时间段,将第一搜索词统计数据统计成为包括多 个第二统计记录的第二搜索词统计数据,每个第二统计记录包括单位时间段 以及所述单位时间段内各搜索词的总搜索次数。

具体实施时,所述装置通过将所述第一搜索词统计数据query_list中的所 有query_info按照时间段进行统计加和得到本发明所述第二搜索词统计数据:

TimeLine=[Time1.sum(query_infoj.kv1),…,Timei.sum(query_infoj.kvi)]

可以看出,所述装置在执行该步骤时可以获得与所述给定话题相关的搜 索词query沿时间轴的分布统计,进而绘制出给定话题的用户关注趋势变化 图,所述用户关注趋势变化图在跟踪用户对该话题关注趋势变化的同时,还 反映了该话题的发展。

例如,图2示出的就是采用本发明所述步骤S120统计出的第二搜索词统 计数据绘制的“中菲黄岩岛事件”用户关注趋势图,该示例图不仅反映出用 户关于“中菲黄岩岛事件”沿时间轴在不同时间段内点击该话题相关搜索词 的频次,而且还从一定程度上反映了与“中菲黄岩岛事件”相关的话题进展。

虽然所述第二搜索词统计数据虽然可以在一定程度上反映出用户对所述 给定话题的关注趋势变化,但是由于用户对给定话题的关注具有滞后性、持 续性,因而仅凭用户对话题的关注趋势变化还是无法挖掘出准确的话题脉络。

为了进一步挖掘出准确的话题脉络,本发明通过提取与给定话题相关的 关键词,并对所述关键词进行统计和热度聚类,从而得到所述关键词沿时间 轴的分布数据,来解决用户关注的滞后性和持续性问题。因而,在步骤S130, 所述装置针对每个第一统计记录中的每个搜索词,根据在所述话题中的重要 性提取至少一个关键词作为所述第一统计记录的关键词。

具体实施时,可假设给定话题时间轴为[time1,time2,…,timei],且对应时间 段timei为一天,当然也可以根据实际需要做不同时间跨度的设定,为了便于 实施,所述装置可以在获取到步骤S110所述的第一搜索词统计数据后,可以 将每个第一统计记录中的每个搜索词query进行分词,根据该搜索词query中 的每个关键词相对于该搜索词query的重要程度进行分类筛选,将重要的关 键词保留下来作为所述第一统计记录的关键词term,将不重要的关键词丢弃。 例如,搜索词“朝鲜卫星发射地点”在切词后,“朝鲜卫星”和“发射”可作 为关键词保留,而“地点”将会被丢弃。在对所述关键词作出取舍后,所述 装置将该搜索词query对应的kv搜索次数作为保留下来的关键词term对应的 kv搜索次数。

在步骤S140,所述装置遍历第一统计记录,计算每个关键词在各个单位 时间段的累计搜索次数,以得到包括多个第三统计记录的关键词搜索累计统 计数据,每个第三统计记录包括关键词、单位时间段以及所述关键词的累计 搜索次数,其中,对于没有在预定个数的连续单位时间段被搜索的关键词, 自第一个不连续的单位时间段起计算其将其累计搜索次数记为0。

根据步骤S130提取到的关键词,所述装置将任一时间段内timei所有保 留的关键词term组成该时间段内timei的关键词集合,并遍历该关键词集合 内的每一个关键词termj,如果每个关键词termj在timei-1时间段内没出现,则 将该关键词termj作为首次出现的事件关键词保留下来,并记录为<termj,kv>。

如果该关键词termj在timei-2和timei-1连续时间段内都出现过,则说明该 关键词termj是之前用户的延续关注,则所述装置将该关键词termj的搜索次 数kv累计到timei-1时间段内的关键词termj上。

如果该该关键词termj在timei-1时间段内出现过,但在timei-2、timei+1中 没有连续出现,则说明该term没有被用户持续关注,其不是能够描述timei时间段内事件的关键词term,可能是噪音,所述装置将直接丢弃该关键词 termj

在步骤S150,所述装置针对每个单位时间段,计算所述单位时间段内的 第三统计记录中的累积搜索次数的和作为所述单位时间段的关键词搜索热度 值。

当所述装置统计完与给定话题相关的时间轴上所有的关键词后,将得到 每个timei时间段内,所有的话题关键词及每个关键词termj对应的搜索次数, 对timei时间段内所有的话题关键词termj按照搜索次数进行排序,并将所有 关键词termj的搜索次数进行累加得到timei时间段内的关键词热度因子 term_hot,即所述关键词的累计搜索次数。

在步骤S160,所述装置针对每个单位时间段,根据在步骤S150计算的 所述单位时间段的关键词搜索热度值和步骤S120统计的各搜索词的总搜索 次数,确定所述单位时间段的话题综合搜索热度值。

所述装置在获取步骤S120中timei时间段内的所述各搜索词的总搜索次 数query_hot和步骤S150中所述关键词搜索热度值term_hot之后,可采用如 下公式计算话题综合搜索热度值time_hot:

time_hot=α*query_hot+β*term_hot

其中,α和β分别是所述单位时间段内各搜索词的总搜索次数以及关键 词搜索热度值的权值常量。

在步骤S170,所述装置将计算的话题综合搜索热度值超过预定的搜索热 度阈值的单位时间段确定为所述话题的关键时间节点。

需要说明的是,在执行步骤S170之前,所述装置可以通过统计话题时间 轴内time_hot的平均值avg_time_hot,标准差std_time_hot获得所述预定的搜 索热度阈值threshold,具体计算过程如下:

avg_time_hot=Σintime_hotn

std_time_hot=Σi(time_hoti-avg_time_hot)2n

thresold=avg_time_hot+α*std_time_hot

其中,n为单位时间段的个数。

所述装置根据所述预定的搜索热度阈值threshold对话题时间轴内所有的 话题综合搜索热度值time_hot进行取舍,当话题综合搜索热度值time_hot> 预定的搜索热度阈值threshold的节点都会被保留下来。被保留下来的节点按 时间顺序组合起来形成最终的话题进展时间轴,每个节点意味该时间内有事 件的话题进展发生。

在获得话题进展时间轴的基础上,本发明还可以通过挖掘每个关键时间 节点上的事件以形成更为完整的话题脉络。因此,根据本发明的另一个优选 实施例,所述装置还将为各个关键时间节点产生描述信息。为此,本发明还 提出了以下几种可选实施例为各个关键时间节点产生描述信息。

实施例1

所述装置针对每个关键时间节点,对所述关键事件节点的第一统计记录 中的搜索词进行切词,根据与所述话题的相关性对切出的词加权,选取权值 超过预定阈值的词作为所述关键时间节点的描述信息。

实施例2

所述装置针对每个关键时间节点,对所述关键事件节点的第一统计记录 中的搜索词进行切词,根据与所述话题的相关性对切出的词加权,选取权值 超过预定阈值的词,使用选取的词从收录的新闻数据库或文库查询匹配的文 章,并且从查询到的文章中选取至少一篇文章作为所述关键时间节点的事件 文章。

由于冷启动时全量挖掘会引起的巨大资源消耗,为解决这一问题,根据 本发明的另一个优选实施例,所述装置还存储第一搜索词统计数据和第二搜 索词统计数据。这样系统除了在第一次启动时全量挖掘历史日志数据耗时较 多外,在以后的每一次启动时都可以有效避免所述历史日志数据重复挖掘和 计算,减少对系统资源的消耗。

另外,由于用户每天都会产生新的搜索日志,为了使挖掘到的数据能够 实时反映和跟踪用户对话题的关注趋势变化和话题在某个时间节点上是否有 重大进展,还需要对用户新增的日志数据进行增量挖掘,因此,根据本发明 的另外一个更为优选的实施例,所述装置将获取增量的搜索日志;并对所述 增量搜索日志执行步骤A)和步骤B);将由增量的搜索日志获得的第一搜索 词统计数据和第二搜索词统计数据分别与存储的第一搜索词统计数据和第二 搜索词统计数据合并;然后根据合并的第一搜索词统计数据和第二搜索词统 计数据执行步骤C)~G)。

可以看出,由于本发明存储了第一次启动时挖掘到的数据,因此在以后 的增量挖掘过程中本发明只需要对用户产生的最新的日志数据进行处理即 可,通过采用上述方法不仅可以有效地实时跟踪用户对话题的最新关注趋势, 发现话题在某个时间点上的最新进展,而且可以避免大量重复冗余的计算量。 这样做可以使得系统的计算量、资源消耗量都降到了最小。

图3示出了本发明一种基于海量搜索日志挖掘话题脉络的装置的优选实 施例结构框图。

参照图3,所述装置至少包括:搜索日志获取单元310、第一搜索词统计 数据产生单元320、第二搜索词统计数据产生单元330、关键词提取单元340、 关键词搜索累计统计数据计算单元350、关键词热度值计算单元360、搜索热 度值计算单元370和关键时间节点确定单元380,其中:

搜索日志获取单元310用于获取预定时间段的网络搜索日志。

第一搜索词统计数据产生单元320用于以预定的时间单位,按照与给定 话题相关的搜索词整理成为包括多个第一统计记录的第一搜索词统计数据, 每个第一统计记录包括搜索词以及其搜索记录列表,所述点击记录列表包括 所述预定时间段内的每个单位时间段以及所述搜索词的搜索次数。其中,当 所述的预定的时间单位是天时,则所述单位时间段是一天。

第二搜索词统计数据产生单元330用于按照单位时间段,将第一搜索词 统计数据统计成为包括多个第二统计记录的第二搜索词统计数据,每个第二 统计记录包括单位时间段以及所述单位时间段内各搜索词的总搜索次数。

关键词提取单元340用于针对每个第一统计记录中的每个搜索词,根据 在所述话题中的重要性提取至少一个关键词作为所述第一统计记录的关键 词。

关键词搜索累计统计数据计算单元350用于遍历第一统计记录,计算每 个关键词在各个单位时间段的累计搜索次数,以得到包括多个第三统计记录 的关键词搜索累计统计数据,每个第三统计记录包括关键词、单位时间段以 及所述关键词的累计搜索次数,其中,对于没有在预定个数的连续单位时间 段被搜索的关键词,自第一个不连续的单位时间段起计算其将其累计搜索次 数记为0。

关键词热度值计算单元360用于针对每个单位时间段,计算所述单位时 间段内的第三统计记录中的累积搜索次数的和作为所述单位时间段的关键词 搜索热度值。

搜索热度值计算单元370用于针对每个单位时间段,根据关键词热度值 计算单元360计算的所述单位时间段的关键词搜索热度值和第二搜索词统计 数据产生单元320统计的各搜索词的总搜索次数,确定所述单位时间段的话 题综合搜索热度值。其中,当所述预定的单位时间是天时,所述关键时间节 点确定单元使用以下公式计算单位时间段的话题综合搜索热度值:

话题综合搜索热度值=α×各搜索词的总搜索次数+β×关键词搜索 热度值,

其中,α和β分别是所述单位时间段内各搜索词的总搜索次数以及关键 词搜索热度值的权值常量。

关键时间节点确定单元380用于将计算的话题综合搜索热度值超过预定 的搜索热度阈值的单位时间段确定为所述话题的关键时间节点。其中,所述 预定的搜索热度阈值可以通过搜索热度阈值确定单元(未示出)获得,当所 述预定的时间单位为天时,搜索热度阈值确定单元将根据各个单位时间段的 关键词搜索热度值确定所述搜索热度阈值,并且所述搜索热度阈值确定单元 可以根据以下公式确定所述搜索热度阈值:

avg_time_hot=Σintime_hotn

std_time_hot=Σi(time_hoti-avg_time_hot)2n

thresold=avg_time_hot+α*std_time_hot

其中,avg_time_hot是平均关键词搜索热度值,time_hoti是单位时间段i 关键词搜索热度值,std_time_hot是标准关键词搜索热度值,threshold是搜索 热度阈值,n为单位时间段的个数。

为了形成更为清晰完整的话题脉络,根据本发明的另一个优选实施例, 所述装置还包括:关键时间节点描述信息产生单元(未示出),所述关键时间 节点描述信息产生单元用于为各个关键时间节点产生描述信息。

另外,本发明还为各个关键时间节点产生描述信息的实现提供了以下两 个可选实施例。

根据本发明的可选实施例,所述关键时间节点描述信息产生单元针对每 个关键时间节点,对所述关键事件节点的第一统计记录中的搜索词进行切词, 根据与所述话题的相关性对切出的词加权,选取权值超过预定阈值的词作为 所述关键时间节点的描述信息。

根据本发明的另一个可选实施例,所述关键时间节点描述信息产生单元 针对每个关键时间节点,对所述关键事件节点的第一统计记录中的搜索词进 行切词,根据与所述话题的相关性对切出的词加权,选取权值超过预定阈值 的词,使用选取的词从收录的新闻数据库或文库查询匹配的文章,并且从查 询到的文章中选取至少一篇文章作为所述关键时间节点的事件文章。

为了解决冷启动问题,避免重复计算挖掘历史日志数据,根据本发明的 另一个优选实施例,所述装置还包括:搜索词统计数据存储单元(未示出), 所述搜索词统计数据存储单元用于存储第一搜索词统计数据和第二搜索词统 计数据。

由于用户每天都会产生新增的日志数据,为了对新增数据进行增量挖掘, 根据本发明的另一个更为优选的实施例,所述装置还包括:增量日志获取单 元(未示出)和搜索词统计日志合并单元(未示出),其中,所述增量日志获 取单元用于获取增量的搜索日志;所述搜索词统计数据合并单元,用于将由 增量的搜索日志获得的第一搜索词统计数据和第二搜索词统计数据分别与所 述搜索词统计数据存储单元存储的第一搜索词统计数据和第二搜索词统计数 据合并;然后将合并后的第一搜索词统计数据和第二搜索词统计数据传递给 所述关键词提取单元340、关键词搜索累计统计数据计算单元350、搜索热度 值计算单元370和关键时间节点确定单元380进行数据处理,其中,关键词 提取单元340根据合并的第一搜索词统计数据提取关键词,关键词搜索累计 统计数据计算单元350遍历合并的第一搜索词统计数据中的第一统计记录, 以得到合并的关键词搜索累计统计数据,关键词热度值计算单元360基于所 述合并的关键词搜索累计统计数据计算合并的关键词搜索热度值,搜索热度 值计算单元370根据合并的关键词搜索热度值和合并的第二搜索词统计数据 确定合并的话题综合搜索热度值,并且关键时间节点确定单元380基于所述 合并的话题综合搜索热度值确定所述话题的关键时间节点。从而,可得到能 够实时反映和跟踪用户对话题的最新关注趋势变化以及给定话题在某个时间 节点上是否有重大进展的相关挖掘数据。

由此可见,与现有技术相比本发明不仅能够挖掘到清晰完整的话题脉络, 克服了由于话题关联引起的话题漂移,而且还能够满足时效性需求,不断识 别话题的最新进展。另外,本发明还从减少内存消耗及提高计算效率的角度 出发,通过采用存储挖掘的历史数据,归并新增计算数据的方法,由于系统 只需要对新增数据进行挖掘计算,不但有效降低了计算量,而且避免大量重 复冗余的计算,从而有效地解决了系统冷启动时由于全量挖掘引起的耗时较 多的问题。

需要指出,根据实施的需要,可将本申请中描述的各个步骤拆分为更多 步骤,也可将两个或多个步骤或者步骤的部分操作组合成新的步骤,以实现 本发明的目的。

上述根据本发明的方法可在硬件、固件中实现,或者被实现为可存储在 记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机 代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可 读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法 可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC 或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、 微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组 件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处 理器或硬件访问且执行时,实现在此描述的处理方法。此外,当通用计算机 访问用于实现在此示出的处理的代码时,代码的执行将通用计算机转换为用 于执行在此示出的处理的专用计算机。

尽管已参照优选实施例表示和描述了本发明,但本领域技术人员应该理 解,在不脱离由权利要求限定的本发明的精神和范围的情况下,可以对这些 实施例进行各种修改和变换。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号