首页> 中国专利> 一种基于共同点击的词条权重确定方法及装置

一种基于共同点击的词条权重确定方法及装置

摘要

本发明实施例提供了一种基于共同点击的词条权重确定方法及装置,首先基于搜索日志数据,获取共同点击的统一资源定位器URL所对应的输入语句query集合;对所述query集合中每一个query进行分词,得到多个基础词条term;统计各个term在所述query集合中出现的频率,基于出现频率的高低获取各个term的词条权重。该方法及装置可以准确获取基于共同点击的词条权重,对于输入语句query的核心词提取,以及文档排序均起到了重要作用,克服了现有TF-IDF技术的缺点,进而提高了搜索结果的准确性。

著录项

  • 公开/公告号CN104361115A

    专利类型发明专利

  • 公开/公告日2015-02-18

    原文格式PDF

  • 申请/专利号CN201410718382.1

  • 发明设计人 邹启波;周连强;

    申请日2014-12-01

  • 分类号G06F17/30(20060101);G06F17/27(20060101);

  • 代理机构11448 北京中强智尚知识产权代理有限公司;

  • 代理人姜精斌;王书彪

  • 地址 100088 北京市西城区新街口外大街28号D座112室(德胜园区)

  • 入库时间 2023-12-17 03:49:25

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-11-08

    未缴年费专利权终止 IPC(主分类):G06F17/30 专利号:ZL2014107183821 申请日:20141201 授权公告日:20180727

    专利权的终止

  • 2018-07-27

    授权

    授权

  • 2015-03-25

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20141201

    实质审查的生效

  • 2015-02-18

    公开

    公开

说明书

技术领域

本发明涉及信息推送技术领域,尤其涉及一种基于共同点击的词条权重获 取方法及装置。

背景技术

随着网络和信息技术的迅猛发展,网络的信息量也呈现爆炸式的增长,那 么快速并且正确从这些海量的数据里面获取正确的信息成为了现在搜索引擎 技术的核心问题,然后用户的输入却呈现很大的差异性,不同的人接受着不同 的教育,以及不同的文化,导致在表述同一个问题上面的差异很大。那么对用 户的输入词条进行词条权重的打分是非常有必要的,这对于query核心词提取, 文档排序等都是一个非常重要的技术。

目前的TF-IDF(Term Frequency–Inverse Document Frequency)技术,用以 评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。是一 种用于资讯检索与资讯探勘的常用加权技术。从文档级别来描述一个词条的权 重,但是它与上下文无关。

举例来说,不同的query中,因为不同的上下文或者语义背景下,同一个 词的权重会显著的不同;比如说:一个query是“北京故宫门票”,另一个query 是“北京到武汉的高铁”,这两个query中都出现了“北京”这个词,但“北京” 这个词,对这两个query对应的搜索结果的重要程度肯定会不一样,而现有的 TF-IDF技术不能描述这样的情况,导致最终搜索结果的误差。

发明内容

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地 解决上述问题的一种基于共同点击的词条权重确定方法及装置。

一种基于共同点击的词条权重确定方法,包括:

基于搜索日志数据,获取共同点击的统一资源定位器URL所对应的输入 语句query集合;

对所述query集合中每一个query进行分词,得到多个基础词条term;

统计各个term在所述query集合中出现的频率,基于出现频率的高低获取 各个term的词条权重。

本发明还提供了一种基于共同点击的词条权重确定装置,所述装置包括:

query集合获取单元,用于基于搜索日志数据,获取共同点击的统一资源 定位器URL所对应的输入语句query集合;

分词单元,用于对所述query集合获取单元所获取的query集合中每一个 query进行分词处理,得到多个基础词条term;

词条权重获取单元,用于统计所述分词单元所得到的各个term在所述 query集合中出现的频率,并基于出现频率的高低获取各个term的词条权重。

由以上可知,该方法及装置可以准确获取基于共同点击的词条权重,对于 输入语句query的核心词提取,以及文档排序均起到了重要作用,克服了现有 TF-IDF技术的缺点,进而提高了搜索结果的准确性。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术 手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、 特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领 域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并 不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的 部件。在附图中:

图1为本发明实施例提供的基于共同点击的词条权重确定方法流程示意 图;

图2为本发明实施例提供的枚举过程示意图;

图3为本发明实施例提供的根据用户输入进行相应检索的流程示意图;

图4为本发明实施例提供的基于共同点击的词条权重确定装置的结构示意 图;

图5为本发明实施例提供的基于共同点击的词条权重确定装置的另一结构 示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了 本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被 这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本 公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

下面结合说明书附图,对本发明实施例提供的词条权重获取方法进行说 明,如图1所示为本发明实施例提供的基于共同点击的词条权重确定方法流程 示意图,所述方法包括:

步骤11:基于搜索日志数据,获取共同点击的统一资源定位器URL所对 应的输入语句query集合;

在该步骤中,日志数据可以保存在后台搜索服务器中。

这里,共同点击的URL所对应的输入语句query,其含义就是点击了相同 URL的query,这些query,可以认为是有潜在的同义关系,它们的核心部分应 该是保持稳定的,只是换了一种表达而已,例如“北京故宫门票多少”、“故宫 门票多少钱”,“北京故宫门票”、“故宫门票票价”……等等问的都是故宫门票 的问题,再例如下面的几个query:{“360搜索”,“360搜索网站”,“360”,“360 搜索引擎”,“360搜索网址”},用户都点击了URL:www.so.com,这样的一组 query也被认为是共同点击。

步骤12:对所述query集合中每一个query进行分词,得到多个基础词条 term;

在该步骤中,具体的分词的规则和方式可以参照现有分词技术,例如可以 对所述query集合中每一个query基于n-gram进行分词处理,即采用多阶枚举 的方式生成多个片段gram,得到多个片段gram的基础词条term。

举例来说,例如Q={T1,T2,T3,……Tn},枚举时,可以预先设定n-gram 的阶数,然后逐一进行枚举,较佳地,在本发明实施例中,可以采用1-4阶gram 的方式,枚举的过程参照图2所示,采用1-4阶枚举的方式时,可以从头(T1) 开始枚举1-4gram,可以得到多个片段gram。

例如对Q={a,b,c,d}进行4阶枚举时,会生成如下几个片段gram:

一阶gram:a,b,c,d;

二阶gram:ab,bc,cd;

三阶gram:abc,bcd;

四阶gram:abcd。

步骤13:统计各个term在所述query集合中出现的频率,基于出现频率 的高低获取各个term的词条权重。

在该步骤中,基于出现频率的高低获取各个term的词条权重的具体过程 可以是:选取出现频率最高的term的次数作为分母,根据每一个term的出现 次数计算获取各个term的词条权重,也就是将各term在所述query集合中出 现的次数作为分子,所获得的比值即为各个term的词条权重。

举例来说,若对每一个query基于n-gram进行分词处理,得到多个片段 gram的基础词条term,则针对每个gram,分别统计其包含的term在query集 合中出现的次数,假设gram为“360搜索”,轮询query集合,出现一次增加 1,直至轮询结束,最终得到的统计结果为:“360”这个term在query集合中 出现了5次,“搜索”这个term在Qs集合中出现了4次;然后按照上述方法, 可以得到次数之比为“1,0.8”。

上述“360搜索:1,0.8”是针对query集合中的某一个query统计得到的数 值,在整个query集合中(包含了数量巨大的各种query),按照上述方法,可 以同样计算出若干个“360搜索”对应的数值(与“1,0.8”类似的数值),然后 针对该gram在整个query集合范围内求均值,就可以得到“360搜索”这个 gram中各term对应的词条权重。

具体实现中,在获取各个term的词条权重之后,还可以根据所述各个term 以及对应的词条权重组成权重词典,该权重词典中包含多个类似于“360搜索: 1,0.8”这样的数据以供查询。

另外,在组成权重词典之后,还可以根据用户输入进行相应的检索并输出 结果,具体操作如图3所示,检索过程包括:

步骤31:首先接收用户输入的某一query,对该query进行分词得到多个 term;

具体分词的方法见上述实施例所述。

步骤32:查询所述权重词典,获取各个term的词条权重;

进一步地,若上述步骤31基于n-gram进行分词处理,得到多个片段gram 的基础词条term,则针对每个term,使用该term命中的多个gram,查询权重 词典,得到term命中的多个gram中该term对应的各词条权重。

具体来说,权重词典中保存有多个gram以及每个gram中各term的词条 权重,下面是权重词典中某一例子的内容:

360:1;

360搜索:1,0.8;

搜索:0.8。

上述片段中,“360”、“360搜索”和“搜索”是gram,每个gram后面的 数字为该gram中term的词条权重。例如,“360搜索”中,“360”的词条权重 为1,“搜索”的词条权重为0.8。

上述权重词典可以以数据库的方式存储,或者其他存储方式,本发明实施 例对此不做限定。

具体实现中,由于query分词得到的每个term,都可能命中多个gram中 的一个或多个gram,这样,基于上述的权重词典,使用命中的gram,在权重 词典中查询,就可以得到每个term命中的gram中,该term对应的权重值。

假设要在权重词典中查询“term”为“360”时,会在权重词典中命中“360” 和“360搜索”这两个gram,得到两个词条权重即:1和1。

由于权重词典中存在着数量巨大的gram和对应的term的词条权重,所以 对于用户输入的query进行分词后的各个term来说,都会得到若干个词条权重, 这样可以采用下述两种公式计算每个term对应的词条权重:

公式一:score=W1*X1+W2*X2+...+Wm*Xmm,其中W1<W2<.…Wm

公式二:score=X1+X2+...+Xmm;

上述公式一中,score是term最终计算出的词条权重,X1~Xm是查询权重 词典得到的term命中的gram中对应的词条权重,W1~Wm为查询到的每个词 条权重对应的权重。

上述公式二,采用的是算术平均的方法计算出的term词条权重,其中score 和X1~Xm的含义与公式一中相同。

需要说明的是,上述两个公式并不是实现本发明的唯一方式,仅作为实施 例的一种实现方式。技术人员可以根据业务需要对公式做适当变形,依然落在 本发明的范围之内,例如增添参数或倍数值等。

举一个例子,假设用户输入的query是“360搜索网址”,进行分词后,它 包含了三个term,其中一个term是“360”,对于这个term来说,查询权重词 典,假设它命中的gram包括:360、360搜索、360搜索引擎、360搜索引擎网 址,360搜索网站,则对于5个gram中的360分别对应了5个词条权重,再将 这5个词条权重进行加权平均的计算,就得到了用户输入的query中“360”这 个term的最终词条权重。

步骤33:将各个term的词条权重与预设的权重阈值进行比较,将词条权 重大于等于所述权重阈值的term作为搜索关键词,输出对应的搜索结果。

在该步骤中,将各个term的词条权重与预设的权重阈值进行比较时,可 以忽略词条权重小于所述权重阈值的term,从而有利于输入语句query的核心 词提取以及文档排序,提高了搜索结果的准确性。

基于上述方法,本发明实施例还提供了一种基于共同点击的词条权重确定 装置,如图4所示为本发明实施例提供的基于共同点击的词条权重确定装置的 结构示意图,所述装置包括:

query集合获取单元41,用于基于搜索日志数据,获取共同点击的统一资 源定位器URL所对应的输入语句query集合;

分词单元42,用于对所述query集合获取单元所获取的query集合中每一 个query进行分词处理,得到多个基础词条term;

词条权重获取单元43,用于统计所述分词单元所得到的各个term在所述 query集合中出现的频率,并基于出现频率的高低获取各个term的词条权重。

如图5所示为本发明实施例提供的基于共同点击的词条权重确定装置的另 一结构示意图,参考图5,在具体实现中,该装置还可包括:

权重词典单元44,用于根据所述各个term以及对应的词条权重组成权重 词典。

用户输入接收单元45,用于接收用户输入的某一query,并对该query进 行分词得到多个term;

词条权重查询单元46,用于查询所述权重词典单元,获取所述用户输入接 收单元所得到的各个term的词条权重;

搜索结果输出单元47,用于将所述词条权重查询单元所得到的各个term 的词条权重与预设的权重阈值进行比较,并将词条权重大于等于所述权重阈值 的term作为搜索关键词,输出对应的搜索结果。

具体实现中,上述分词单元42进一步可包括:

分词处理模块421,用于对所述query集合中每一个query基于n-gram进 行分词处理,得到多个片段gram的基础词条term。

上述词条权重获取单元43进一步可包括:

权重计算模块431,用于选取出现频率最高的term的次数作为分母,根据 每一个term的出现次数计算获取各个term的词条权重。

上述装置中各单元具体的实现过程见上述方法实施例所述。

综上所述,本发明实施例所提供的方法及装置可以准确获取基于共同点击 的词条权重,对于输入语句query的核心词提取,以及文档排序均起到了重要 作用,克服了现有TF-IDF技术的缺点,进而提高了搜索结果的准确性。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发 明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细 示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或 多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一 起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法 解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确 记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发 明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式 的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为 本发明的单独实施例。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它 实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意 味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求 书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器 上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解, 可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实 施例的搜索系统中的一些或者全部部件的一些或者全部功能。本发明还可以实 现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例 如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计 算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从 因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并 且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施 例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的 限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之 前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包 括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干 装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体 体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解 释为名称。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发 明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及 其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号