首页> 中国专利> 信息搜索方法、展示信息排序权重值确定方法及其装置

信息搜索方法、展示信息排序权重值确定方法及其装置

摘要

本申请公开了一种信息搜索方法、展示信息排序权重值确定方法及其装置,当信息搜索服务器根据查询词搜索在搜索结果页面展示的信息时,依据展示信息排序模型以及点击日志,确定各待展示信息的排序权重值,再根据排序权重值确定展示信息的排序。其中,展示信息排序模型基于如下假设:用户查看展示信息后点击该展示信息的概率依赖于该展示信息本身,以及用户查看展示位i上的展示信息的概率依赖于:在展示位i之前的展示位上展示信息被点击的次数,以及在展示位i之前的展示位当中,其上的展示信息被点击过、且距离展示位i最近的展示位位置。本申请可基于点击数据对展示信息进行排序时,降低位置偏执对排序的影响,提高排序合理性。

著录项

  • 公开/公告号CN103593353A

    专利类型发明专利

  • 公开/公告日2014-02-19

    原文格式PDF

  • 申请/专利权人 阿里巴巴集团控股有限公司;

    申请/专利号CN201210289652.2

  • 发明设计人 刘凯鹏;

    申请日2012-08-15

  • 分类号G06F17/30(20060101);

  • 代理机构11297 北京鑫媛睿博知识产权代理有限公司;

  • 代理人龚家骅

  • 地址 英属开曼群岛大开曼资本大厦一座四层847号邮箱

  • 入库时间 2024-02-19 22:10:12

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-11-13

    授权

    授权

  • 2014-03-19

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20120815

    实质审查的生效

  • 2014-02-19

    公开

    公开

说明书

技术领域

本申请涉及通信技术领域,特别是涉及信息搜索方法、展示信息排序权重 值确定方法及其装置。

背景技术

信息搜索服务器为用户提供信息搜索服务时,在根据用户输入的查询词返 回搜索结果的同时,还会在搜索结果页面中的特定位置展示一定数量与该查询 词相关的信息,以供用户点击查看。用户可能会在一次搜索会话(即一次搜索 行为所得到的搜索结果)中点击该特定位置的某些展示信息,信息搜索服务器 会用日志记录这些展示信息的展示和点击情况。

用户一般会根据展示信息的相关性进行点击,点击日志反映了用户对展示 信息展示结果的相关性的隐性评价。由于点击数据数量巨大,且获取成本较低, 因此,根据用户点击反馈数据准确预估展示信息质量分具有重要的应用价值。

用户的点击行为会受到展示信息在搜索结果页面中展示位置的影响。有研 究表明,尽管相关性较差,但是,在展示位靠前位置展示的信息还是会获得更 多的点击。这种影响被称为位置偏置(Position Bias)。位置偏置的存在,增大 了利用点击数据准确预估展示信息质量分以对展示信息进行排序的难度。

现有基于Cascade前提假设的点击模型,如CCM(Click Chain Model,点 击链模型)或DBN(Dynamic Bayesian Model,动态贝叶斯模型)等,假设用 户会从上向下查看文档展示结果,但在实际中,用户往往采用跳跃式的浏览方 法,使得Cascade前提假设的适用性减弱,进而影响点击模型性能。

现有的不基于Cascade前提假设的点击模型(如UBM,BBM等),其假 设用户查看在某位置处展示的信息的概率只与在同一展示列表中的前一次点 击的位置相关。这一假设没有考虑用户因为多次点击而造成的点击倾向的衰 减,因而影响点击模型的性能。

由此可见,目前亟需一种信息搜索方案,可以通过合理建模用户对展示信 息的点击行为,消除位置偏置对信息点击率统计的影响,根据用户点击日志数 据,准确预估信息点击反馈质量分,从而合理的对展示信息进行排序,提高信 息搜索、展示效率。

发明内容

本申请的目的在于提供一种信息搜索方法、展示信息排序权重值确定方法 及其装置,用以在基于用户点击数据对展示信息进行排序时,降低位置偏执对 排序的影响,并提高排序的合理性,提高信息搜索、展示效率,为此,本申请 实施例采用如下技术方案:

一种信息搜索方法,包括:

接收搜索请求;

获取所述搜索请求中携带的查询词;

参考与所述查询词相关的各待展示信息的排序权重值,将各待展示信息分 配给搜索结果页面中的信息展示位;

其中,待展示信息的排序权重值通过以下步骤确定:获取点击日志内容, 根据点击日志内容确定用户查看搜索结果页面中各展示位上的展示信息的概 率,根据用户查看搜索结果页面中各展示位上的展示信息的概率,确定出与查 询词相关的各待展示信息的排序权重值;其中,用户查看展示位i上的展示信 息的概率依赖于:在展示位i之前的展示位上展示信息被点击的次数,以及在 展示位i之前的展示位当中,其上的展示信息被点击过、且距离展示位i最近 的展示位位置;

返回所述搜索结果页面。

一种信息搜索服务器,包括:

展示信息排序权重值确定装置,用于获取点击日志内容,根据点击日志内 容获取用户查看搜索结果页面中各展示位上的展示信息的概率,根据用户查看 搜索结果页面中各展示位上的展示信息的概率,确定出与查询词相关的各待展 示信息的排序权重值;其中,用户查看展示位i上的展示信息的概率依赖于: 在展示位i之前的展示位上展示信息被点击的次数,以及在展示位i之前的展 示位当中,其上的展示信息被点击过、且距离展示位i最近的展示位位置;

接收模块,用于接收搜索请求;

获取模块,用于获取所述搜索请求中携带的查询词;

展示信息排序模块,用于参考所述展示信息排序权重值确定装置确定出 的,与查询词相关的各待展示信息的排序权重值,将各待展示信息分配给搜索 结果页面中的信息展示位;

发送模块,用于返回搜索结果页面。

一种展示信息排序权重值确定方法,包括:

获取点击日志内容;

根据点击日志内容获取各展示位上的展示信息的概率;

根据各展示位上的展示信息的概率,确定出与查询词相关的各待展示信息 的排序权重值;其中,用户查看展示位i上的展示信息的概率依赖于:在展示 位i之前的展示位上展示信息被点击的次数,以及在展示位i之前的展示位当 中,其上的展示信息被点击过、且距离展示位i最近的展示位位置。

一种展示信息排序权重值确定装置,包括:

获取模块,用于获取点击日志内容;

概率计算模块,用于根据点击日志内容确定各展示位上的展示信息的概 率;

权重值计算模块,用于根据各展示位上的展示信息的概率,确定出与查询 词相关的各待展示信息的排序权重值;其中,用户查看展示位i上的展示信息 的概率依赖于:在展示位i之前的展示位上展示信息被点击的次数,以及在展 示位i之前的展示位当中,其上的展示信息被点击过、且距离展示位i最近的 展示位位置。

本申请的上述实施例中,由于在对展示信息进行排序时,根据用户查看搜 索结果页面中各展示位上的展示信息的概率,该概率依赖于:在展示位i之前 的展示位上展示信息被点击的次数,以及在展示位i之前的展示位当中,其上 的展示信息被点击过、且距离展示位i最近的展示位位置,因而考虑到了前一 次用户所点击的展示信息所在的展示位位置以及已发生的点击次数,从而可以 同时刻画出用户点击的展示位与前一次用户点击的展示位之间的距离和点击 倾向衰减,从而提高了排序的合理性,并提高了信息搜索、展示效率。

附图说明

图1为本申请实施例中MCM的图模型示意图;

图2为本申请实施例提供的信息搜索流程示意图;

图3为本申请实施例提供的信息搜索服务器结构示意图;

图4为本申请实施例提供的展示信息排序权重值确定装置的结构示意图。

具体实施方式

在信息搜索服务器返回给用户的信息搜索结果页面的特定区域内,设置有 数个信息展示位,用于展示与用户提交的查询词相关的展示信息。本申请实施 例提供的信息搜索机制,在针对当前的搜索会话展示信息时,同时考虑在前一 次用户所点击的展示信息所在的展示位位置以及已发生的点击次数,从而同时 刻画出用户点击的展示位与前一次用户点击的展示位之间的距离和点击倾向 衰减,从而克服现有点击模型的缺点。

本申请实施例提供的信息搜索服务器中包含有展示信息数据库和点击日 志。

展示信息数据库中存储了展示信息数据,具体可包括展示信息的ID、标题、 所属类目、属性等自身信息,还可进一步包括展示信息的竞价信息,包括竞价 词、对竞价词的出价等信息。

当用户在搜索结果页面中选择展示信息并点击时,信息搜索服务器会将用 户点击行为信息与本次搜索会话信息对应记录到点击日志中,如记录本次搜索 会话的查询词以及用户所点击的展示位信息(如展示位排列位置、顺序号等)。 具体的,点击日志中记录了用户每次查询及展示信息的相关信息,可包括查询 词、各展示位所展示的广告信息、点击情况等信息,还可包括查询词对应的竞 价词信息,其中,展示信息可包括展示信息的ID、标题、所属类目、属性等相 关信息。

进一步的,考虑到点击日志中包含的信息较多,本申请实施例可采用离线 方式对点击日志进行整理,只保留本申请实施例进行展示信息排序时所需要的 参数。为了更进一步的减少运算量,可只保留最近一段时间内(时间长度可设 置)的点击日志,以便作为对展示信息进行排序的依据。例如,整理后的点击 日志的格式可以是:

C1:q=iphone;<a1,click=0>,<a2,click=1>,<a3,click=0>,<a4,click=1>, <a5,click=0>

C2:q=iphone;<a2,click=0>,<a1,click=1>,<a3,click=0>,<a4,click=0>, <a5,click=0>

C3:q=iphone;<a1,click=0>,<a3,click=1>,<a4,click=1>,<a2,click=1>, <a6,click=0>

其中,C1、C2、C3分别对应一次搜索会话,q表示查询词,a1、a2、a3、 a4、a5、a6分别表示展示信息,一次搜索会话中的各展示信息按照展示位顺序 记录,click=0表示未被点击,click=1表示被点击。例如,上述日志记录“C1: q=iphone;<a1,click=0>,<a2,click=1>,<a3,click=0>,<a4,click=1>,<a5,click =0>”表示:查询词为“iphone”,展示位从1至5按顺序展示有展示信息a1、 a2、a3、a4、a5,其中展示为2、4上所展示的展示信息被点击。

下面将结合本申请中的附图,对本申请中的技术方案进行描述。

本申请实施例可基于C/S(客户端/服务器)或B/S(浏览器/客户端)架构 实现,客户端(或浏览器)与服务器之间可通过互联网或无线通信等方式进行 信息交互。其中,用户可通过所在客户端设备或浏览器提交包含查询词的信息 搜索请求给服务器,服务器会根据查询词进行信息搜索,并返回搜索结果页面。

本申请实施例中的信息搜索服务器,一方面可以根据用户提交的查询词进 行信息搜索,这部分处理可采用现有方式,对此本申请实施例不做具体限制; 另一方面还可以根据用户提交的查询词搜索相关的展示信息并进行排序,以便 在搜索结果页面的信息展示区域进行展示。其中,在进行展示信息排序时,信 息搜索服务器采用本申请实施例提供的展示信息排序模型,这里将该模型称之 为多重点击模型(Multiple Click Model,MCM)。

本申请实施例中的MCM模型基于如下假设:用户查看展示信息后点击该 展示信息的概率依赖于该展示信息本身,以及用户查看展示信息的概率依赖于 前一次用户点击的展示信息所在的展示位,以及用户点击过的展示信息的数 目。下面对MCM模型进行详细描述。

为描述方便,在描述MCM模型之前,首先对相关的名词解释和参数定义 进行如下说明:

搜索会话:是指针对一次搜索请求所得到的搜索结果的集合,对于同一个 查询词可能会存在多个搜索会话。例如,对一个给定的查询词“连衣裙”, {I1,I2,I3,...,IN}表示其对应的搜索会话集合,其中N为搜索会话数目;

设展示信息数据库中共有D个展示信息数据,每个搜索会话中展示M个 展示信息,则对于一个展示信息j(j表示展示信息的编号),用Rj表示对应于 其质量分(Rj∈[0,1]),展示信息的质量分用于表示其排序权重,如质量分越 高,其排序位置越靠前;对于一个搜索会话Lk,定义映射Φk:如果展示信息j 在第i个展示位上展示,则记为Φk(i)=j;

为表达方便,定义Si=RΦ(i),即Si表示在第i个展示位上所展示的展示信 息j的质量分(即排序权重)。

另外,本申请实施例使用Ei表示展示位i上的展示信息被查看的事件,使 用Ci表示展示位i上的展示信息被点击的事件。

本申请实施例中,MCM模型基于以下假定:

(1)用户按照从上到下的顺序浏览信息展示位中的展示信息;

(2)用户查看某一个展示位(展示位i)上的展示信息的概率依赖于:在 展示位i之前的展示位上,展示信息被点击的次数,以及在展示位i之前的展 示位当中,其上的展示信息被点击过,且距离展示位i最近的展示位位置;

(3)若用户查看了某条展示信息,则其点击该展示信息的概率只依赖于 该展示信息本身。

基于上述假设,MCM模型的概率公式表达如下:

P(E1=1)=β0,1,0

P(Ci=1|Ei=0,Si)=0,.................................[1]

P(Ci=1|Ei=1,Si)=Si

P(Ei=1|C1,...,Ci-1,Ci+1,...,CM)=βp,d,n

其中,P(E1=1)=β0,1,0为展示位1上的展示信息被查看的概率;

P(Ci=1|Ei=0,Si)=0表示当展示位i上的展示信息没有被查看到时,其被 点击的概率为0;

P(Ci=1|Ei=1,Si)=Si表示展示位i上的展示信息被查看到时,其被点击 的概率为Si

P(Ei=1|C1,...,Ci-1,Ci+1,...,CM)=βp,d,n为展示位i上的展示信息被查看的 概率为βp,d,n。设本次搜索会话Ik属于搜索会话集合{I1,I2,I3,...,IN},则βp,d,n依 赖于在搜索会话集合{I1,I2,I3,...,IN}中搜索会话Ik之前的各搜索会话中,展示 位i之前的各展示位(展示位1,2,...,i-1)中,展示信息被点击的次数n,以及 在展示位i之前的各展示位(展示位1,2,...,i-1)中,其展示信息被点击且距离 展示位i最近的展示位p、展示位p与展示位i之间的距离d(d=i-p)。例如, 搜索结果页面中有8个展示位,针对查询词“连衣裙”,在之前的搜索会话中 用户的点击情况是:用户点击过位置1、2、5、7的展示信息,那么对于位置5, 其在当前搜索会话中被查看的概率βp,d,n,其依赖于p,d,n,其中,p表示位 置2(因为在位置5之前被点击的位置中位置2离位置5最近),d表示位置2 到位置5之间的距离(d=5-2),n表示位置2之前(包括位置2)上的展示信 息的点击次数(此处n=2,因为位置1和位置2上的展示信息分别被点击了1 次)。

所有可能的(p,d,n)的组合可以表示为集合:

T={(p,d,n)|0≤p<M,1≤d≤M-p,0≤n≤p}........................[2]

其中,M表示展示位最大编号(展示位编号从1开始)。

图1示出了MCM模型的图模型示意,其中,E表示展示信息被查看到的 事件,C表示展示信息被点击的事件,S表示在一个展示位上的展示信息的质 量分(即排序权重)。图1表示如下含义,在同一查询词的搜索会话集合中:

位置1上的展示信息是否被点击依赖于位置1上的展示信息是否被看到, 以及位置1上的展示信息本身;

位置2上的展示信息是否被点击依赖于位置2上的展示信息是否被看到, 以及位置2上的展示信息本身;

位置M上的展示信息是否被点击依赖于位置M上的展示信息是否被看到, 以及位置M上的展示信息本身;

位置2上的展示信息是否被看到依赖于位置1上的展示信息是否被点击;

位置3上的展示信息是否被看到依赖于位置1、2上的展示信息是否被点 击;

位置M上的展示信息是否被看到依赖于位置1,2......M-1上的展示信息 是否被点击。

根据贝叶斯原理,通过上述MCM模型,可以得到展示信息j的质量分Rj, 以便作为展示信息排序的依据。

具体的,根据贝叶斯原理,有

P(R|C1:N)∝P(R)P(C1:N|R)∝P(CI:N|R)..................[3]

其中,式中R(R1,R2,...,RD)。

假定先验分布已知,对一个搜索会话Ik,有

P(Ck|Sk)=Πi=1MP(Cik|C1:i-1k,Ci+1:Mk,Sk)

=Πi=1MP(Cik|Eik,Sik)P(Eik|C1:i-1k,Ci+1:Mk)

=Πi=1M(βikSik)Cik(1-βikSik)1-Cik··················[4]

其中,βik=βpik,dik,nik.

P(Sjk)=P(Rφk(j)),

P(Ck|R)=Πi=1MP(Cik|RΦk(1),RΦk(2),...,RΦk(M)).................[5]

=Πi=1M(βikRΦk(i))Cik(1-βikRΦk(i))1-Cik

利用式(5)计算式(3),可以得到R的后验分布:

P(R|C1:N)Πk=1NΠi=1M(βikRφk(i))Cik(1-βikRφk(i))1-Cik

Πk=1NΠi=1M(βik)CikΠk=1NΠi=1MRφk(i)Cik(1-βikRφk(i))1-Cik

Πk=1NΠi=1MRφk(i)Cik(1-βikRφk(i))1-Cik..................[6]

在式(6)中,为常数。注意到R(R1,R2,...,RD)相互独立,因 而可以单独计算每个Rj,故P(Rj|C1:N)可以改写为

其中,τ=(p,d,n),Clickj表示展示信息j获得的点击数,表示在τ 状态下展示信息j展现却未获点击的数目。

这样,获得了P(Rj|C1:N)的未经归一化的封闭形式的表达式。利用数值积 分可以计算出在Rj∈[0,1]上数学期望:

μj=01P(Rj|C1:N)dRj·················[8]

及其置信度:

σj=μ-0.05μ+0.05P(Rj|C1:N)dRj··················[9]

在具体实施时,可以使用μj作为质量分,并利用σj根据不同的置信度要 求对质量分进行过滤。

根据式(5),有

P(Ck)=RkP(Ck|Rk)P(Rk)dRk=Πi=1M(βi|2)Cik(1-βi/2)1-Cik···[10]

因此似然函数可以写成:

其中τ=(pik,dik,nik).

对其求导数,可以求得参数的极大似然估计值:

MCM模型可通过训练方式得到,即,将MCM模型计算出的质量分作为 特征,通过机器学习方法学习得到预估展示信息质量分的模型。经验表明,在 机器学习方法产生的模型中,点击反馈质量分一般均为最重要的特征之一。

具体地,通过机器学习训练MCM模型的过程可以是:在历史点击日志中, 对于每个查询记录和每个查询时点击的展示信息,提取一组特征,这些特征表 达了查询和展示信息之间的相关性信息,如查询和展示信息之间的单词匹配比 例等。可以将MCM计算出的质量分作为这一组特征中的一个。另外,对于每 个查询和每个展示信息,从历史点击日志中,也可以知道其点击情况。将点击 情况作特定的数学变换之后,作为训练目标值,这样就形成了训练数据集。然 后,可以假设数据是从某种特定的模型中产出(模型包括逻辑回归(Logistic  Regression),决策树(Decision Tree)等),根据训练数据集学习到模型中的参 数。最后,可以利用训练得到的模型来对新的实例(此处即为查询-展示信息) 的目标值(即为质量分)进行预测。

MCM模型的训练需要处理海量的点击数据,这些点击数据一般存储在分 布式文件系统中。为了提高训练效率,可以采用并行的方式进行训练。使用分 布式任务调度管理系统,如MapReduce架构,可以有效的提高训练效率。

基于上述MCM模型,图2示出了本申请实施例提供的信息搜索流程示意 图,该流程描述了信息搜索服务器根据用户输入的查询词,搜索与该查询词相 关的展示信息并进行排序,并最终在返回的搜索结果页面中进行展示的过程。 该流程以信息搜索结果页面中包含M(M>1)个信息展示位为例描述,该流程 可包括:

步骤201,信息搜索服务器接收用户输入的搜索请求,获取其中携带的查 询词。

具体实施时,用户可在所在客户端设备上,通过信息搜索服务器提供的信 息搜索查询界面输入查询词,并提交信息搜索请求给信息搜索服务器。

步骤202,信息搜索服务器搜索与该查询词相关的待展示信息。通常情况 下,所述待展示信息的数量不少于搜索结果页面中的信息展示位数量,以便信 息搜索服务器在搜索结果页面的所有信息展示位上显示展示信息。

具体实施时,信息搜索服务器可根据查询词从展示信息数据库中搜索与该 查询词相关的M个展示信息,组成展示信息集合,以用于在返回给用户的搜 索结果页面中进行展示。信息搜索服务器搜索到的展示信息数量也可以大于M′ 个,以便为后续进行排序处理时,为了根据各展示信息的质量分进行进一步筛 选处理留出余量。其中,本申请实施例对搜索与查询词相关的展示信息时所采 用的规则或算法不做限制。

步骤203,信息搜索服务器根据MCM模型以及点击日志中记录的内容, 确定各待展示信息的质量分(即排序权重值)。

具体实施时,信息搜索服务器可首先根据用户提交的查询词查询点击日 志,获取相同查询词的各检索会话中,用户对各展示位的点击情况,统计哪些 展示位被点击过,以及这些被点击过的展示位的点击次数,然后,针对每个待 展示信息,根据MCM模型计算出各待展示信息的质量分。比如,查询词为 “iphone”的点击日志包括:

C1:q=iphone;<a1,click=0>,<a2,click=1>,<a3,click=0>,<a4,click=1>, <a5,click=0>

C2:q=iphone;<a2,click=0>,<a1,click=1>,<a3,click=0>,<a4,click=0>, <a5,click=0>

C3:q=iphone;<a1,click=0>,<a3,click=1>,<a4,click=1>,<a2,click=1>, <a6,click=0>

根据这些点击日志,通过MCM模型可以分别估计出 ...,其中, P(R_a1|iphone,C)表示展示信息a1在查询词iphone下,根据历史点击情况C(包 括上述C1、C2、C3)估计出的点击概率;然后,根据P(R_a1|iphone,C), P(R_a2|iphone,C)...,P(R_a6|iphone,C)再利用数值积分求出,...,等, 作为<iphone,a1>,<iphone,a2>,...,<iphone,a6>等的质量分。

进一步地,各待展示信息还对应设置有置信度,置信度可根据展示信息提 供者的竞价、展示信息提供者(或展示信息)的大众认知度等因素设置,比如 待展示信息的提供者的竞价越高,或是展示信息的大众认知度越高,其置信度 越高。相应的,在步骤202中搜索出的展示信息数量大于M的情况下,确定 各待展示信息的排序权重值之后,还可根据各待展示信息的置信度,对各待展 示信息进行过滤,得到与搜索结果页面中的信息展示位数量相等的待展示信 息。

例如,按照质量分从高到低对待展示信息进行排序,取前M个待展示信 息以便分别在搜索结果页面中的M个展示位上展示。

步骤204,信息搜索服务器根据质量分,将各待展示信息分配给搜索结果 页面中的信息展示位。

具体实施时,将各待展示信息分配给搜索结果页面中的信息展示位的基本 原则与现有技术相同,即,靠前的展示位分配给质量分高的展示信息。

步骤205,信息搜索服务器返回搜索结果页面给提交搜索请求的用户所在 的客户端,所述搜索结果页面中包括搜索结果信息,并在展示信息区域的M个 展示位上分别展示通过上述流程搜索和排序后的M个展示信息。

上述流程仅描述了展示信息的搜索和排序过程,未描述根据查询词进行信 息搜索以得到搜索结果的过程,该过程可采用现有方式实现,对此本申请实施 例不做限定。

为了减少信息搜索服务器的响应时间,在本申请的另一实施例中,信息搜 索服务器可采用离线数据处理方式,每天(该时间长度可设置)采用前述算法, 使用MCM模型,以对点击日志作为依据,生成“查询词-展示信息质量分”数 据,并存储到特定的索引结构中。其中,“查询词-展示信息质量分”数据中, 针对点击日志中所记录的每个查询词,记录了该查询词所对应的相关展示信息 的质量分。比如,信息搜索服务器中的离线数据处理模块可定时查询原始的点 击日志,获取一段时间内的点击日志记录,对于日志记录中的每个查询词,查 询展示信息数据库找到相关的展示信息(也可直接将日志记录中对应当前查询 词所记录的展示信息作为本次排序计算的待展示信息),然后根据前述方法, 利用MCM模型计算出各展示信息的质量分,并保持到“查询词-展示信息质量 分”数据结构中。当信息搜索服务器接收到用户提交的搜索请求后,可根据搜 索请求中的查询词,查询“查询词-展示信息质量分”数据,得到与该查询词 对应的各展示信息的质量分,根据展示信息的质量分对展示信息进行排序,从 而省去了根据查询词查询待展示信息的步骤,以及查询点击日志和根据MCM 模型对待展示信息的质量分进行计算的步骤,因而减少了响应处理时间,提高 了搜索效率。

进一步的,如果用户提交的查询词在“查询词-展示信息质量分”数据中 没有记录,则信息搜索服务器还需要针对该查询词执行上述步骤202~205。

为了综合考虑用户的利益和展示信息提供者的利益,在本申请的另一实施 例中,可在前述实施例的基础上,当得到各待展示信息的质量分之后,针对每 个待展示信息,再结合该待展示信息提供者的竞价,计算出综合分数,然后根 据综合分数进行排序。比如,可根据预先设置的权重值,对使用MCM模型计 算出的待展示信息的质量分,与该待展示信息提供者的竞价进行加权求和,得 到该待展示信息的综合分数。

基于相同的技术构思,本申请实施例还提供了一种展示信息排序权重值确 定方法,其展示信息的排序权重值计算原理和过程与前述实施例相同。即:获 取点击日志内容,根据点击日志内容获取各展示位上的展示信息的概率,根据 各展示位上的展示信息的概率,确定出与查询词(如点击日志中记录的所有或 部分查询词)相关的各待展示信息的排序权重值。其计算过程采用本申请前述 实施例提供的MCM模型。进一步的,在确定出与查询词相关的各待展示信息 的排序权重值之后,还可获取所述各待展示信息的提供者的竞价,根据所述各 待展示信息的排序权重值和提供者的竞价,确定出综合排序权重值,作为展示 信息排序的参考。

该实施例提供的展示信息排序权重值确定方法,可通过用户提交搜索请求 触发,也可通过其它方式触发,比如管理员提交的计算展示信息排序权重值的 命令,或者定时被触发。

基于相同的技术构思,本申请实施例还提供了一种信息搜索服务器,用于 执行前述信息搜索流程。

如图3所示,本申请实施例提供的信息搜索服务器可包括:

展示信息排序权重值确定装置301,用于获取点击日志内容,根据点击日 志内容获取用户查看搜索结果页面中各展示位上的展示信息的概率,根据用户 查看搜索结果页面中各展示位上的展示信息的概率,确定出与查询词相关的各 待展示信息的排序权重值;其中,用户查看展示位i上的展示信息的概率依赖 于:在展示位i之前的展示位上展示信息被点击的次数,以及在展示位i之前 的展示位当中,其上的展示信息被点击过、且距离展示位i最近的展示位位置;

接收模块302,用于接收搜索请求;

获取模块303,用于获取所述搜索请求中携带的查询词;

展示信息排序模块304,用于参考所述展示信息排序权重值确定装置确定 出的,与查询词相关的各待展示信息的排序权重值,将各待展示信息分配给搜 索结果页面中的信息展示位;

发送模块305,用于返回搜索结果页面。

此外,该信息搜索服务器还包括常规的信息搜索模块306,用于根据接收 到的信息搜索请求,执行常规的信息搜索流程。

进一步的,展示信息排序权重值确定装置301还用于:在确定出与查询词 相关的各待展示信息的排序权重值之后,获取所述各待展示信息的提供者的竞 价,根据所述各待展示信息的排序权重值和提供者的竞价,确定出综合排序权 重值。相应的,展示信息排序模块304在将各待展示信息分配给搜索结果页面 中的信息展示位时所依据的排序权重值为综合排序权重值。

进一步的,展示信息排序模块304还用于:在获取模块303获取到查询词 后,查询所述展示信息排序权重值确定装置事先确定出的,与所述查询词相关 的各待展示信息的排序权重值。

进一步的,展示信息排序权重值确定装置301还用于:在确定出与查询词 相关的各待展示信息的排序权重值之后,获取所述各待展示信息的提供者的竞 价,根据所述各待展示信息的排序权重值和提供者的竞价,确定出综合排序权 重值。相应的,展示信息排序模块305在将各待展示信息分配给搜索结果页面 中的信息展示位时所依据的排序权重值为综合排序权重值。

具体的,展示信息排序权重值确定装置301可采用前述实施例提供的 MCM模型确定出待展示信息的排序权重值,具体算法在此不再赘述。

本申请实施例还提供了一种展示信息排序权重值确定装置,该装置可用于 图3所示的信息搜索服务器。如图4所示,该装置可包括:

获取模块401,用于获取点击日志内容;

概率计算模块402,用于根据点击日志内容获取各展示位上的展示信息的 概率;

权重值计算模块403,用于根据各展示位上的展示信息的概率,确定出与 查询词相关的各待展示信息的排序权重值;其中,用户查看展示位i上的展示 信息的概率依赖于:在展示位i之前的展示位上展示信息被点击的次数,以及 在展示位i之前的展示位当中,其上的展示信息被点击过、且距离展示位i最 近的展示位位置。

进一步的,获取模块401还用于,获取所述各待展示信息的提供者的竞价。 相应的,权重值计算模块403在确定出与查询词相关的各待展示信息的排序权 重值之后,根据所述各待展示信息的排序权重值和提供者的竞价,确定出综合 排序权重值,作为展示信息排序的参考。

具体的,权重值计算模块403可采用前述实施例提供的MCM模型确定出 待展示信息的排序权重值,具体算法在此不再赘述。

本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述 进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个 或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成 多个子模块。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请 可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很 多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上 或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机 软件产品存储在一个存储介质中,包括若干指令用以使得一台终端设备(可以 是手机,个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述 的方法。

以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通 技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰, 这些改进和润饰也应视本申请的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号