首页> 中国专利> 确定词素重要性分析模型的方法及装置

确定词素重要性分析模型的方法及装置

摘要

本发明公开了一种确定词素重要性分析模型的方法及装置,属于计算机领域。所述方法包括:获取至少两条训练数据,每条训练数据包括一个查询词、查询词中的任一词素以及任一词素在查询词中的重要性得分;确定每条训练数据的每个预设特征的特征值;根据所有训练数据的每个预设特征的特征值及所有训练数据中包括的词素的重要性得分确定模型参数,并根据确定的模型参数确定词素重要性分析模型。本发明通过获取到的训练数据确定模型参数,并根据确定的模型参数确定词素重要性分析模型,进而实现通过词素重要性分析模型分析词素重要性时,不仅运算速度较快,提高了分析词素重要性的效率,而且准确性较高。

著录项

  • 公开/公告号CN104866496A

    专利类型发明专利

  • 公开/公告日2015-08-26

    原文格式PDF

  • 申请/专利权人 腾讯科技(深圳)有限公司;

    申请/专利号CN201410063194.X

  • 发明设计人 姚伶伶;何琪;赫南;张博;

    申请日2014-02-22

  • 分类号G06F17/30(20060101);

  • 代理机构11138 北京三高永信知识产权代理有限责任公司;

  • 代理人滕一斌

  • 地址 518000 广东省深圳市福田区振兴路赛格科技园2栋东403室

  • 入库时间 2023-12-18 10:36:06

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-12-10

    授权

    授权

  • 2016-11-02

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20140222

    实质审查的生效

  • 2015-08-26

    公开

    公开

说明书

技术领域

本发明涉及计算机领域,特别涉及一种确定词素重要性分析模型的方法及装置。

背景技术

在信息检索领域,通常用户会在搜索引擎中输入某一查询词来从互联网上获取与输入的查询词有关的信息。为了明确用户的检索意图,搜索引擎在获取到用户输入的查询词后,通常会对用户输入的查询词进行切词,获得该查询词包含的各个词素后,分析该查询词中的任一词素在该查询词中的重要性,从而根据任一词素在查询词中的重要性来提供满足用户真正需求的信息和服务。而在分析词素在查询词中的重要性时,通常需要通过相应的词素重要性分析模型来实现,因此,有必要提出一种确定词素重要性分析模型的方法。

相关技术在确定词素重要性分析模型时,通常采用的方法为:抽取一些查询词及其切词后的词素,通过人工标注的方法确定各个词素在查询词中的重要性,并以每个词素的重要性得分作为评价各个词素在查询词中的重要性的标准;将若干个人工标注获得的查询词、查询词中的某一词素以及该词素在查询词中的重要性得分作为获取到的训练数据,并通过获取到的训练数据训练决策树模型,从而将训练得到的模型作为确定的词素重要性分析模型。

在实现本发明的过程中,发明人发现相关技术至少存在以下问题:

由于相关技术通常会建立决策树模型来分析词素的重要性,而由于决策树模型层次结构较多,运算速度较慢,因此,在利用确定的决策树模型来分析词素重要性时,分析速度较慢,导致分析词素在查询词中的重要性的效率较低。另外,由于决策树模型对连续的字段难以作出准确的预测,因此,当使用确定的决策树模型分析词素在查询词中的重要性时,准确性不高。

发明内容

为了解决相关技术的问题,本发明实施例提供了一种确定词素重要性分析模型的方法及装置。所述技术方案如下:

第一方面,提供了一种确定词素重要性分析模型的方法,所述方法包括:

获取至少两条训练数据,每条训练数据包括一个查询词、所述查询词中的任一词素以及所述任一词素在所述查询词中的重要性得分;

确定每条训练数据的每个预设特征的特征值,所述预设特征至少包括词素自解释特征类及词素交叉特征类中的一种特征;

根据所有训练数据的每个预设特征的特征值及所有训练数据中包括的词素的重要性得分确定模型参数,并根据确定的模型参数确定词素重要性分析模型,其中,所述模型参数的数量由所述预设特征的数量确定,且所述模型参数的数量不大于所述训练数据的数量。

第二方面,提供了一种确定词素重要性分析模型的装置,所述装置包括:

获取模块,用于获取至少两条训练数据,每条训练数据包括一个查询词、所述查询词中的任一词素以及所述任一词素在所述查询词中的重要性得分;

第一确定模块,用于确定每条训练数据的每个预设特征的特征值,所述预设特征至少包括词素自解释特征类及词素交叉特征类中的一种特征;

第二确定模块,用于根据所有训练数据的每个预设特征的特征值及所有训练数据中包括的词素的重要性得分确定模型参数,所述模型参数的数量由所述预设特征的数量确定,且所述模型参数的数量不大于所述训练数据的数量;

第三确定模块,用于根据确定的模型参数确定词素重要性分析模型。

本发明实施例提供的技术方案带来的有益效果是:

通过获取到的训练数据确定模型参数,并根据确定的模型参数确定词素重要性分析模型,进而实现在通过词素重要性分析模型分析词素重要性时,不仅运算速度较快,提高了分析词素重要性的效率,而且准确性较高。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的一种确定词素重要性分析模型的方法流程图;

图2是本发明实施例二提供的一种确定词素重要性分析模型的方法流程图;

图3是本发明实施例三提供的一种确定词素重要性分析模型的装置结构示意图;

图4是本发明实施例四提供的一种服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。

在文本挖掘与检索领域,对一个查询词进行切词得到各个词素之后,经常需要分析各个词素在该查询词中的重要程度。譬如在文本检索时,当用户在搜索引擎中输入一个查询词后,可以通过分析该查询词中各个词素的重要性来确定该查询词中最重要的词素,并挑选最重要的词素优先检索,从而提供满足用户真正需求的信息和服务。例如,如果给定一个查询词T,对该查询词进行切词获得的切词结果为T=t1t2t3t4……tn,n为切词后词素的个数,ti表示该查询词中具体的词素。对于每个词素ti,可以分别对应一个重要性得分wi,来表示词素ti在查询词T中的重要程度,wi∈[0,1],wi越大,表示词素ti在查询词T中的重要程度越强。因此,在分析出该查询词中最重要的词素后,便可根据该最重要的词素来为用户提供与该最重要的词素相关的信息和服务。

实际应用中,在确定查询词中各个词素的重要程度时,通常会预先确定一个用于分析词素在查询词中重要性的模型,并通过该确定的模型来分析词素在查询词中的重要性。本发明实施例即提供了一种确定词素在查询词中重要性的词素重要性分析模型。通过该确定的模型,可以分析词素在查询词中的重要性,从而确定查询词中最重要的词素。

其中,具体的确定词素重要性分析模型的方法详见下述实施例一和实施例二:

实施例一

结合上述内容,本发明实施例提供了一种确定词素重要性分析模型的方法。参见图1,本发明实施例提供的方法流程包括:

101:获取至少两条训练数据,每条训练数据包括一个查询词、查询词中的任一词素以及任一词素在查询词中的重要性得分;

优选地,获取至少两条训练数据,包括:

从历史查询数据中获取至少一个查询词,历史查询数据为检索日志、历史扩展关系词表及点击日志中的至少一个历史数据;

获取查询词中的至少一个词素,并确定每个词素在查询词中的重要性得分;

根据获取的查询词、每个查询词中的词素以及各个词素在所属查询词中的重要性得分确定至少两条训练数据。

优选地,历史查询数据为检索日志中的历史数据;

确定每个词素在查询词中的重要性得分,包括:

获得查询词的所有词素,并分别统计每个词素出现的次数以及查询词中的所有词素出现的总次数;

根据每个词素出现的次数以及查询词中的所有词素出现的总次数确定每个词素在查询词中的重要性得分。

优选地,历史查询数据为历史扩展关系词表中的历史数据,历史数据包括查询词及查询词对应的关系词;

确定每个词素在查询词中的重要性得分,包括:

获得查询词的所有词素,并分别统计每个词素出现的次数以及查询词对应的关系词中包含每个词素的关系词的总个数;

根据每个词素出现的次数以及查询词对应的关系词中包含每个词素的关系词的总个数确定每个词素在查询词中的重要性得分。

优选地,历史查询数据为点击日志中的历史数据,历史数据包括查询词及查询词对应的点击词构成的查询词点击词对;

确定每个词素在查询词中的重要性得分,包括:

统计具有共有词素的查询词点击词对的展示次数和点击次数,并统计每个共有词素对应的累加展示次数和累加点击次数;

根据每个共有词素对应的累加展示次数和累加点击次数确定查询词中每个词素对应的展示次数和点击次数,根据查询词中每个词素对应的展示次数和点击次数确定每个词素在查询词中的重要性得分。

102:确定每条训练数据的每个预设特征的特征值,预设特征至少包括词素自解释特征及词素交叉特征中的一种特征;

优选地,词素自解释特征至少包括词素专名类型特征、词素逆向文件频率特征、词素分词特征、词素在查询词中的位置特征及词素的全局核心得分特征中的一种特征;

词素交叉特征至少包括词素与词素所属查询词中其它词素的字面交叉特征、查询词中词素转移概率的平均值特征、词素的第一转移概率特征和词素的第二转移概率特征、词素的文本分类相关特征、词素的主题分布和词素所属查询词的主题分布的第一交叉特征、概率潜语义分析PLSA主题相似度特征中的一种特征。

优选地,预设特征包括词素交叉特征中的查询词中词素转移概率的平均值特征时,确定每条训练数据的每个预设特征的特征值,包括:

根据转移概率词典获取每条训练数据中的词素与每条训练数据中的词素所属的查询词中的其它词素之间的转移概率;

确定每条训练数据中的词素与每条训练数据中的词素所属的查询词中的其它词素之间转移概率的平均值,并将转移概率的平均值确定为查询词中词素转移概率的平均值特征的特征值。

优选地,预设特征包括词素交叉特征中的词素的第一转移概率特征和词素的第二转移概率特征时,确定每条训练数据的每个预设特征的特征值,包括:

从转移概率词典中查询每条训练数据中的词素的第一转移概率的概率值和词素的第二转移概率的概率值,并将第一转移概率的概率值和第二转移概率的概率值分别确定为所述词素的第一转移概率特征和词素的第二转移概率特征的特征值。

优选地,所述方法还包括:

将检索会话包括的查询词成对输出,获得多个查询词对,其中,获得的每个查询词对包括第一查询词和第二查询词;

对检索会话包括的所有查询词对中的第一查询词和第二查询词切词,将第一查询词中的每个词素与第二查询词中的每个词素组合获得词素对,每个词素对包括第一查询词中的第一词素和第二查询词中的第二词素;

统计任一词素对在检索会话中出现的次数以及任一词素对中第一词素和第二词素单独出现的次数;

根据任一词素对在检索会话中出现的次数以及任一词素对中第二词素单独出现的次数确定任一词素对中第一词素相对于第二词素的转移概率,根据任一词素对在检索会话中出现的次数以及任一词素对中第一词素单独出现的次数确定第二词素相对于第一词素的转移概率;

根据所有词素对中第一词素相对于第二词素的转移概率及第二词素相对于第一词素的转移概率获得转移概率词典。

优选地,预设特征包括词素交叉特征中的词素的文本分类相关特征,且词素的文本分类相关特征包括词素与词素分类库中的每个词素类别的相关特征时,确定每条训练数据的每个预设特征的特征值,包括:

获取每条训练数据中的词素所属词素分类库中的第一预设数值个词素类别,确定每条训练数据中的词素与第一预设数值个词素类别的相关特征的特征值为第一特征值,并确定每条训练数据中的词素与词素分类库中除第一预设数值个词素类别之外的其它词素类别的相关特征的特征值为第二特征值。

优选地,词素的文本分类相关特征还包括词素与查询词分类库中的每个查询词类别的相关特征时,确定每条训练数据的每个预设特征的特征值,还包括:

获取每条训练数据中的词素所属的查询词在查询词分类库中的第二预设数值个查询词类别,确定每条训练数据中的词素与第二预设数值个查询词类别的相关特征的特征值为第三特征值,并确定每条训练数据中的词素与查询词分类库中除第二预设数值个查询词类别之外的其它查询词类别的相关特征的特征值为第四特征值。

优选地,词素的文本分类相关特征还包括词素所属词素类别及词素所属的查询词所属查询词类别的第二交叉特征时,确定每条训练数据的每个预设特征的特征值,还包括:

确定每条训练数据中的词素所属词素分类库中的第一预设数值个词素类别下的每个子词素类别,并确定每条训练数据中的词素所属的查询词所属查询词分类库中的第二预设数值个查询词类别下的每个子查询词类别;

将每个子词素类别与每个子查询词类别构成一个第二交叉特征,如果任一第二交叉特征中的子词素类别与子查询词类别相同,则确定任一第二交叉特征的特征值为第五特征值,如果任一第二交叉特征中的子词素类别与子查询词类别不同,则确定任一第二交叉特征的特征值为第六特征值。

优选地,预设特征包括词素交叉特征中的词素的主题分布和词素所属查询词的主题分布的第一交叉特征,确定每条训练数据的每个预设特征的特征值,包括:

获取每条训练数据中的词素所属词素主题库中的第三预设数值个词素主题分布,并获取每条训练数据中的词素所属的查询词在所属查询词主题库中的第四预设数值个查询词主题分布;

确定每条训练数据中的词素所属词素主题库中的第三预设数值个词素主题分布下的每个子词素主题分布,并确定每条训练数据中的词素所属的查询词在所属查询词主题库中的第四预设数值个查询词主题分布下的每个子查询词主题分布;

将每个子词素主题分布与每个子查询词主题分布构成一个第一交叉特征,如果任一第一交叉特征中的子词素主题分布与子查询词主题分布相同,则确定任一第一交叉特征的特征值为第七特征值,如果任一第一交叉特征中的子词素主题分布与子查询词主题分布不同,则确定任一第一交叉特征的特征值为第八特征值。

优选地,预设特征包括词素交叉特征中的PLSA主题相似度特征,确定每条训练数据的每个预设特征的特征值,包括:

获取每条训练数据中的词素所属词素主题库中的第三预设数值个词素主题分布,并获取每个训练数据中的词素所属的查询词在所属查询词主题库中的第四预设数值个查询词主题分布;

计算每个词素主题分布与每个查询词主题分布的主题相似度值,并将计算得到的每个主题相似度值确定为PLSA主题相似度特征的特征值。

103:根据所有训练数据的每个预设特征的特征值及所有训练数据中包括的词素的重要性得分确定模型参数,模型参数的数量由预设特征的数量确定,且模型参数的数量不大于训练数据的数量。

104:根据确定的模型参数确定词素重要性分析模型。

本发明实施例提供的方法,通过获取到的训练数据确定模型参数,并根据确定的模型参数确定词素重要性分析模型,进而实现在通过词素重要性分析模型分析词素重要性时,不仅运算速度较快,提高了分析词素重要性的效率,而且准确性较高。

实施例二

结合上述实施例一的内容,本发明实施例提供了一种确定词素重要性分析模型的方法。参见图2,本发明实施例提供的方法流程包括:

201:获取至少两条训练数据,每条训练数据包括一个查询词、查询词中的任一词素以及任一词素在查询词中的重要性得分。

本发明实施例提供的方法能够通过训练预设模型来确定词素重要性分析模型。为了对预设模型进行训练以获得词素重要性分析模型,需要获取大量的训练数据,并通过该训练数据来训练预设模型。其中,关于预设模型的具体内容,可以有很多种,例如,预设模型可以为逻辑回归模型。当然,预设模型还可以为其它模型,本发明实施例对此不作具体限定。另外,由于在训练预设模型时,训练数据的数量与预设模型的模型参数特点密切相关,为了在后续可以通过确定模型参数来确定词素重要性分析模型,可以结合预设模型的模型参数的特点而获取至少两条训练数据。

由于在训练预设模型以获得词素重要性分析模型时,需要用到查询词、查询词中的任一词素以及该任一词素在该查询词中的重要性得分。因此,每条训练数据至少包括一个查询词、查询词中的任一词素以及任一词素在查询词中的重要性得分。

其中,关于获取至少两条训练数据的方式,本发明实施例不作具体限定。具体实施时,获取至少两条训练数据包括但不限于可以通过以下步骤来实现:

步骤一、从历史查询数据中获取至少一个查询词。

其中,本发明实施例不对历史查询数据的具体内容进行限定,历史查询数据包括但不限于为检索日志、历史扩展关系词表及点击日志中的至少一个历史数据。另外,关于从历史查询数据中获取至少一个查询词的方式,可以有很多种。具体实施时,可以从历史查询数据中选择至少一条查询数据作为获取到的查询词。本发明实施例不对获取历史查询数据的方式进行限定,具体实施时,可以从搜索日志里自动挖掘历史查询数据。

步骤二、获取查询词中的至少一个词素,并确定每个词素在查询词中的重要性得分。

为了后续可以方便地使用获取到的训练数据对预设模型进行训练,从而确定预设模型中的模型参数,需要确定查询词中的至少一个词素,并确定每个词素在所属查询词中的重要性得分。关于确定查询词中的至少一个词素的方式,可以为在获取到至少一个查询词后,对获取到的查询词进行切词得到。其中,关于对获取到的查询词进行切词的方式,可以有很多种。具体实施时,可以通过计算机程序把组成查询词的字符串序列切成一个个单独的词素。例如,如果查询词为“鱼在长江中游”,如果用标记“/”将一个个词素区别开来,则对该查询词进行切词得到的切词结果为“鱼/在/长江/中/游”。

其中,关于确定每个词素在查询词中的重要性得分的方式,本发明实施例不作具体限定,具体实施时,可以根据历史查询数据的类型采用不同的方式确定每个词素在查询词中的重要性得分。具体详见下面描述的内容:

A:当历史查询数据为检索日志中的历史数据时,确定每个词素在查询词中的重要性得分的方式,包括但不限于:

(1)获得查询词的所有词素,并分别统计每个词素出现的次数以及查询词中的所有词素出现的总次数。

在分别统计每个词素出现的次数以及查询词中的所有词素出现的总次数时,可以以检索会话为单位进行统计。其中,检索会话可以根据用户id、检索时间、查询词之间的文本相关程度划分得到。在本发明实施例中,可以将半小时内同一个用户检索的,且查询词之间的文本相关性大于一定阈值的连续检索序列作为一个检索会话。例如,如果在半小时内同一用户在搜索引擎中输入的查询词分别为“多吃土豆可以长高吗”,“怎样才能长高呢”,“运动可以长高吗”,“长高秘诀”,则这些查询词构成一个连续检索序列。如果设置的阈值为0.5,且通过计算这些查询词之间的文本相关性得到这些查询词的文本相关性为0.8,因此,确定这些查询词之间的文本相关性大于一定阈值。因此,可以将这些查询词构成的连续检索序列作为一个检索会话。当然,此处仅以半小时为一个检索会话的时间为例进行了举例说明,具体实施时,检索会话的持续时间也可以为其它时间间隔,本发明实施例对此不作具体限定。另外,关于计算查询词的文本相关性的方法,本发明实施例不作具体限定。

在获得查询词的所有词素时,可以将该检索会话中的每个查询词进行切词得到查询词中的所有词素。在对该检索会话中的所有查询词切词之后,可以分别统计每个词素出现的次数以及查询词中的所有词素出现的总次数。

需要说明的是,当切词后的词素为同义词时,在统计某个词素出现的次数时,需要将该词素的同义词的出现次数也累加到该词素出现的次数中。例如,如果某一检索会话为“多吃土豆可以长高吗”,“怎样才能长高呢”,“运动可以长高吗”,“长高秘诀”,“增高药淘宝”。在该检索会话中,“长高”与“增高”是同义词,因此,在统计“长高”出现次数时,应该把“增高”和“长高”作为一个整体进行统计。其中,关于确定某一词素是否为另一词素的同义词的方式,可以有很多种,本实施例对此不作具体限定,包括但不限于可以通过加载额外的同义词词典来实现。

(2)根据每个词素出现的次数以及查询词中的所有词素出现的总次数确定每个词素在查询词中的重要性得分。

统计每个词素出现的次数以及查询词中的所有词素出现的总次数之后,便可以根据每个词素出现的次数以及该词素所属的查询词中的所有词素出现的总次数确定每个词素在所属查询词中的重要性得分。关于根据每个词素出现的次数以及所属的查询词中的所有词素出现的总次数确定每个词素在所属查询词中的重要性得分的方式,可以有很多种。具体实施时,包括但不限于根据每个词素出现的次数以及该词素所属的查询词中的所有词素出现的总次数通过下述公式确定每个词素在所属查询词中的重要性得分:

>wi=NiΣiNi---(1)>

公式(1)中,wi为每个词素在所属查询词中的重要性得分,Ni表示某一词素ti在检索会话中的出现的次数,表示该查询词中的所有词素在该检索会话中出现的总次数。

B:当历史查询数据包括查询词及查询词对应的关系词的历史扩展关系词表中的历史数据时,确定每个词素在查询词中的重要性得分的方式,包括但不限于:

(1)获得查询词的所有词素,并分别统计每个词素出现的次数以及查询词对应的关系词中包含每个词素的关系词的总个数。

其中,获得查询词的所有词素的方式,仍旧可以为通过对历史扩展关系词表中的所有查询词进行切词得到。另外,为了获得某一词素的重要性得分,需要分别统计历史扩展关系词表中每个词素出现的次数以及历史扩展关系词表中查询词对应的关系词中包含每个词素的关系词的总个数。例如,如果查询词为“什么快递好”,词素为“快递”,则为了获得“快递”的重要性得分,需要统计“快递”在历史扩展关系词表中出现的次数以及历史扩展关系词表中包含“快递”的关系词的个数。

另外,关于历史扩展关系词表的获取方式,可以有很多种方式,包括但不限于从搜索广告匹配中获得。例如,在搜索广告匹配中,每天都会针对高频查询词生成一份相关性很强的查询词-购买词扩展词表,通过逐渐积累,便得到一份描述查询词与购买词关系的数据库。在本发明实施例中,可以将该数据库中查询词与购买词形成的查询词-购买词扩展词表确定为历史扩展关系词表,并将该数据库中的购买词确定为与查询词对应的关系词。

(2)根据每个词素出现的次数以及查询词对应的关系词中包含每个词素的关系词的总个数确定每个词素在查询词中的重要性得分。

具体实施时,本实施例不对根据每个词素出现的次数以及查询词对应的关系词中包含每个词素的关系词的总个数确定每个词素在查询词中的重要性得分的方式进行限定。如果一个查询词切词后的结果为T=t1t2t3t4……tn,则某个词素ti的重要性得分wi可通过如下计算公式得到:

>wi=MiNumbidterms---(2)>

公式(2)中,Mi表示词素ti在该历史扩展关系词表中的出现次数,Numbidterms表示该历史扩展词表中查询词-关系词扩展词表中的查询词对应的关系词中包含该词素的关系词的总个数。需要注意的是,如果该词素在某关系词中出现次数超过1次,则记1次。

为了便于理解,可以结合一个具体的例子对历史查询数据为历史扩展词表时确定词素重要性得分的方式进行解释说明。例如,如果查询词为“光子脱毛的效果怎么样”,词素为“脱毛”,通过查询得到历史扩展关系词表中该查询词对应的关系词总共有38个,即Numbidterms的值为38。此外,“脱毛”在所有的关系词里均出现了,则词素“脱毛”在历史扩展关系词表中的出现次数为38次,即Mi的值为38。因此,“脱毛”在“光子脱毛的效果怎么样”中的重要程度得分就是38/38=1.0。

C:当历史查询数据为点击日志中的历史数据时,结合点击日志的特点,该历史查询数据包括查询词及查询词对应的点击词构成的查询词点击词对。关于点击日志的具体内容,本发明实施例不作具体限定。例如,在搜索广告中,广告主会为其投放的广告选择购买词。搜索广告播放系统会对用户提交的查询词进行在线匹配,找到相关度最高的购买词,再通过购买词的倒排信息,拉取广告并展示给用户。此时,用户会根据搜索意图点击相应的广告。在这个过程中,对于每个查询词query,都将产生一系列与该query相关的查询词-购买词点击对query-bidterm,而query与bidterm一般都有共有词素。因此,在本发明实施例中,可以将query-bidterm作为查询词点击词对,并通过统计query-bidterm中query与bidterm包含的共有词素的点击率来确定每个词素在查询词中的重要性得分。对于该种历史查询数据的类型,确定每个词素在查询词中的重要性得分的方式,包括但不限于:

(1)统计具有共有词素的查询词点击词对的展示次数和点击次数。

具体实施时,可以统计所有与query相关的query-bidterm的展示次数和点击次数。如表一所示,其示出了一种具有共有词素的查询词点击词对的展示次数和点击次数的统计结果。在表一中,ti表示查询词切词后的词素,di表示query-bidterm的展示次数,ci表示query-bidterm的点击次数。需要说明的是,在统计的过程中,如果query-bidterm中的query与bidterm没有共有词素,则丢弃该query-bidterm。

表一

(2)统计每个共有词素对应的累加展示次数和累加点击次数。

统计每个共有词素对应的累加展示次数和累加点击次数时,可以将步骤(1)中query与bidterm具有的共有词素的query-bidterm的展示次数和点击次数进行累加得到。如表二所示,其示出了将表一中的query与bidterm具有的共有词素的query-bidterm的展示次数和点击次数进行累加得到的每个共有词素对应的累加展示次数和累加点击次数的统计结果。

表二

query共有词素展示次数点击次数t1t2t3t2t3d1c1t1t2t3t1d2+d5c2+c5t1t2t3t1t3d3+d4c3+c4

(3)根据每个共有词素对应的累加展示次数和累加点击次数确定查询词中每个词素对应的展示次数和点击次数,并根据查询词中每个词素对应的展示次数和点击次数确定每个词素在查询词中的重要性得分。

其中,在统计到具有共有词素的query-bidterm的展示次数和点击次数后,可以根据具有共有词素的query-bidterm的展示次数和点击次数确定每个共有词素对应的累加展示次数和累加点击次数,并进一步确定查询词中的每个词素对应的展示次数和点击次数。确定查询词中的每个词素对应的展示次数和点击次数时,可以根据表二中统计的query与bidterm中具有共有词素的query-bidterm的展示次数和点击次得到。具体实施时,可以将表二中统计的每个共有词素进行拆分,获得共有词素包括的每个词素,并将每个词素的展示次数和点击次数进行叠加得到查询词中的每个词素对应的展示次数和点击次数。并且,在得到查询词中的每个词素对应的展示次数和点击次数后,可以根据每个词素对应的展示次数和点击次数确定每个词素对应的点击率。在本发明实施例中,可以将确定的点击率作为词素在查询词中的重要性得分的标准。其中,根据查询词中每个词素对应的展示次数和点击次数得到的每个词素的点击率可参见表三,且表三所示的点击率即表示词素在查询词中的重要性得分。

表三

queryquery的单个词素点击率t1t2t3t1(c2+c3+c4+c5)/(d2+d3+d4+d5)t1t2t3t2c1/d1t1t2t3t3(c1+c3+c4)/(d1+d3+d4)

综合上述A、B、C三种历史查询数据的类型,可以确定查询词中的至少一个词素,并确定该词素在查询词中的重要性得分。

步骤三、根据获取的查询词、每个查询词中的词素以及各个词素在所属查询词中的重要性得分确定至少两条训练数据。

由于每条训练数据包括查询词、查询词中的任一词素以及该任一词素在查询词中的重要性得分,因此,可以根据确定的查询词、每个查询词中的词素以及各个词素在所属查询词中的重要性得分确定至少两条训练数据。

综上,本发明实施例提供的方法提供了一种直接从历史查询数据中获取训练数据的方法,尤其在确定训练数据中词素的重要性得分时,是结合历史查询数据的类型而定的。然而,现有技术在获取训练数据时,会人工抽取一些查询词及其切词后的词素,并通过人工标注的方法确定各个词素在查询词中的重要性,将若干个人工标注获得的查询词、查询词中的某一词素以及该词素在查询词中的重要性得分作为获取到的训练数据。因此,利用现有技术中获取训练数据的方法获得的训练数据时,不仅准确度不高,而且会浪费大量的人力资源。另外,由于人工标注的训练数据有限,则在后续通过获得的训练数据训练模型时,会使模型受限于训练数据的数量而导致模型的准确度不高。通过本发明实施例提供的获取训练数据的方法,不仅使确定的词素重要性分析模型准确度较高,而且能够获得大量的训练数据,使得确定的词素重要性分析模型因不受限于训练数据的规模而更具准确性。

202:确定每条训练数据的每个预设特征的特征值,该预设特征至少包括词素自解释特征及词素交叉特征中的一种特征。

在获取到训练数据后,为了训练预设模型,还需要确定每条训练数据的每个预设特征的特征值,而该预设特征包括但不限于词素自解释特征及词素交叉特征中的至少一种特征。

其中,词素自解释特征为能够表明词素本身固有性质的一些特征。关于词素自解释特征的具体内容,本发明实施例不作具体限定。具体实施时,词素自解释特征可以包括但不限于词素专名类型特征、词素IDF(Inverse DocumentFrequency,逆向文件频率)特征、词素分词特征、词素在查询词中的位置特征以及词素的全局核心得分特征,等等。另外,关于词素分词特征的具体内容,本发明实施例不作具体限定,具体实施时可以参考下述内容,此处暂不叙述。

词素交叉特征为能够表明词素与词素所属的查询词中的其它词素之间的关系的特征。词素交叉特征所包括的具体特征也可以有很多种,具体实施时,包括但不限于有词素的字面交叉特征、查询词中词素转移概率的平均值特征、词素的第一转移概率特征和词素的第二转移概率特征、词素的文本分类相关特征、词素的主题分布和词素所属查询词的主题分布的第一交叉特征、PLSA(Probability Latent Semantic Analysis,概率潜语义分析)主题相似度特征中的一种特征。

另外,关于确定每条训练数据的每个预设特征的特征值的方式,可以结合每个预设特征的具体内容而有不同的计算方式。具体实施时,可以参见下述具体内容:

1、如果预设特征包括词素自解释特征中的词素专名类型特征,则确定每条训练数据的每个预设特征的特征值,包括但不限于:

确定每条训练数据中的词素是否为专有名词,如果每条训练数据中的词素是专有名词,则确定每条训练数据中的词素专名类型特征的特征值为1,否则,确定每条训练数据中的词素专名类型特征的特征值为0。

其中,关于确定词素是否为专有名词的方式,本发明实施例不作具体限定。具体实施时,可以根据预先形成的专有名词词表确定。具体地,如果词素在该专有名词词表中,则确定该词素是专有名词,否则,该词素不是专有名词。例如,如果训练数据中的词素为“图书”,而专有名词词表为“商品,图书,音乐”等。由于“图书”在该专有名词词表中,因此,确定“图书”为专有名词,并确定“图书”的词素专名类型特征的特征值为1;如果训练数据中的词素为“快递”,由于“快递”不在该专有名词词表中,因此,确定“快递”不是专有名词,并确定“快递”的词素专名类型特征的特征值为0。

需要说明的是,在该举例中,仅以数字“0”和“1”为例来对词素专名类型特征的特征值进行了举例说明。然而,在具体实施时,也可以使用其它数值来表示词素专名类型特征的特征值。例如,如果词素为专有名词,则可以用“0.9”来表示词素专名类型特征的特征值;如果词素不是专有名词,则可以用“0.1”来表示词素专名类型特征的特征值,等等。同样地,本发明实施例的下述举例中涉及到使用“0”和“1”表示预设特征的特征值时,也仅以“0”和“1”为例进行说明,在具体实施时,也可以使用其它数值表示预设特征的特征值,本发明实施例对此不作具体限定。

2、如果预设特征包括词素自解释特征中的词素IDF特征,则确定每条训练数据的每个预设特征的特征值,包括但不限于:

根据IDF算法计算每条训练数据中的词素的IDF值,确定词素IDF特征的特征值为词素的IDF值。其中,关于根据IDF算法计算词素的IDF值的具体方法,本发明实施例不作具体限定,具体实施时,可以由总文件数目除以包含该词素的文件数目,再将得到的商取对数得到。例如,如果计算得到某一词素的IDF值为0.8,则词素IDF特征的特征值就是0.8。

如果预设特征为词素分词特征,则词素分词特征至少包括的特征有与预设的词素库中的每个词素的相关特征、词素词性特征、词素长度特征、词素所属查询词的长度特征、词素是否包含数字特征、词素是否包含英文特征和词素是否是网址特征等。

3、如果预设特征包括词素自解释特征中的与预设的词素库中的每个词素的相关特征,则确定每条训练数据的每个预设特征的特征值,包括但不限于:

将每条训练数据中的词素与预设的词素库比对,预设的词素库中词素本身的与预设的词素库中的每个词素的相关特征的特征值为1,预设的词素库中除词素本身之外的其它词素的与预设的词素库中的每个词素的相关特征的特征值为0。例如,如果词素为“快递”,而预设的词素库为“北京鲜花快递服装鞋帽”,则此时与预设的词素库中的每个词素的相关特征的特征值分别为(0,0,1,0,0)。

关于预设的词素库的大小及预设的词素库中各个词素之间的顺序,本发明实施例均不作具体限定。例如,结合日常生活常用的词素,可以形成一个约包含40万词素的词素库。在确定词素本身特征的特征值时,可以预先将该词素库中的各个词素进行排序,并根据排序后的词素的顺序确定词素本身特征的特征值。

4、如果预设特征包括词素自解释特征中的词素词性特征,则确定每条训练数据的每个预设特征的特征值,包括但不限于:

判断每条训练数据中的每个词素的词性,并根据预设的词性值表确定该词素的词性对应的词性值,将确定的词性值作为词素词性特征的特征值。

具体实施时,如表四所示,可以预先为所有词性设置一个词性值,从而形成一个词性与词性值的词性值表。

表四

词性词性值名词2动词3…………

当确定某一词素的词素词性特征的特征值时,可以首先确定该词素的词性,然后通过如表四所示的词性值表来确定词素词性特征的特征值。例如,如果词素为“鲜花”,则首先判断该词素的词性为名词,如表四所示,如果预设的词性与词性值的词性值表中记录的名词对应的词性值为2,则确定“鲜花”的词素词性特征的特征值为2。

5、如果预设特征包括词素自解释特征中的词素长度特征,则确定每条训练数据的每个预设特征的特征值,包括但不限于:

确定每条训练数据中的词素的长度值,并确定词素长度特征的特征值为词素的长度值。其中,关于确定词素的长度值的方式,可以有很多种,包括但不限于可以根据词素包含的汉字个数确定词素的长度值,也可以根据词素包含的字节数确定词素的长度值,等等。例如,当根据词素包含的汉字个数确定词素的长度值时,如果词素是“鲜花”,由于该词素的长度值为2,因此,确定词素长度特征的特征值为2;又例如,如果词素是“怎么样”,由于该词素的长度值为3,因此,确定词素长度特征的特征值为3。

6、如果预设特征包括词素自解释特征中的词素所属查询词长度特征,则确定每条训练数据的每个预设特征的特征值,包括但不限于:

确定每条训练数据中的词素所属查询词的长度值,确定词素所属查询词长度特征的特征值为词素所属查询词的长度值。关于确定词素所属查询词的长度值的方式,本发明实施例不作具体限定,具体实施时,可以参考上述确定词素长度值的方式。例如,当根据词素所属查询词的长度值的汉字个数确定词素所属查询词的长度值时,如果查询词是“光子脱毛的效果怎么样”,由于该词素所属查询词的长度值为10,因此,确定词素所属查询词长度特征的特征值为10。

7、如果预设特征包括词素自解释特征中的词素是否包含数字特征,则确定每条训练数据的每个预设特征的特征值,包括但不限于:

判断每条训练数据中的词素是否包含数字,如果每条训练数据中的词素包含数字,则确定每条训练数据中的词素是否包含数字特征的特征值为1,否则,确定该任一词素是否包含数字特征的特征值为0。例如,如果词素是“12306”,则由于该词素包含数字,因此,确定词素是否包含数字特征的特征值为1;又例如,如果词素是“鲜花”,则由于该词素不包含数字,因此,确定词素是否包含数字特征的特征值为0。

8、如果预设特征包括词素自解释特征中的词素是否包含英文特征,则确定每条训练数据的每个预设特征的特征值,包括但不限于:

判断每条训练数据中的词素是否包含英文,如果每条训练数据中的词素包含英文,则确定每条训练数据的词素是否包含英文特征的特征值为1,否则,确定每条训练数据中的词素是否包含英文特征的特征值为0。例如,如果词素是“URL”,则由于该词素包含英文,因此,词素是否包含英文特征的特征值为1。又例如,如果词素是“快递”,则由于该词素不包含英文,因此,确定词素是否包含英文特征的特征值为0。

9、如果预设特征包括词素自解释特征中的词素是否是网址特征,则确定每条训练数据的每个预设特征的特征值,包括但不限于:

判断每条训练数据的词素是否是网址,如果每条训练数据中的词素是网址,则确定每条训练数据中的词素是否是网址特征的特征值为1,否则,确定每条训练数据中的词素是否是网址特征的特征值为0。例如,如果词素是“www.abc.com”,由于该词素是网址,因此,确定词素是否是网址特征的特征值为1;又例如,如果词素是“北京”,则由于该词素不是网址,因此,确定词素是否是网址特征的特征值为0。

其中,关于判断词素是否是网址的方式,可以有很多种。具体实施时,可以结合网址特征进行判断。例如,有很多网址均是以www.开头,以.com或.cn结尾。因此,在判断该词素是否是网址时,可以结合这两个特征进行判断。当然,网址还可以包含其它特征,此处仅以这两个特征为例对判断词素是否是网址进行了举例说明。具体实施时,还可以结合网址的其它特征判断词素是否是网址,本发明实施例对此不作具体限定。

10、如果预设特征包括词素自解释特征中的词素在查询词中的位置特征,则确定每条训练数据的每个预设特征的特征值,包括但不限于:

将每条训练数据中的词素所属查询词进行切词,并确定每条训练数据中的词素在切词后的查询词中的位置信息,确定每条训练数据中的词素在查询词中的位置特征的特征值为每条训练数据中的词素的位置信息对应的数值。例如,如果查询词是“光子脱毛的效果怎么样”,对该查询词进行切词得到“光子/脱毛/的/效果/怎么样”,当词素是“脱毛”时,由于“脱毛”在该查询词中的第2个位置,因此,确定词素“脱毛”在查询词中的位置特征的特征值为2。

11、如果预设特征包括词素自解释特征中的词素的全局核心得分特征,则确定每条训练数据的每个预设特征的特征值,包括但不限于:

从词表中获取每条训练数据中的词素的全局核心得分的分值,并确定该词素的全局核心得分特征的特征值为词表中记录的全局核心得分的分值。例如,如果该词素为“鲜花”,且词表中记录的“鲜花”的全局核心得分的分值为0.6,则“鲜花”的词素的全局核心得分特征的特征值即为0.6。

其中,关于记录词素的全局核心得分的分值的词表的获取方式,本发明实施例不作具体限定。具体实施时,可以随机抽取包含该词素的任意数量个查询词,并将该任意数量个查询词随机组成文本对,计算每两个文本对之间的相关性,并确定全局核心得分的分值为计算得到的抽取的所有文本对的相关性的平均值。其中,计算每两个文本对之间的相关性时,可以包括但不限于通过计算这两个文本对对应的向量空间模型之间的余弦值得到。

12、如果预设特征包括词素交叉特征中的词素与词素所属查询词中其它词素的字面交叉特征,则确定每条训练数据的每个预设特征的特征值,包括但不限于:

将每条训练数据中的词素所属查询词进行切词,得到查询词包含的各个词素,并将查询词包含的各个词素两两组合,得到词素组合对,确定包含训练数据中的词素的词素组合对对应的词素与词素所属查询词中其它词素的字面交叉特征的特征值为1,不包含训练数据中的词素的词素组合对对应的词素与词素所属查询词中其它词素的字面交叉特征的特征值为0。例如,如果查询词为T,对查询词进行切词获得的切词结果为T=titjtk,则将切词后获得的词素两两组合获得词素组合对为ti-tj、ti-tj和tj-tk。此时,如果训练数据中的词素为ti,则包含ti的词素组合对ti-tj和ti-tj对应的词素与词素所属查询词中其它词素的字面交叉特征的特征值为1,不包含ti的词素组合对tj-tk对应的词素与词素所属查询词中其它词素的字面交叉特征的特征值为0。

13、如果预设特征包括词素交叉特征中的查询词中词素转移概率的平均值特征,则确定每条训练数据的每个预设特征的特征值,包括但不限于:

根据转移概率词典获取每条训练数据中的词素与每条训练数据中的词素所属的查询词中的其它词素之间的转移概率;确定每条训练数据中的词素与每条训练数据中的词素所属的查询词中的其它词素之间转移概率的平均值,并将转移概率的平均值确定为查询词中词素转移概率的平均值特征的特征值。

其中,转移概率词典通过离线训练获得,具体实施时,可以按照下述步骤获取转移概率词典:

第一步,将检索会话包括的查询词成对输出,获得多个查询词对,其中,获得的每个查询词对包括第一查询词和第二查询词。例如,如果检索会话包括的查询词有T1、T2和T3,,则根据该检索会话获得的查询词对有T1-T2、T1-T3和T2-T3

第二步,对检索会话输出的所有查询词对中的第一查询词和第二查询词切词,将第一查询词中的每个词素与第二查询词中的每个词素组合,获得词素对。其中,每个词素对包括第一查询词中的第一词素和第二查询词中的第二词素。例如,对于查询词对T1-T2切词后获得的切词结果为t1t2t3-t1t5t6,则将查询词对中的第一查询词中的每个词素与第二查询词中的每个词素组合,获得的词素对有t1-t1、t1-t5、t1-t6、t2-t1等。

第三步,统计任一词素对在该检索会话中出现的次数以及任一词素对中第一词素和第二词素单独出现的次数。例如,获得词素对后,将词素对t1-t1、t1-t5、t1-t6、t2-t1的出现次数记为一次,并将t1、t2、t3和t5的次数也记为一次。同理,对该检索会话中包括的所有查询词进行处理,可以统计出任一词素对在该检索会话中出现的次数以及所有词素词对中第一词素和第二词素单独出现的次数。

第四步,根据任一词素对在该检索会话中出现的次数以及任一词素对中第二词素单独出现的次数确定任一词素对中第一词素相对于第二词素的词素转移概率,根据任一词素对在检索会话中出现的次数以及任一词素对中第一词素单独出现的次数确定第二词素相对于第一词素的词素转移概率。

其中,关于根据任一词素对在该检索会话中出现的次数以及任一词素词对中第一词素和第二词素单独出现的次数确定任一词素对中第一词素相对于第二词素的词素转移概率以及第二词素相对于第一词素的词素转移概率的方式,本发明实施例不作具体限定,具体实施时,可以通过贝叶斯公式计算得到。例如,如果用p(ti|tj)表示第一词素相对于第二词素的转移概率,则

>p(ti|tj)=p(ti,tj)p(tj)=N(ti,tj)N(tj)---(3)>

式中,N(ti,tj)表示词素对ti-tj在该检索会话中总的出现次数,N(tj)表示词素tj在该检索会话中单独出现的次数。

第五步,根据所有词素对中第一词素相对于第二词素的转移概率及第二词素相对于第一词素的转移概率获得转移概率词典。

对检索会话中包括的每个词素对均作上述第一步至第四步的处理,即可以获得所有词素对中第一词素相对于第二词素的转移概率及第二词素相对于第一词素的转移概率,进而获得转移概率词典。

需要说明的是,由于通过上述第一步至第五步获得转移概率词典时,仅以选择了某个检索会话为例进行了说明,而由于该检索会话包括的查询词的数量可能有限,因此,根据该检索会话获得的转移概率词典中可能仅包含部分词素的转移概率。为了获得全面的词素转移概率词典,可以对大量的多个检索会话均执行上述第一步至第五步,以获得包括更多词素的转移概率的转移概率词典。

14、如果预设特征包括词素交叉特征中的词素的第一转移概率特征和词素的第二转移概率特征,则确定每条训练数据的每个预设特征的特征值,包括但不限于:

从转移概率词典中查询每条训练数据中的词素的第一转移概率的概率值和词素的第二转移概率的概率值,并将第一转移概率的概率值和第二转移概率的概率值分别确定为词素的第一转移概率特征和词素的第二转移概率特征的特征值。

其中,关于词素的第一转移概率特征和词素的第二转移概率特征的具体内容,本发明实施例不作具体限定,具体实施时,为了便于研究训练数据中的词素与词素所属的查询词中的前一个词素的关系和后一个词素的关系,该词素的第一转移概率特征可以为训练数据中的词素相对于该词素的前一个词素的转移概率,词素的第二转移概率特征可以为训练数据中的词素相对于该词素的后一个词素的转移概率特征。

当词素的第一转移概率特征和词素的第二转移概率特征分别为训练数据中的词素相对于该词素的前一个词素的转移概率和训练数据中的词素相对于该词素的后一个词素的转移概率特征时,确定每条训练数据的每个预设特征的特征值,包括:

查询该转移概率词典,确定训练数据中的词素相对于所属查询词中该词素的前一个词素的转移概率的概率值和训练数据中的词素相对于所属查询词中该词素的后一个词素的转移概率的概率值,并分别将从该转移概率词典中查询得到的训练数据中的词素相对于该词素的前一个词素的转移概率的概率值和训练数据中的词素相对于该词素的后一个词素的转移概率的概率值分别确定为词素的第一转移概率特征和词素的第二转移概率特征的特征值。

另外,关于转移概率词典的获取方式,本发明实施例不作具体限定,具体实施时,可以参见上述13中获取转移概率词典的方式并与上述13使用相同的转移概率词典。

此外,本发明实施例仅以词素的第一转移概率特征和词素的第二转移概率特征分别为训练数据中的词素相对于所属查询词中该词素的前一个词素的转移概率和训练数据中的词素相对于所属查询词中该词素的后一个词素的转移概率特征进行的举例说明,而在具体实施时,词素的第一转移概率特征和词素的第二转移概率特征也可以为训练数据中的词素与该词素所属查询词中其它词素之间的转移概率,本发明实施例对此不作具体限定。

15、如果预设特征包括词素交叉特征中的词素的文本分类相关特征,且词素的文本分类相关特征包括词素与词素分类库中的每个词素类别的相关特征时,则确定每条训练数据的每个预设特征的特征值,包括但不限于:

获取每条训练数据中的词素所属词素分类库中的第一预设数值个词素类别,确定每条训练数据中的词素与第一预设数值个词素类别的相关特征的特征值为第一特征值,并确定每条训练数据中的词素与该词素分类库中除第一预设数值个词素类别之外的其它词素类别的相关特征的特征值为第二特征值。

其中,关于第一预设数值个词素类别的数量,本发明实施例不作具体限定,具体实施时,可以根据需要设定。另外,关于第一特征值和第二特征值的具体数值,本发明实施例同样不作具体限定。例如,第一特征值可以为“1”,第二特征值可以为“0”,等等。

例如,如果选择两个词素类别为第一预设数值个词素类别,且该两个词素类别分别为“上衣”“t恤”,而词素分类库为“短袖长袖羽绒服棉衣t恤打底上衣”,则该词素与词素分类库中的每个词素类别的相关特征的特征值分别为(0000101)。

关于获取每条训练数据中的词素所属词素分类库中的第一预设数值个词素类别的方法,本发明实施例不作具体限定。具体实施时,可以通过查询预先获得的词素类别分布词典p(c|w)得到,其中,c表示类别,w表示词素。该词素类别分布词典p(c|w)中记录了某个词素属于某一类别的概率。通过查询该词素类别分布词典,获得概率最大的第一预设数值个类别作为该词素的第一预设数值个词素类别。例如,如果词素为“手机”,且设置选择两个类别作为“手机”的第一预设数值个词素类别。通过查询该p(c|w),得到“手机”在该p(c|w)中概率最大的前两个类别分别为“数码”和“家电”,则将这两个类别确定为“手机”对应的第一预设数值个词素类别。

其中,关于获得词素类别分布词典p(c|w)的方式,本发明实施例不作具体限定,具体实施时,可以包括但不限于通过如下步骤来获得词素类别分布词典:

首先,基于人工标注的初始的一级行业类别特征词集合对数以亿计的网页采用全文匹配的分类方式对每个网页进行分类,得到每个网页的第一分类属性。

接着,对于拥有分类属性的每个网页进行全文切词,抽取该网页中的类别特征词,计算抽取的类别特征词对于所在类别的权重贡献(即权重向量),然后将这些从网页中抽取的类别特征词合并入一级行业类别特征词集合中。其中,关于计算抽取的类别特征词对于所在类别的权重贡献的方式,本发明实施例不作具体限定。

最后,待全部网页特征词抽取完毕,就自动得到了一个全面的一级行业类别特征词集合,从而构建得到一级行业类别特征词词典。该词典用公式描述即为p(c|w),用于描述词素属于某一类别的概率。其中c表示类别,w表示词素,也就是说每个词素都有一个类别。

16、如果预设特征包括词素交叉特征中的词素的文本分类相关特征,且词素的文本分类相关特征还包括词素与查询词分类库中的每个查询词类别的相关特征时,则确定每条训练数据的每个预设特征的特征值,还包括但不限于:

获取每条训练数据中的词素所属的查询词在查询词分类库中的第二预设数值个查询词类别,确定每条训练数据中的词素与第二预设数值个查询词类别的相关特征的特征值为第三特征值,并确定每条训练数据中的词素与所述查询词分类库中除第二预设数值个查询词类别之外的其它查询词类别的相关特征的特征值为第四特征值。

其中,关于第二预设数值个查询词类别的数量以及第三特征值和第四特征值的具体数值,本发明实施例均不作具体限定。具体实施时,可以根据需要设定。

例如,如果第二预设数值个查询词类别的数量为一个,并且查询词类别为“百货”,查询词分类库为“家电数码服装户外百货办公彩妆母婴”。当第三特征值和第四特征值分别为“1”和“0”时,则词素与查询词分类库中的每个查询词类别的相关特征的特征值分别为(00001000)。

其中,关于获取每条训练数据中的词素所属的查询词在查询词分类库中的查询词类别的方法,本发明实施例不作具体限定。具体实施时,可以先根据上述15中获得的词素类别分布词典p(c|w)获取查询词中的每个词素所属的词素类别;然后将该查询词包含的每个词素的词素类别乘以该词素的全局IDF权重再累加得到查询词的类别p(c|T)。关于词素的全局IDF的计算方法,本发明实施例不作具体限定,具体实施时,可以由总文件数目除以包含该词素的文件数目,再将得到的商取对数来计算词素的全局IDF。

17、如果预设特征包括词素交叉特征中的词素的文本分类相关特征,且词素的文本分类相关特征还包括词素所属词素类别及词素所属的查询词所属查询词类别的第二交叉特征时,则确定每条训练数据的每个预设特征的特征值,还包括但不限于:

确定每条训练数据中的词素所属词素分类库中的第一预设数值个词素类别下的每个子词素类别,并确定每条训练数据中的词素所属的查询词所属查询词分类库中的第二预设数值个查询词类别下的每个子查询词类别;将每个子词素类别与每个子查询词类别构成一个第二交叉特征,如果任一子词素类别与子查询词类别相同,则确定任一第二交叉特征的特征值为第五特征值,如果任一第二交叉特征中的子词素类别与子查询词类别不同,则确定任一第二交叉特征的特征值为第六特征值。其中,关于第五特征值和第六特征值的具体数值,本发明实施例均不作具体限定。具体实施时,可以根据需要设定。

例如,如果词素分类库为“短袖长袖羽绒服棉衣裤子打底上衣”,查询词分类库为“家电数码服装户外百货办公彩妆母婴”,由于词素分类库包含的每个词素类别下均可能包含各种子词素类别,如词素分类库中的“羽绒服”下面可能包括的子词素类别有“修身长款短款薄款”等,而查询词分类库中的“服装”下面可能包括的子查询词类别有“上衣裤子修身打底长款”。因此,当将每个子词素类别与每个子查询词类别构成一个第二交叉特征时,会形成多个第二交叉特征。如“羽绒服”下面的“修身”可以与“服装”下的“上衣裤子修身打底长款”中的每一个均形成一个第二交叉。如“修身-上衣”、“修身-裤子”,等等;“羽绒服”下面的“长款”也可以与“服装”下的“上衣裤子修身打底长款”中的每一个均形成一个第二交叉。另外,第二交叉特征中的子词素类别与子查询词类别可能相同,例如“羽绒服”下面可能包括的子词素类别中的“修身长款”与“服装”下面可能包括的子查询词类别中的“修身长款”相同。因此,当第一预设数值个词素类别包含“羽绒服”,第二预设数值个查询词类别包含“服装”,并用“1”和“0”表示第二交叉特征的特征值时,“修身-修身”“长款-长款”的特征值为1,其它如“修身-裤子”等的特征值为0。

18、如果预设特征包括词素交叉特征中的词素的主题分布和词素所属查询词的主题分布的第一交叉特征,则确定每条训练数据的每个预设特征的特征值,包括但不限于:

获取每条训练数据中的词素所属词素主题库中的第三预设数值个词素主题分布,并获取每条训练数据中的词素所属的查询词在所属查询词主题库中的第四预设数值个查询词主题分布;确定每条训练数据中的词素所属词素主题库中的第三预设数值个词素主题分布下的每个子词素主题分布,并确定每条训练数据中的词素所属的查询词在所属查询词主题库中的第四预设数值个查询词主题分布下的每个子查询词主题分布;将每个子词素主题分布与每个子查询词主题分布构成一个第一交叉特征,如果任一第一交叉特征中的子词素主题分布与子查询词主题分布相同,则确定任一第一交叉特征的特征值为第七特征值,如果任一第一交叉特征中的子词素主题分布与子查询词主题分布不同,则确定任一第一交叉特征的特征值为第八特征值。

同样地,关于第三预设数值个词素主题分布和第四预设数值个查询词主题分布词素主题分布的数量以及第七特征值和第八特征值的具体数值,可以根据需要设定,本发明实施例对此不作具体限定。

另外,关于获取每条训练数据中的词素所属词素主题库中的第三预设数值个词素主题分布的方式,可以有很多种。具体实施时,可以将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。具体地,如果用概率语言描述获得词素的主题分布的方式,则描述如下:

如果选定一篇文档的概率为p(d),且每篇文档以概率p(z|d)属于一个主题。当给定一个主题时,每个词素以概率p(w|z)产生。将这个过程形成联合的概率模型表达式为:>p(d,w)=p(d)p(w|d)p(w|d)=ΣzZp(w|z)p(z|d)---(4)>

接着,通过EM算法(Expectation-maximization algorithm,期望最大化算法),进行PLSA模型参数训练,获得p(z|d)和p(w|z)。然后,通过贝叶斯公式,p(z|w)=p(w|z)p(z)/p(w)得到每个词素的主题分布p(z|w)。

通过上述描述,当给定一个词素ti,以及其所属的查询词T,对于每个这样的数据对,可以根据p(z|w)获取每个词素的主题分布p(z|ti)。

在获取到每个词素的主题分布后,在获取每条训练数据中的词素所属查询词在所属查询词主题库中的第四预设数值个查询词主题分布的方式时,可以将该查询词中的各个词素的主题分布乘以该词素的全局IDF权重再累加得到查询词的主题分布p(z|T)。

另外,具体的确定词素的主题分布和词素所属查询词的主题分布的第一交叉特征的特征值的原理与上述确定词素所属词素类别及词素所属的查询词所属查询词类别的第二交叉特征的特征值的原理一致,具体可参见上述确定词素所属词素类别及词素所属的查询词所属查询词类别的第二交叉特征的特征值的原理,在此不再进行举例。

19、如果预设特征包括词素交叉特征中的PLSA主题相似度特征,则确定每条训练数据的每个预设特征的特征值,包括但不限于:

获取每条训练数据中的词素所属词素主题库中的第三预设数值个词素主题分布,并获取每个训练数据中的词素所属的查询词在所属查询词主题库中的第四预设数值个查询词主题分布;计算每个词素主题分布与每个查询词主题分布的主题相似度值,并将计算得到的每个主题相似度值确定为PLSA主题相似度特征的特征值。

其中,计算每个词素主题分布与每个查询词主题分布的主题相似度值时可以根据词素的主题分布与词素所属查询词的主题分布来计算,具体实施时,包括但不限于通过下述公式实现:

>Simplsa(ti,T)=p(z|ti).p(z|T)||p(z|ti)||||p(z|T)||---(5)>

式中,ti为训练数据中的词素,T为训练数据中的词素所属的查询词,p(z|ti)为词素主题分布,p(z|T)为词素所属的查询词主题分布,‖p(z|ti)‖和‖p(z|T)‖分别为p(z|ti)和p(z|T)的二阶范数。

综上所述,通过该步骤的上述内容即可确定每条训练数据的每个预设特征的特征值,从而确保可以根据所有训练数据的每个预设特征的特征值及所有训练数据中包括的词素的重要性得分确定模型参数,具体详见下述步骤。

203:根据所有训练数据的每个预设特征的特征值及所有训练数据中包括的词素的重要性得分确定模型参数。

通过步骤201和步骤202即可以确定每条训练数据中的词素的重要性得分和每条训练数据的每个预设特征的特征值,将该确定的每条训练数据中的词素的重要性得分和每条训练数据的每个预设特征的特征值代入预设模型的公式中即可确定模型参数。

例如,如果预设模型为逻辑回归模型,且逻辑回归模型用公式表示为:

>p(Y=1|x)=π(x)=11+e-g(x)---(6)>

其中,g(x)=β01x12x2+...+βpxp,x1、x2……xp为与每个预设特征对应的变量,β0、β1……βp为模型参数。

在确定逻辑回归模型的模型参数时,将每条训练数据中的词素的重要性得分代入π(x),将每条训练数据的每个预设特征的特征值代入与每个预设特征对应的变量中,便可求得逻辑回归模型的各个模型参数。例如,如果逻辑回归模型具体为:

>p(Y=1|x)=π(x)=11+e-g(x),>且g(x)=β01x12x2  (7)

此时,根据该模型的参数点,确定需要获取至少三条训练数据。如果获取到的训练数据分别为“吃什么可以长高长高0.8”、“豆类的营养价值营养0.5”、“什么快递经济又实惠快递0.85”,且“吃什么可以长高长高0.8”的与公式(7)中的x1和x2对应的两个预设特征的特征值分别为0.8和1,“豆类的营养价值营养0.5”的与公式(7)中的x1和x2对应的两个预设特征的特征值分别0.2和0.7,“什么快递经济又实惠快递0.85”的与公式(7)中的x1和x2对应的两个预设特征的特征值分别为0.3和0。则在确定该逻辑回归模型的模型参数时,首先将0.8代入公式(7)中的π(x)求得与π(x)对应的g1(x),将0.8和1分别代入x1和x2中;接着,将0.5代入公式(7)中的π(x)求得与π(x)对应的g2(x),将0.2和0.7分别代入x1和x2中;再者,将0.85代入公式(7)中的π(x)求得与π(x)对应的g3(x),0.3和0分别代入x1和x2中,从而获得三个等式,通过该三个等式便可以确定公式(7)中的β0、β1和β2,且确定的β0、β1和β2即为公式(7)中的模型参数。

其中,在根据所有训练数据的每个预设特征的特征值及所有训练数据中包括的词素的重要性得分确定模型参数时,可以采用很多算法实现。具体实施时,包括但不限于可以通过L-BFGS算法、共轭梯度算法等实现。

204:根据确定的模型参数确定词素重要性分析模型。

为例便于说明,仍以步骤203中公式(7)及与该公式(7)对应的举例为例进行说明。如果通过步骤203确定了公式(7)中β0、β1和β2分别为0.22、0.17和0.61,则根据该确定的模型参数确定的词素重要性分析模型即为:

>p(Y=1|x)=π(x)=11+e-g(x),>且g(x)=0.22+0.17x1+0.61x2

优选地,在确定了模型参数之后,可以将每个模型参数作为与每个模型参数对应的预设特征的权重,用来表征每个预设特征在分析词素重要性时的权重贡献。

为了便于对上述内容进行解释说明,下面以一个具体的例子对上述过程进行举例说明。在该举例中,设置训练数据为“光子脱毛的效果怎么样脱毛1.0”。其中,“光子脱毛的效果怎么样”为查询词,“脱毛”为该训练数据中的词素,“1.0”为“脱毛”在“光子脱毛的效果怎么样”的重要性得分,且预设模型为逻辑回归模型。另外,对“光子脱毛的效果怎么样”进行切词,得到该查询词切词后得到的词素为“光子/脱毛/的/效果/怎么样”。

在确定训练数据之后,需要确定该训练数据的每个预设特征的特征值。根据步骤202中描述的各个预设特征以及各个预设特征的特征值的确定方法,可以确定该条训练数据的各个预设特征的特征值,具体为:

(1)词素专名类型特征:由于“脱毛”不是专有名词且该训练数据中没有任何词素属于专有名词。此时,如果逻辑回归模型的公式中从x1-x10是为查询词中的每个词素的词素专名类型特征分配的预设特征变量,则通过该条训练数据确定逻辑回归模型的模型参数时,x1-x10均代入0。也就是说,该条训练数据的词素专名类型特征不用参与计算。

(2)词素IDF特征:如果根据IDF算法计算得到“脱毛”的IDF值为0.8,则这条训练数据的词素IDF特征的特征值为0.8。此时,如果逻辑回归模型的公式中从x11是为词素IDF特征分配的预设特征变量,则通过该条训练数据确定逻辑回归模型的模型参数时,将0.8代入x11中。

(3)与预设的词素库中的每个词素的相关特征:由于“脱毛”是一个词素,因此,其与预设的词素库中的每个词素的相关特征的特征值为1。此时,如果逻辑回归模型的公式中从x12-x21是为与预设的词素库中的每个词素的相关特征分配的预设特征变量,且x12-x22分别与预设的词素库的每个词素相对应,且“脱毛”是该预设的词素库中的第二个词素,则通过该条训练数据确定逻辑回归模型的模型参数时,从x12-x21分别代入的值为0100000000。当然,此处仅以预设的词素库中包含10个词素为例进行了说明,然而,在实际中,预设的词素库中包含的词素数量是一个很庞大的数据库,关于预设的词素库中包含的词素的数量,本发明实施例不作具体限定。

(4)词素词性特征:由于“脱毛”是一个动词,且如果词性值表中记录的动词的词性值为3。此时,如果逻辑回归模型的公式中x22是为词素词性特征分配的预设特征变量,则通过该条训练数据确定逻辑回归模型的模型参数时,将3代入x22中。

(5)词素长度特征:当根据词素包含的汉字个数确定词素的长度值时,由于“脱毛”中包含两个汉字,因此,“脱毛”的词素长度特征的特征值为2。此时,如果逻辑回归模型的公式中x23是为词素长度特征分配的预设特征变量,则通过该条训练数据确定逻辑回归模型的模型参数时,将2代入x23中。

(6)词素所属查询词长度特征:当根据词素包含的汉字个数确定词素的长度值时,由于“脱毛”所属查询词“光子脱毛的效果怎么样”包含10个汉字,因此,“脱毛”的词素所属查询词长度特征的特征值为10。此时,如果逻辑回归模型的公式中x24是为词素所属查询词长度特征分配的预设特征变量,则通过该条训练数据确定逻辑回归模型的模型参数时,将10代入x24中。

(7)词素是否包含数字特征:由于“脱毛”中不包含数字,因此,“脱毛”的词素是否包含数字特征的特征值为0。此时,如果逻辑回归模型的公式中x25是为词素是否包含数字特征分配的预设特征变量,则通过该条训练数据确定逻辑回归模型的模型参数时,将0代入x25中。

(8)词素是否包含英文特征:由于“脱毛”中不包含英文,因此,“脱毛”的词素是否包含英文特征的特征值为0。此时,如果逻辑回归模型的公式中x26是为词素是否包含英文特征分配的预设特征变量,则通过该条训练数据确定逻辑回归模型的模型参数时,将0代入x26中。

(9)词素是否是网址特征:由于“脱毛”不是网址,因此,“脱毛”的词词素是否是网址特征的特征值为0。此时,如果逻辑回归模型的公式中x27是为词素是否是网址特征分配的预设特征变量,则通过该条训练数据确定逻辑回归模型的模型参数时,将0代入x27中。

(10)词素在查询词中的位置特征:由于“脱毛”位于查询词“光子脱毛的效果怎么样”的第2个位置,因此,“脱毛”的词素在查询词中的位置特征的特征值为2。此时,如果逻辑回归模型的公式中x28是为词素在查询词中的位置特征分配的预设特征变量,则通过该条训练数据确定逻辑回归模型的模型参数时,将2代入x28中。

(11)词素的全局核心得分特征:如果从词表中获取到“脱毛”的全局核心得分的分值为0.6,则“脱毛”的词素的全局核心得分特征的特征值即为0.6。此时,如果逻辑回归模型的公式中x29是为词素的全局核心得分特征分配的预设特征变量,则通过该条训练数据确定逻辑回归模型的模型参数时,将0.6代入x29中。

(12)词素与词素所属查询词中其它词素的字面交叉特征:由于对“脱毛”所属的查询词切词获得的切词结果为“光子/脱毛/的/效果/怎么样”。因此,在确定“脱毛”与“脱毛”所属查询词“光子/脱毛/的/效果/怎么样”中其它词素的字面交叉特征的特征值时,将查询词包含的各个词素两两组合,得到词素组合对有“光子-脱毛”、“光子-是”、“光子-效果”、“光子-怎么样”、“脱毛-是”、“脱毛-效果”、“脱毛-怎么样”等等。由于“光子-脱毛”、“脱毛-是”、“脱毛-效果”、“脱毛-怎么样”中包含了词素“脱毛”,则确定这些包含“脱毛”的词素组合对的词素与词素所属查询词中其它词素的字面交叉特征的特征值为1,其它不包含“脱毛”的词素组合对的词素与词素所属查询词中其它词素的字面交叉特征的特征值为0。此时,如果逻辑回归模型的公式中从x30-x40是为查询词中的每个词素的词素与词素所属查询词中其它词素的字面交叉特征分配的预设特征变量,且x30-x40分别与查询词中的t1-t2、t1-t3、t1-t4、t1-t5、t2-t3、t2-t4等词素对对应,则通过该条训练数据确定逻辑回归模型的模型参数时,从x30-x40分别代入的值为1000111000。当然,此处仅以为词素与词素所属查询词中其它词素的字面交叉特征分配10个预设特征变量为例进行了说明,而在实际中,应该结合查询词包含的词素的数量为词素与词素所属查询词中其它词素的字面交叉特征分配预设特征变量的数量。

(13)查询词中词素转移概率的平均值特征:通过查询转移概率词典并计算得到“光子脱毛的效果怎么样”中的“脱毛”与“光子脱毛的效果怎么样”中的其它词素之间转移概率的平均值为0.52,则查询词中词素转移概率的平均值特征的特征值为0.52。此时,如果逻辑回归模型的公式中从x31是为查询词中词素转移概率的平均值特征分配的预设特征变量,则通过该条训练数据确定逻辑回归模型的模型参数时,x31代入的值为0.52。

(14)词素的第一转移概率特征和词素的第二转移概率特征:当词素的第一转移概率特征为训练数据中的词素相对于该词素的前一个词素的转移概率,词素的第二转移概率特征为训练数据中的词素相对于该词素的后一个词素的转移概率时,通过查询转移概率词典得到p(脱毛|光子)=0.78、p(脱毛|效果)=0.1,则该词素的第一转移概率特征和词素的第二转移概率特征的特征值分别为0.78和0.1。此时,如果逻辑回归模型的公式中从x32-x33是为与转移概率相关的特征分配的预设特征变量,则通过该条训练数据确定逻辑回归模型的模型参数时,从x32和x33分别代入的值为0.78和0.1。

(15)词素与词素分类库中的每个词素类别的相关特征:如果第一预设数值个词素类别的数量为2个,且分别使用“1”和“0”表示第一特征值和第二特征值的数值。通过查询词素类别分布词典获得“脱毛”属于的类别中概率最大的两个词素类别分别为“美容”和“医疗”。因此,确定“脱毛”与词素分类库中的“美容”和“医疗”的相关特征的特征值为1,词素分类库中除“美容”和“医疗”之外的其它词素类别的相关特征的特征值为0。此时,如果逻辑回归模型的公式中从x34-x38是为词素与词素分类库中的每个词素类别的相关特征分配的预设特征变量,且如果词素分类库为“医疗瘦身服装鞋帽美容”,则通过该条训练数据确定逻辑回归模型的模型参数时,从x34-x38分别代入的值为10001。

(16)词素与查询词分类库中的每个查询词类别的相关特征:如果第二预设数值个查询词类别的数量为一个,且分别使用“1”和“0”表示第三特征值和第四特征值的数值。“脱毛”所属的查询词“光子脱毛的效果怎么样”的查询词类别为“美容”,则确定“脱毛”与查询词分类库中的“美容”的相关特征的特征值为1,查询词分类库中除“美容”之外的其它查询词类别的相关特征的特征值为0。如果查询词分类库为“食品数码家电瘦身美容”,且如果逻辑回归模型的公式中从x39-x43是为词素与查询词分类库中的每个查询词类别的相关特征分配的预设特征变量,则通过该条训练数据确定逻辑回归模型的模型参数时,从x39-x43分别代入的值为00001。

(17)词素所属词素类别及词素所属的查询词所属查询词类别的第二交叉特征:结合(15)和(16),如果词素分类库为“医疗瘦身服装鞋帽美容”,查询词分类库为“食品数码家电瘦身美容”,由于词素分类库包含的每个词素类别下面均可能包含各种子词素类别,如第一预设数值个词素类别中的“医疗”下面可能包括的子词素类别有“保健品医疗器具按摩器具”等,而第二预设数值个查询词类别中的“美容”分类下面包含的子查询词类别可以有“按摩器具化妆品保健品”,由于“医疗”和“美容”下包含有相同的子类别“按摩器具保健品”。如果分别使用“1”和“0”表示第五特征值和第六特征值的数值,则“按摩器具保健品”对应的第二交叉特征的特征值为1,其它词素类别与查询词类别的第二交叉特征的特征值为0。此时,在如果逻辑回归模型的公式中从x44-x54是为词素所属词素类别及词素所属的查询词所属查询词类别的第二交叉特征分配的预设特征变量,且x48和x51分别为“按摩器具-按摩器具”和“保健品-保健品”对应的预设特征变量,则通过该条训练数据确定逻辑回归模型的模型参数时,x48和x51分别代入1,x44-x54中除x48和x51的其它预设变量代入的值为0。

(18)词素的主题分布和词素所属查询词的主题分布的第一交叉特征:该词素的主题分布和词素所属查询词的主题分布的第一交叉特征与上述词素所属词素类别及词素所属的查询词所属查询词类别的第二交叉特征的特征值的计算原理类似,通过该词素所属的主题分布和词素所属查询词的主题分布的第一交叉特征确定逻辑回归模型的模型参数时,代入预设特征变量中的特征值也类似,具体可参考(17)中的举例,此处不再赘述。

(19)PLSA主题相似度特征:如果计算得到的“脱毛”与“光子脱毛的效果怎么样”的每个词素主题分布与每个查询词主题分布的主题相似度值分别为0.77、0.81、0.56、0.21、0.98,且如果逻辑回归模型的公式中x55-x59是为PLSA主题相似度特征分配的预设特征变量,则通过该条训练数据确定逻辑回归模型的模型参数时,x55-x59分别代入的值为0.77、0.81、0.56、0.21、0.98。

通过上述步骤即确定了一种词素重要性分析模型,也即完成了本发明实施例提供的确定词素重要性分析模型的步骤,后续便可使用确定的词素重要性分析模型计算出查询词中的每个词素的重要性得分,并通过计算得到的每个词素的重要性得分分析词素在查询词中的重要性。

下面将结合步骤205对使用该确定的词素重要性分析模型来分析词素在查询词中的重要性的方法进行详细说明。

205:通过确定的词素重要性分析模型分析词素在查询词中的重要性。

该步骤为优选步骤,用于使用通过步骤201至步骤204确定的词素重要性分析模型来计算待分析的查询词中的每个词素的重要性得分,并通过计算得到的每个词素的重要性得分分析词素在查询词中的重要性。

下面以一个具体的例子来对使用确定的词素重要性分析模型来分析词素在查询词中的重要性的过程进行举例说明,且在该举例中,以步骤204中已经确定的词素重要性分析模型为例。其中,步骤204确定的词素重要性分析模型为:

>p(Y=1|x)=π(x)=11+e-g(x),>且g(x)=0.22+0.17x1+0.61x2 (8)。

如果待分析查询词为“什么快递最好”,对该查询词进行切词的切词结果为“什么/快递/最好”。如果词素为“快递”,且如果通过步骤202确定该查询词中与x1和x2对应的预设特征的特征值分别为0.7和0.3,则此时将0.7和0.3分别代入公式(8)中的x1和x2中便可以求得一个g(x)为0.522,将求得的0.522代入公式(8)中,便可以求得一个π(x)为1/1+e-0.522,该求得的1/1+e-0.522即为“快递”在“什么快递最好”中的重要性得分。

下面即为一个使用确定的词素重要性分析模型并通过计算机求得的查询词中的每个词素在查询词中的重要性得分的结果。

其中,在该分析结果中,query_str为用户输入的查询词,result_core表示该查询词中的某个词素在该查询词中的重要性得分,result_str为该查询词中的某个词素。

通过该分析结果可以得到,查询词为“哪里购买新款高跟凉鞋”,且根据该查询词中的某个词素在该查询词中的重要性得分即可确定在“哪里购买新款高跟凉鞋”中,最重要的词素为“凉鞋”,接着为“高跟”等。因此,在为输入该查询词的用户提供信息和服务时,可以将重点放在“凉鞋”、“高跟”等词素上。

本发明实施例提供的方法,通过获取到的训练数据确定模型参数,并根据确定的模型参数确定词素重要性分析模型,进而实现在通过词素重要性分析模型分析词素重要性时,不仅运算速度较快,提高了分析词素重要性的效率,而且准确性较高。

实施例三

本发明实施例提供了一种确定词素重要性分析模型的装置,参见图3,该装置包括:

获取模块301,用于获取至少两条训练数据,每条训练数据包括一个查询词、查询词中的任一词素以及任一词素在查询词中的重要性得分;

第一确定模块302,用于确定每条训练数据的每个预设特征的特征值,预设特征至少包括词素自解释特征及词素交叉特征中的一种特征;

第二确定模块303,用于根据所有训练数据的每个预设特征的特征值及所有训练数据中包括的词素的重要性得分确定模型参数,模型参数的数量由预设特征的数量确定,且模型参数的数量不大于训练数据的数量;

第三确定模块304,用于根据确定的模型参数确定词素重要性分析模型。

优选地,获取模块301,包括:

第一获取单元,用于从历史查询数据中获取至少一个查询词,历史查询数据为检索日志、历史扩展关系词表及点击日志中的至少一个历史数据;

第二获取单元,用于获取查询词中的至少一个词素;

第一确定单元,用于确定每个词素在查询词中的重要性得分;

第二确定单元,用于根据获取的查询词、每个查询词中的词素以及各个词素在所属查询词中的重要性得分确定至少两条训练数据。

优选地,当历史查询数据为检索日志中的历史数据时,第二确定单元,包括:

第一获得子单元,用于获得查询词的所有词素;

第一统计子单元,用于分别统计每个词素出现的次数以及查询词中的所有词素出现的总次数;

第一确定子单元,用于根据每个词素出现的次数以及查询词中的所有词素出现的总次数确定每个词素在查询词中的重要性得分。

优选地,当历史查询数据为历史扩展关系词表中的历史数据,且历史数据包括查询词及查询词对应的关系词时,第二确定单元,包括:

第二获得子单元,用于获得查询词的所有词素;

第二统计子单元,用于分别统计每个词素出现的次数以及查询词对应的关系词中包含每个词素的关系词的总个数;

第二确定子单元,用于根据每个词素出现的次数以及查询词对应的关系词中包含每个词素的关系词的总个数确定每个词素在查询词中的重要性得分。

优选地,当历史查询数据为点击日志中的历史数据,且历史数据包括查询词及查询词对应的点击词构成的查询词点击词对时,第二确定单元,包括:

第三统计子单元,用于统计具有共有词素的查询词点击词对的展示次数和点击次数,并统计每个共有词素对应的累加展示次数和累加点击次数;

第三确定子单元,用于根据每个共有词素对应的累加展示次数和累加点击次数确定查询词中每个词素对应的展示次数和点击次数,根据查询词中每个词素对应的展示次数和点击次数确定每个词素在查询词中的重要性得分。

优选地,词素自解释特征至少包括词素专名类型特征、词素逆向文件频率特征、词素分词特征、词素在查询词中的位置特征及词素的全局核心得分特征中的一种特征;

词素交叉特征至少包括词素与词素所属查询词中其它词素的字面交叉特征、查询词中词素转移概率的平均值特征、词素的第一转移概率特征和词素的第二转移概率特征、词素的文本分类相关特征、词素的主题分布和词素所属查询词的主题分布的第一交叉特征、概率潜语义分析PLSA主题相似度特征中的一种特征。

优选地,预设特征包括词素交叉特征中的查询词中词素转移概率的平均值特征时,第一确定模块302,包括:

第一获取单元,用于根据转移概率词典获取每条训练数据中的词素与每条训练数据中的词素所属的查询词中的其它词素之间的转移概率;

第一确定单元,用于确定每条训练数据中的词素与每条训练数据中的词素所属的查询词中的其它词素之间转移概率的平均值,并将转移概率的平均值确定为查询词中词素转移概率的平均值特征的特征值。

优选地,预设特征包括词素交叉特征中的词素的第一转移概率特征和词素的第二转移概率特征时,第一确定模块302,包括:

查询单元,用于从转移概率词典中查询每条训练数据中的词素的第一转移概率的概率值和词素的第二转移概率的概率值;

第二确定单元,用于将第一转移概率的概率值和第二转移概率的概率值分别确定为词素的第一转移概率特征和词素的第二转移概率特征的特征值。

优选地,第一确定模块302,还包括:

第一获得单元,用于将检索会话包括的查询词成对输出,获得多个查询词对,其中,获得的每个查询词对包括第一查询词和第二查询词;

切词单元,用于对检索会话包括的所有查询词对中的第一查询词和第二查询词切词;

组合单元,用于将第一查询词中的每个词素与第二查询词中的每个词素组合获得词素对,每个词素对包括第一查询词中的第一词素和第二查询词中的第二词素;

统计单元,用于统计任一词素对在检索会话中出现的次数以及任一词素对中第一词素和第二词素单独出现的次数;

第三确定单元,用于根据任一词素对在检索会话中出现的次数以及任一词素对中第二词素单独出现的次数确定任一词素对中第一词素相对于第二词素的转移概率,根据任一词素对在检索会话中出现的次数以及任一词素对中第一词素单独出现的次数确定第二词素相对于第一词素的转移概率;

第二获得单元,用于根据所有词素对中第一词素相对于第二词素的转移概率及第二词素相对于第一词素的转移概率获得转移概率词典。

优选地,预设特征包括词素交叉特征中的词素的文本分类相关特征,且词素的文本分类相关特征包括词素与词素分类库中的每个词素类别的相关特征时,第一确定模块302,包括:

第二获取单元,用于获取每条训练数据中的词素所属词素分类库中的第一预设数值个词素类别;

第四确定单元,用于确定每条训练数据中的词素与第一预设数值个词素类别的相关特征的特征值为第一特征值,并确定每条训练数据中的词素与词素分类库中除第一预设数值个词素类别之外的其它词素类别的相关特征的特征值为第二特征值。

优选地,词素的文本分类相关特征还包括词素与查询词分类库中的每个查询词类别的相关特征时,第一确定模块302,还包括:

第三获取单元,用于获取每条训练数据中的词素所属的查询词在查询词分类库中的第二预设数值个查询词类别;

第五确定单元,用于确定每条训练数据中的词素与第二预设数值个查询词类别的相关特征的特征值为第三特征值,并确定每条训练数据中的词素与查询词分类库中除第二预设数值个查询词类别之外的其它查询词类别的相关特征的特征值为第四特征值。

优选地,词素的文本分类相关特征还包括词素所属词素类别及词素所属的查询词所属查询词类别的第二交叉特征时,第一确定模块302,还包括:

第六确定单元,用于确定每条训练数据中的词素所属词素分类库中的第一预设数值个词素类别下的每个子词素类别,并确定每条训练数据中的词素所属的查询词所属查询词分类库中的第二预设数值个查询词类别下的每个子查询词类别;

第一构成单元,用于将每个子词素类别与每个子查询词类别构成一个第二交叉特征;

第七确定单元,用于当任一第二交叉特征中的子词素类别与子查询词类别相同时,确定任一第二交叉特征的特征值为第五特征值,当任一第二交叉特征中的子词素类别与子查询词类别不同时,确定任一第二交叉特征的特征值为第六特征值。

优选地,预设特征包括词素交叉特征中的词素的主题分布和词素所属查询词的主题分布的第一交叉特征,第一确定模块302,包括:

第四获取单元,用于获取每条训练数据中的词素所属词素主题库中的第三预设数值个词素主题分布,并获取每条训练数据中的词素所属的查询词在所属查询词主题库中的第四预设数值个查询词主题分布;

第八确定单元,用于确定每条训练数据中的词素所属词素主题库中的第三预设数值个词素主题分布下的每个子词素主题分布,并确定每条训练数据中的词素所属的查询词在所属查询词主题库中的第四预设数值个查询词主题分布下的每个子查询词主题分布;

第二构成单元,用于将每个子词素主题分布与每个子查询词主题分布构成一个第一交叉特征;

第九确定单元,用于当任一第一交叉特征中的子词素主题分布与子查询词主题分布相同时,确定任一第一交叉特征的特征值为第七特征值,当任一第一交叉特征中的子词素主题分布与子查询词主题分布不同时,确定任一第一交叉特征的特征值为第八特征值。

优选地,预设特征包括词素交叉特征中的PLSA主题相似度特征,第一确定模块302,包括:

第五获取单元,用于获取每条训练数据中的词素所属词素主题库中的第三预设数值个词素主题分布,并获取每个训练数据中的词素所属的查询词在所属查询词主题库中的第四预设数值个查询词主题分布;

计算单元,用于计算每个词素主题分布与每个查询词主题分布的主题相似度值;

第十确定单元,用于将计算得到的每个主题相似度值确定为PLSA主题相似度特征的特征值。

本发明实施例提供的装置,通过获取到的训练数据确定模型参数,并根据确定的模型参数确定词素重要性分析模型,进而实现在通过词素重要性分析模型分析词素重要性时,不仅运算速度较快,提高了分析词素重要性的效率,而且准确性较高。

实施例四

图4是本发明实施例中服务器的结构示意图,该服务器可以用于实施上述实施例中提供的确定词素重要性分析模型的方法。该服务器400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)422(例如,一个或一个以上处理器)和存储器432,一个或一个以上存储应用程序442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器422可以设置为与存储介质430通信,在服务器400上执行存储介质430中的一系列指令操作。

服务器400还可以包括一个或一个以上电源426,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口458,一个或一个以上键盘456,和/或,一个或一个以上操作系统441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。

具体在本实施例中,服务器中的存储器432,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储介质430中,且经配置以由一个或者一个以上处理器执行。所述一个或者一个以上程序包含用于执行以下操作的指令:

获取至少两条训练数据,每条训练数据包括一个查询词、查询词中的任一词素以及任一词素在查询词中的重要性得分;

确定每条训练数据的每个预设特征的特征值,预设特征至少包括词素自解释特征及词素交叉特征中的一种特征;

根据所有训练数据的每个预设特征的特征值及所有训练数据中包括的词素的重要性得分确定模型参数,并根据确定的模型参数确定词素重要性分析模型,其中,模型参数的数量由预设特征的数量确定,且模型参数的数量不大于训练数据的数量。

假设上述为第一种可能的实施方式,则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:获取至少两条训练数据,包括:

从历史查询数据中获取至少一个查询词,历史查询数据为检索日志、历史扩展关系词表及点击日志中的至少一个历史数据;

获取查询词中的至少一个词素,并确定每个词素在查询词中的重要性得分;

根据获取的查询词、每个查询词中的词素以及各个词素在所属查询词中的重要性得分确定至少两条训练数据。

在第二种可能的实施方式作为基础而提供的第三种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:历史查询数据为检索日志中的历史数据;

确定每个词素在查询词中的重要性得分,包括:

获得查询词的所有词素,并分别统计每个词素出现的次数以及查询词中的所有词素出现的总次数;

根据每个词素出现的次数以及查询词中的所有词素出现的总次数确定每个词素在查询词中的重要性得分。

在第二种可能的实施方式作为基础而提供的第四种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:历史查询数据为历史扩展关系词表中的历史数据,历史数据包括查询词及查询词对应的关系词;

确定每个词素在查询词中的重要性得分,包括:

获得查询词的所有词素,并分别统计每个词素出现的次数以及查询词对应的关系词中包含每个词素的关系词的总个数;

根据每个词素出现的次数以及查询词对应的关系词中包含每个词素的关系词的总个数确定每个词素在查询词中的重要性得分。

在第二种可能的实施方式作为基础而提供的第五种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:历史查询数据为点击日志中的历史数据,历史数据包括查询词及查询词对应的点击词构成的查询词点击词对;

确定每个词素在查询词中的重要性得分,包括:

统计具有共有词素的查询词点击词对的展示次数和点击次数,并统计每个共有词素对应的累加展示次数和累加点击次数;

根据每个共有词素对应的累加展示次数和累加点击次数确定查询词中每个词素对应的展示次数和点击次数,根据查询词中每个词素对应的展示次数和点击次数确定每个词素在查询词中的重要性得分。

在第一种至第五种可能的实施方式的任一种实施方式作为基础而提供的第六种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:词素自解释特征至少包括词素专名类型特征、词素逆向文件频率特征、词素分词特征、词素在查询词中的位置特征及词素的全局核心得分特征中的一种特征;

词素交叉特征至少包括词素与词素所属查询词中其它词素的字面交叉特征、查询词中词素转移概率的平均值特征、词素的第一转移概率特征和词素的第二转移概率特征、词素的文本分类相关特征、词素的主题分布和词素所属查询词的主题分布的第一交叉特征、概率潜语义分析PLSA主题相似度特征中的一种特征。

在第六种可能的实施方式作为基础而提供的第七种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:预设特征包括词素交叉特征中的查询词中词素转移概率的平均值特征时,确定每条训练数据的每个预设特征的特征值,包括:

根据转移概率词典获取每条训练数据中的词素与每条训练数据中的词素所属的查询词中的其它词素之间的转移概率;

确定每条训练数据中的词素与每条训练数据中的词素所属的查询词中的其它词素之间转移概率的平均值,并将转移概率的平均值确定为查询词中词素转移概率的平均值特征的特征值。

在第六种可能的实施方式作为基础而提供的第八种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:预设特征包括词素交叉特征中的词素的第一转移概率特征和词素的第二转移概率特征时,确定每条训练数据的每个预设特征的特征值,包括:

从转移概率词典中查询每条训练数据中的词素的第一转移概率的概率值和词素的第二转移概率的概率值,并将第一转移概率的概率值和第二转移概率的概率值分别确定为词素的第一转移概率特征和词素的第二转移概率特征的特征值。

在第七种或第八种可能的实施方式作为基础而提供的第九种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:方法还包括:

将检索会话包括的查询词成对输出,获得多个查询词对,其中,获得的每个查询词对包括第一查询词和第二查询词;

对检索会话包括的所有查询词对中的第一查询词和第二查询词切词,将第一查询词中的每个词素与第二查询词中的每个词素组合获得词素对,每个词素对包括第一查询词中的第一词素和第二查询词中的第二词素;

统计任一词素对在检索会话中出现的次数以及任一词素对中第一词素和第二词素单独出现的次数;

根据任一词素对在检索会话中出现的次数以及任一词素对中第二词素单独出现的次数确定任一词素对中第一词素相对于第二词素的转移概率,根据任一词素对在检索会话中出现的次数以及任一词素对中第一词素单独出现的次数确定和第二词素相对于第一词素的转移概率;

据所有词素对中第一词素相对于第二词素的转移概率及第二词素相对于第一词素的转移概率获得转移概率词典。

在第六种可能的实施方式作为基础而提供的第十种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:预设特征包括词素交叉特征中的词素的文本分类相关特征,且词素的文本分类相关特征包括词素与词素分类库中的每个词素类别的相关特征时,确定每条训练数据的每个预设特征的特征值,包括:

获取每条训练数据中的词素所属词素分类库中的第一预设数值个词素类别,确定每条训练数据中的词素与第一预设数值个词素类别的相关特征的特征值为第一特征值,并确定每条训练数据中的词素与词素分类库中除第一预设数值个词素类别之外的其它词素类别的相关特征的特征值为第二特征值。

在第十种可能的实施方式作为基础而提供的第十一种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:词素的文本分类相关特征还包括词素与查询词分类库中的每个查询词类别的相关特征时,确定每条训练数据的每个预设特征的特征值,还包括:

获取每条训练数据中的词素所属的查询词在查询词分类库中的第二预设数值个查询词类别,确定每条训练数据中的词素与第二预设数值个查询词类别的相关特征的特征值为第三特征值,并确定每条训练数据中的词素与查询词分类库中除第二预设数值个查询词类别之外的其它查询词类别的相关特征的特征值为第四特征值。

在第十一种可能的实施方式作为基础而提供的第十二种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:词素的文本分类相关特征还包括词素所属词素类别及词素所属的查询词所属查询词类别的第二交叉特征时,确定每条训练数据的每个预设特征的特征值,还包括:

确定每条训练数据中的词素所属词素分类库中的第一预设数值个词素类别下的每个子词素类别,并确定每条训练数据中的词素所属的查询词所属查询词分类库中的第二预设数值个查询词类别下的每个子查询词类别;

将每个子词素类别与每个子查询词类别构成一个第二交叉特征,如果任一第二交叉特征中的子词素类别与子查询词类别相同,则确定任一第二交叉特征的特征值为第五特征值,如果任一第二交叉特征中的子词素类别与子查询词类别不同,则确定任一第二交叉特征的特征值为第六特征值。

在第六种可能的实施方式作为基础而提供的第十三种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:预设特征包括词素交叉特征中的词素的主题分布和词素所属查询词的主题分布的第一交叉特征,确定每条训练数据的每个预设特征的特征值,包括:

获取每条训练数据中的词素所属词素主题库中的第三预设数值个词素主题分布,并获取每条训练数据中的词素所属的查询词在所属查询词主题库中的第四预设数值个查询词主题分布;

确定每条训练数据中的词素所属词素主题库中的第三预设数值个词素主题分布下的每个子词素主题分布,并确定每条训练数据中的词素所属的查询词在所属查询词主题库中的第四预设数值个查询词主题分布下的每个子查询词主题分布;

将每个子词素主题分布与每个子查询词主题分布构成一个第一交叉特征,如果任一第一交叉特征中的子词素主题分布与子查询词主题分布相同,则确定任一第一交叉特征的特征值为第七特征值,如果任一第一交叉特征中的子词素主题分布与子查询词主题分布不同,则确定任一第一交叉特征的特征值为第八特征值。

在第六种可能的实施方式作为基础而提供的第十四种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:预设特征包括词素交叉特征中的PLSA主题相似度特征,确定每条训练数据的每个预设特征的特征值,包括:

获取每条训练数据中的词素所属词素主题库中的第三预设数值个词素主题分布,并获取每个训练数据中的词素所属的查询词在所属查询词主题库中的第四预设数值个查询词主题分布;

计算每个词素主题分布与每个查询词主题分布的主题相似度值,并将计算得到的每个主题相似度值确定为PLSA主题相似度特征的特征值。

本发明实施例提供的服务器,通过获取到的训练数据确定模型参数,并根据确定的模型参数确定词素重要性分析模型,进而实现通过词素重要性分析模型分析词素重要性时,不仅运算速度较快,提高了分析词素重要性的效率,而且准确性较高。

需要说明的是:上述实施例提供的确定词素重要性分析模型的装置在确定词素重要性分析模型时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的确定词素重要性分析模型的装置与确定词素重要性分析模型的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号