首页> 中国专利> 一种优化问答对的搜索排名的装置和方法

一种优化问答对的搜索排名的装置和方法

摘要

本发明公开了一种优化问答对的搜索排名的装置和方法,用于优化问答对搜索的搜索结果的排名,该方法包括如下步骤:接收使用者的搜索请求,根据使用者的搜索请求,获取与搜索请求匹配的多个待分析问答对;根据包括多条问答知识记录的问答知识库,获取每个待分析问答对的相关联程度;根据所述待分析问答对的相关联程度优化所述待分析问答对的搜索排名。使用本发明的装置和方法,可以评价作为搜索结果的待分析问答对的相关联程度优化搜索结果排名,排名效果更好。

著录项

  • 公开/公告号CN103577558A

    专利类型发明专利

  • 公开/公告日2014-02-12

    原文格式PDF

  • 申请/专利号CN201310495881.4

  • 发明设计人 孙林;陈培军;秦吉胜;

    申请日2013-10-21

  • 分类号G06F17/30;

  • 代理机构北京市隆安律师事务所;

  • 代理人权鲜枝

  • 地址 100088 北京市西城区新街口外大街28号D座112室(德胜园区)

  • 入库时间 2024-02-19 22:40:22

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-10-11

    未缴年费专利权终止 IPC(主分类):G06F17/30 专利号:ZL2013104958814 申请日:20131021 授权公告日:20170426

    专利权的终止

  • 2017-04-26

    授权

    授权

  • 2014-03-12

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20131021

    实质审查的生效

  • 2014-02-12

    公开

    公开

说明书

技术领域

本发明涉及网络数据通信领域,具体涉及一种优化问答对的搜索排名的 装置和方法。

背景技术

问答社区是一种用户产生内容的网络应用,基本形式是由用户根据自己 的需求提出问题,并由其他的用户来给出回答。这种形式为用户在网络上获 取信息提供了新的渠道。然而由于任何用户都可以随意地创建内容,导致了 问答社区中的信息质量差异非常大,以至于问答社区中出现了大量的低质量 问答对。这不但降低了问答社区的质量,更给用户查找信息带来了诸多不便, 例如,使用现有的搜索技术进行问答搜索时,获取的搜索结果中存在部分低 质量的问答对而现有技术的对搜索结果进行排序的方法,更多地依赖于问答 对所属的网站和问答对的非文本特征来对问答对进行排序,会影响精确性和 通用性。

发明内容

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分 地解决上述问题的一种优化问答对的搜索排名的装置和相应的优化问答对的 搜索排名的方法。

依据本发明的一个方面,提供了一种优化问答对的搜索排名的装置,该 装置包括:

问答知识库,适于存储多条问答知识记录;

搜索单元,适于接收使用者的搜索请求,根据使用者的搜索请求,获取 与搜索请求匹配的多个待分析问答对;相关联程度计算单元,适于根据问答 知识库获取每个待分析问答对的相关联程度;

搜索排名单元,适于根据所述待分析问答对的相关联程度优化所述待分 析问答对的搜索排名。

可选地,所述相关联程度计算单元包括:词语提取子单元,适于对待分 析的问答对的问题内容和答案内容进行词语提取操作,得到至少一个待分析 问题词语和至少一个待分析答案词语;计算子单元,适于根据待分析问题词 语和待分析答案词语,从问答知识库选择至少一条问答知识记录,根据所选 择的问答知识记录计算待分析的问答对的相关联程度。

可选地,所述搜索排名单元,适于以所述待分析问答对的相关联程度的 次序作为所述待分析问答对的搜索排名;或,根据搜索排列技术初步排列所 述待分析问答对所属的网站,根据将该初步排列的次序号与所述待分析问答 对的相关联程度计算所述待分析问答对的搜索排名。

可选地,该装置还包括问答知识库构建单元,所述问答知识库构建单元, 适于预先从含有问答对的网页提取出多个问答对,根据提取的问答对构建包 括多条问答知识记录的问答知识库;所述问答知识库构建单元,进一步适于 在从含有问答对的网页提取出多个问答对时,抓取与所述问答对对应的类别; 所述问答知识库构建单元,进一步适于在根据提取的问答对构建问答知识库 时,根据问答对和与所述问答对对应的类别构建问答知识记录;每个问答知 识记录对应于一个类别,分别包括一个问题词语、一个答案词语,以及所述 问题词语和所述答案词语之间的语义相关度。可选地,所述计算子单元,适 于选取其包括的问题词语与待分析问题词语匹配且包括的答案词语与待分析 答案词语匹配的问答知识记录;根据所述选取的问答知识记录中对应于相同 类别的问答知识记录,得到该待分析的问答对针对各个类别的相关联程度; 选取上述该待分析的问答对针对各个类别的相关联程度的最大值,以该最大 值作为待分析的问答对的相关联程度。

可选地,所述计算子单元,适于将选取的问答知识记录中对应于相同类 别的问答知识记录的语义相关度加权相加,得到该待分析的问答对分别针对 各个类别的相关联程度。

可选地,所述词语提取子单元,适于对待分析的问答对的问题内容和答 案内容进行分词、去除停用词、词合并,和提取实体词的操作。

可选地,所述问答知识库构建单元,适于对每个问答对执行以下操作: 对该问答对的问题内容和答案内容进行词语提取操作,得到问题词语集合和 答案词语集合;令问题词语集合中的每个问题词语与答案词语集合中的每个 答案词语分别在与该问答对对应的每个类别上形成一条信息记录;所述问答 知识库构建单元,适于对每一条信息记录,执行以下操作:计算该答案词语 属于该类别的概率,计算在该类别上该答案词语对该问题词语的解释的专一 程度,计算在该类别上该问题词语用该答案词语进行解释的强度;将上述概 率、专一程度和强度相乘,所得到的乘积是该答案词语和该问题词语的语义 相关度;令该问题词语、该答案词语和其语义相关度形成一条对应于该类别 的问答知识记录。

可选地,所述问答知识库构建单元,适于按照如下的方法计算该答案词 语属于该类别的概率:

P(Ck|AWj)=P(AWj|Ck)*P(Ck)P(AWj);

所述问答知识库构建单元,适于按照如下的方法计算在该类别上各个答 案词语对该问题词语的解释的专一程度:

specific(QWi,AWj|C=Ck)=P(QWi|AWj,C=Ck)=#(QWi,AWj)#(AWj)|C=Ck;

所述问答知识库构建单元,适于按照如下的方法计算在该类别上该问题 词语用各个答案词语进行解释的强度:

interpret(QWi,AWj|C=Ck)=P(AWj|QWi,C=Ck)=#(QWi,AWj)Σj=1x#(QWi,AWj)|C=Ck;

所述问答知识库构建单元,适于按照如下的方法将上述概率、专一程度 和强度相乘:

weight(QWi,AWj|C=Ck)=P(Ck|AWj)*specific(QWi,AWj|C=Ck)*interpret(QWi,AWj|C=Ck);

其中,P(Ck)表示类别Ck出现的概率;P(AWj)表示答案为AWj的 概率;P(AWj│Ck)表示Ck类别属于AWj的概率;

#(QWi,AWj)表示问题词语为QWi且答案词语为AWj的次数;

#(AWj)表示答案词语为AWj的次数。

根据本发明的另一方面,提供了一种优化问答对的搜索排名的方法,该 方法包括如下步骤:

接收使用者的搜索请求,根据使用者的搜索请求,获取与搜索请求匹配 的多个待分析问答对;

根据包括多条问答知识记录的问答知识库获取每个待分析问答对的相关 联程度;

根据所述待分析问答对的相关联程度优化所述待分析问答对的搜索排 名。

可选地,所述根据包括多条问答知识记录的问答知识库优化每个待分析 问答对的相关联程度,包括对每个待分析问答对执行以下操作:对该待分析 的问答对的问题内容和答案内容进行词语提取操作,得到至少一个待分析问 题词语和至少一个待分析答案词语;根据待分析问题词语和待分析答案词语, 从问答知识库选择至少一条问答知识记录,根据所选择的问答知识记录计算 该待分析的问答对的相关联程度。

可选地,所述根据所述待分析问答对的相关联程度调整所述待分析问答 对的搜索排名,具体包括:以所述待分析问答对的相关联程度的次序作为所 述待分析问答对的搜索排名;或,根据搜索排列技术初步排列所述待分析问 答对所属的网站,根据该初步排列的次序号与所述待分析问答对的相关联程 度计算所述待分析问答对的搜索排名。

可选地,该方法进一步包括:预先从含有问答对的网页提取出多个问答 对,根据提取的问答对构建包括多条问答知识记录的问答知识库;在从含有 问答对的网页提取出多个问答对时,抓取与所述问答对对应的类别;在根据 提取的问答对构建问答知识库时,根据问答对和与所述问答对对应的类别构 建问答知识记录;每个问答知识记录对应于一个类别,分别包括一个问题词 语、一个答案词语,以及所述问题词语和所述答案词语之间的语义相关度。

可选地,所述根据待分析问题词语和待分析答案词语,从问答知识库选 择至少一条问答知识记录,根据所选择的问答知识记录计算待分析的问答对 的相关联程度,具体包括:选取其包括的问题词语与待分析问题词语匹配且 包括的答案词语与待分析答案词语匹配的问答知识记录;根据所述选取的问 答知识记录中对应于相同类别的问答知识记录,得到该待分析的问答对针对 各个类别的相关联程度;选取上述该待分析的问答对针对各个类别的相关联 程度的最大值,以该最大值作为待分析的问答对的相关联程度。

可选地,根据所述选取的问答知识记录中对应于相同类别的问答知识记 录,得到该待分析的问答对分别针对各个类别的相关联程度,具体包括:将 选取的问答知识记录中对应于相同类别的问答知识记录的语义相关度加权相 加,得到该待分析的问答对分别针对各个类别的相关联程度。

可选地,所述对所述待分析的问答对的问题内容和答案内容进行词语提 取操作,具体包括:对待分析的问答对的问题内容和答案内容进行分词、去 除停用词、词合并,和提取实体词的操作。

可选地,所述根据问答对和与所述问答对对应的类别构建问答知识库, 具体包括:对每个问答对,对该问答对的问题内容和答案内容进行词语提取 操作,得到问题词语集合和答案词语集合;令问题词语集合中的每个问题词 语与答案词语集合中的每个答案词语分别在与该问答对对应的每个类别上形 成一条信息记录;对每一条信息记录,执行以下操作:计算该答案词语属于 该类别的概率,计算在该类别上该答案词语对该问题词语的解释的专一程度, 计算在该类别上该问题词语用该答案词语进行解释的强度;将上述概率、专 一程度和强度相乘,所得到的乘积是该答案词语和该问题词语的语义相关度; 令该问题词语、该答案词语和其语义相关度形成一条对应于该类别的问答知 识记录。

可选地,所述计算该答案词语属于该类别的概率,具体包括:

P(Ck|AWj)=P(AWj|Ck)*P(Ck)P(AWj);

所述计算在该类别上各个答案词语对该问题词语的解释的专一程度,具 体包括:

specific(QWi,AWj|C=Ck)=P(QWi|AWj,C=Ck)=#(QWi,AWj)#(AWj)|C=Ck;

所述计算在该类别上该问题词语用各个答案词语进行解释的强度,具体 包括:

interpret(QWi,AWj|C=Ck)=P(AWj|QWi,C=Ck)=#(QWi,AWj)Σj=1x#(QWi,AWj)|C=Ck;

将上述概率、专一程度和强度相乘,具体包括:

weight(QWi,AWj|C=Ck)=P(Ck|AWj)*specific(QWi,AWj|C=Ck)*interpret(QWi,AWj|C=Ck);

其中,P(Ck)表示类别Ck出现的概率;P(AWj)表示答案为AWj的 概率;P(AWj│Ck)表示Ck类别属于AWj的概率;

#(QWi,AWj)表示问题词语为QWi且答案词语为AWj的次数;

#(AWj)表示答案词语为AWj的次数。

根据本发明的技术方案,从含有问答对的网页提取出多个问答对并根据 提取的问答对构建包括多条问答知识记录的问答知识库,根据使用者的搜索 请求获取的与搜索请求匹配的多个待分析问答对,根据问答知识库获取每个 待分析问答对的相关联程度并根据待分析问答对的相关联程度优化待分析问 答对的搜索排名,可以从语义方面评价待分析问答对的质量,解决了现有技 术依赖于问答对所属的网页和问答对的非文本特征来对问答对进行排序而导 致的排序效果不佳的问题,而且容易实现、通用性强。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本 领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的, 而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示 相同的部件。在附图中:

图1示出了根据本发明一个实施例的优化问答对的搜索排名的方法的流 程图;

图2示出了构建问答知识库的详细的流程图;

图3示出了使用如图2所示的步骤而得到的问答知识库的一个解释模型 示意图;

图4示出了图1中步骤S200的详细的流程图;

图5示出了图4中步骤S220的详细的流程图;以及

图6示出了根据本发明一个实施例的优化问答对的搜索排名的装置的框 图;

图7示出了图6中相关联程度计算单元300的详细的框图;

图8示出了根据本发明另一个实施例的优化问答对的搜索排名的装置的 框图。

具体实施方式

现有的获取问答对的搜索排名的方法,是使用文本特征和非文本特征来 描述问答对的问题和答案从而对问答对进行排名,或根据问答对所属的网站 的排名对问答对进行排名。文本特征主要包括文本视觉特征(例如标点符号 密度,平均词长,文本熵等)和文本内容特征(例如文本内容词比例,疑问 词密度,相关词覆盖等),并提取中文自动差错广泛采用的特征(例如单字 密度特征等);非文本特征包含用户的权威度指标,答案问题状态,答案回 答时间,用户关系交互特征等。在对问题和答案分别提取出特征后,在训练 集上分别学习出一个问题质量预测模型和答案质量预测模型,并使用两个模 型的输出结果来评价问答对质量。然而,使用现有的获取问答对的相关联程 度的方法对于答案质量进行评价时,仅仅使用了相关词覆盖特征来描述问题 和答案间的语义匹配度,这不但仅仅是停留在词法层面上的,而且没有考虑 问题和答案间的语义匹配度。然而问题和答案间的语义匹配度恰恰是问答对 质量的核心,比如问题为“中国的首都是哪里?”,答案1为“北京”,答 案2为“中国的首都是上海”。那么问题经过分词及丢弃停用词处理后,为 “中国首都哪里”,答案1分词结果为“北京”,答案2分词结果为“中 国首都上海”。现有技术中,语义匹配度可以定义为:问题和答案中共同 出现的词语个数除以问题和答案中所有词语的个数。则问题和答案1的语义 匹配度为:0/4=0。问题和答案2的语义匹配度为:2/4=0.5。使用现有技术, 就会认为答案2和问题较为匹配,从而答案2对应的问答对在搜索结果(例 如,当使用者的搜索条件为“首都”,或者“中国首都”等)中的排名往往 在前。而我们知道这显然是不当的。

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示 了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不 应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地 理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的优化问答对的搜索排名的方法的流 程图。该方法包括如下步骤S100、步骤S200和步骤S300:

S100、接收使用者的搜索请求,根据使用者的搜索请求,获取与搜索请 求匹配的多个待分析问答对。

在本发明的一个实施例中,可以是使用网络搜索技术,例如使用问答对 搜索引擎,根据使用者的搜索请求获取待分析问答对。

S200、根据包括多条问答知识记录的问答知识库,获取每个待分析问答 对的相关联程度。

本实施例的步骤S200,可以通过利用问答知识库从语义方面对待分析问 答对的问题内容和答案内容进行分析以获得待分析问答对的相关联程度,评 价效果更好而且容易实现。

进一步地,所述包括多条问答知识记录的问答知识库,是通过预先从含 有问答对的网页提取出多个问答对,根据提取的问答对构建而得到的。在本 发明的一个实施例中,在从含有问答对的网页提取出多个问答对时,抓取与 所述问答对对应的类别。则在根据提取的问答对构建问答知识库时,根据问 答对和与所述问答对对应的类别构建问答知识记录。得到的问答知识库之中 的每个问答知识记录对应于一个类别,分别包括一个问题词语(QW)、一 个答案词语(AW),以及所述问题词语和所述答案词语之间的语义相关度。 通过利用由网页提取的海量的、高质量的问答对构建包括多条问答知识记录 的问答知识库,可以基于对海量信息的学习而获取多条问答知识记录的问题 词语和答案词语之间的语义相关度;通过利用从网页提取得到的信息构建问 答知识库,适用的范围更广,方法的通用性更强。

S300、根据所述待分析问答对的相关联程度优化所述待分析问答对的搜 索排名。

由于待分析问答对的相关联程度反映了质量,所以可以利用相关联程度 优化所述待分析问答对的搜索排名,排名效果更好。

具体的方法,可以是以所述待分析问答对的相关联程度的次序作为所述 待分析问答对的搜索排名,即相关联程度高的问答对的搜索排名靠前;也可 以是先根据搜索排列技术初步排列所述待分析问答对所属的网站,根据该初 步排列的次序号与所述待分析问答对的相关联程度计算所述待分析问答对的 搜索排名,例如,可以将所述待分析问答对所属的网站的初步排列的次序号 与所述待分析问答对的相关联程度相乘,以相乘运算的结果的次序作为所述 待分析问答对的搜索排名;通过将待分析问答对的质量和其所属网站的排名 结合,以对待分析问答对进行排序,使用者使用问答对搜索时,能够获得更 好的结果排序的质量。

图2示出了构建问答知识库的详细的流程图。具体包括以下步骤S410、 步骤S420和步骤S430:

S410、预先从含有问答对的网页提取出多个问答对,抓取与所述问答对 对应的类别。

本实施例中,可以通过使用网络爬虫,从互联网上含有高质量问答对的 网页抓取数据并提取出问答对,以保证所提取的问答对的质量;所述含有高 质量问答对的网页包括cQA社区、各大专业论坛等,则可以使用楼层识别技 术,根据楼主提问题,1楼2楼等为答案的方式,来提取问答对。由于所述 含有高质量问答对的网页中包括对应于每个问答对的类别信息,所以可以在 抓取问答对的同时一并抓取与所述问答对对应的类别。

S420、对每个问答对,对该问答对的问题内容和答案内容进行词语提取 操作,得到问题词语集合和答案词语集合;令问题词语集合中的每个问题词 语与答案词语集合中的每个答案词语分别在与该问答对对应的每个类别上形 成一条信息记录。

在本发明的一个实施例中,对步骤S410中提取得到的所述问答对中的 每一个问答对的问题内容和答案内容进行词语提取操作,具体包括,对问答 对的问题内容和答案内容进行分词、去除停用词、词合并,和提取实体词的 操作。

则由每一个问答对的问题内容得到至少一个问题词语,由每一个问答对 的答案内容得到至少一个答案词语,则可以得到针对该问答对的类别集合 <C1,…,Ck,…,Cp>、问题词语集合<QW1,…,QWi,…,QWm>和答 案词语集合<AW1,…,AWj,…,AWn>。

通过令问题词语集合中的每个问题词语(QWi)与答案词语集合中的每 个答案词语(AWj)分别在与该问答对对应的每个类别(Ck)上形成一条信 息记录,例如<QWi,AWj,Ck>,则可以形成m*n*p条信息记录。

S430、对每一条信息记录,执行以下操作:计算该答案词语属于该类别 的概率,计算在该类别上该答案词语对该问题词语的解释的专一程度,计算 在该类别上该问题词语用该答案词语进行解释的强度;将上述概率、专一程 度和强度相乘,所得到的乘积是该答案词语和该问题词语的语义相关度;令 该问题词语、该答案词语和其语义相关度形成一条对应于该类别的问答知识 记录<QWi,AWj,weight(QWi,AWj)>或<QWi,AWj,Ck,weight(QWi, AWj)>。本实施例中的步骤S430,可以是在对从网页抓取的海量的问答对 进行了如步骤S420所述的词语提取操作而得到海量的信息记录之后基于所 述海量的信息记录进行的,则基于海量的信息记录而获取的语义相关度更准 确。

较佳地,所述计算该答案词语属于该类别的概率,具体包括:

P(Ck|AWj)=P(AWj|Ck)*P(Ck)P(AWj);

所述计算在该类别上各个答案词语对该问题词语的解释的专一程度,具 体包括:

specific(QWi,AWj|C=Ck)=P(QWi|AWj,C=Ck)=#(QWi,AWj)#(AWj)|C=Ck;

所述计算在该类别上该问题词语用各个答案词语进行解释的强度,具体 包括:

interpret(QWi,AWj|C=Ck)=P(AWj|QWi,C=Ck)=#(QWi,AWj)Σj=1x#(QWi,AWj)|C=Ck;

将上述概率、专一程度和强度相乘,具体包括:

weight(QWi,AWj|C=Ck)=P(Ck|AWj)*specific(QWi,AWj|C=Ck)*interpret(QWi,AWj|C=Ck);

其中,P(Ck)表示类别Ck出现的概率;P(AWj)表示答案为AWj的 概率;P(AWj│Ck)表示Ck类别属于AWj的概率;

#(QWi,AWj)表示问题词语为QWi且答案词语为AWj的次数;

#(AWj)表示答案词语为AWj的次数。

由步骤S410、步骤S420和步骤S430,可以得到问答知识记录而构建问 答知识库。图3示出了使用如图2所示的步骤而得到的问答知识库的一个解 释模型示意图。可知,对于每一问题词语QWi,可以针对类别集合<C1,…, Ck,…,Cp>中的每一类别,获得n条问答知识记录。当然,本领域技术人 员可以了解的是,若计算得到的语义相关度为0,则可以删除相应的问答知 识记录;再者,如果问答知识库中问答知识记录的数量过大而使得存储问答 知识记录和计算待分析问答对的相关联程度的开销过大,可以预设一个阈值, 将语义相关度小于阈值的问答知识记录删除以减小开销。

图4示出了图1中步骤S200的详细的流程图。步骤S200具体包括以下 步骤S210和步骤S220。

S210、对待分析的问答对的问题内容和答案内容进行词语提取操作,得 到至少一个待分析问题词语和至少一个待分析答案词语。

在本发明的一个实施例中,对待分析的问答对的问题内容和答案内容进 行词语提取操作具体包括:对待分析的问答对的问题内容和答案内容进行分 词、去除停用词、词合并(word join),和提取实体词(例如名词、动词等) 的操作。则由待分析的问答对的问题内容得到至少一个待分析问题词语,由 待分析的问答对的答案内容得到至少一个待分析答案词语。

S220、根据待分析问题词语和待分析答案词语,从问答知识库选择至少 一条问答知识记录,根据所选择的问答知识记录计算待分析的问答对的相关 联程度。

图5示出了图4中步骤S220的详细的流程图。在通过步骤S210得到至 少一个待分析问题词语和至少一个待分析答案词语后,步骤S220具体包括 以下步骤S221、步骤S222和步骤S223:

S221、选取其包括的问题词语与待分析问题词语匹配且包括的答案词语 与待分析答案词语匹配的问答知识记录。本实施例中,问题词语与待分析问 题词语匹配是指待分析问题词语与问题词语相同或待分析问题词语是问题词 语的子串;答案词语与待分析答案词语匹配是指待分析答案词语与答案词语 相同或待分析答案词语是答案词语的子串,本实施例通过步骤S210,使用字 段匹配或字段搜索的方法,从问答知识库中选出部分与待分析的问答对相关 的问答知识记录。

S222、根据所述选取的问答知识记录中对应于相同类别的问答知识记 录,得到该待分析的问答对分别针对各个类别的相关联程度,具体包括:将 选取的问答知识记录中对应于相同类别的问答知识记录的语义相关度加权相 加,得到该待分析的问答对分别针对各个类别的相关联程度。

本实施例,将通过步骤S221选出的问答知识记录根据其所对应的类别 进行分组,对应于相同类别的问答知识记录为一组;将每一组的问答知识记 录的语义相关度加权(例如,权值为1或100)相加,得到该待分析的问答 对针对该类别的相关联程度;由此得到至少一个(本实施例中的相关联程度 的数目即待分析问答对对应的类别的数目)相关联程度。

S223、选取上述该待分析的问答对针对各个类别的相关联程度的最大 值,以该最大值作为待分析的问答对的相关联程度。

图6示出了根据本发明一个实施例的优化问答对的搜索排名的装置的框 图。该装置包括问答知识库100、搜索单元200、相关联程度计算单元300 和搜索排名单元400。

问答知识库100,适于存储多条问答知识记录。本实施例的问答知识库 100能够通过抓取网页中的海量问答对构建得到。

搜索单元200,适于接收使用者的搜索请求,根据使用者的搜索请求, 获取与搜索请求匹配的多个待分析问答对。

在本发明的一个实施例中,搜索单元200可以是问答对搜索引擎,根据 使用者的搜索请求获取待分析问答对;例如搜索单元200是用于问答对搜索 的网络搜索引擎,接收使用者通过浏览器输入的搜索请求并获取待分析问答 对。

相关联程度计算单元300,适于根据问答知识库获取每个待分析问答对 的相关联程度。

本发明的相关联程度计算单元300可以通过利用问答知识库从语义方面 对待分析问答对的问题内容和答案内容进行分析以获得待分析问答对的相关 联程度,评价效果更好而且容易实现。问答知识库100利用由网页提取的海 量的、高质量的问答对构建并且包括多条问答知识记录,可以基于对海量信 息的学习而获取多条问答知识记录的问题词语和答案词语之间的语义相关 度。

搜索排名单元400,适于根据所述待分析问答对的相关联程度优化所述 待分析问答对的搜索排名。

由于待分析问答对的相关联程度反映了质量,所以可以利用相关联程度 优化所述待分析问答对的搜索排名,排名效果更好。具体的方法,可以是以 所述待分析问答对的相关联程度的次序作为所述待分析问答对的搜索排名, 即相关联程度高的问答对的搜索排名靠前;也可以是先根据搜索排列技术初 步排列所述待分析问答对所属的网站,根据该初步排列的次序号与所述待分 析问答对的相关联程度计算所述待分析问答对的搜索排名,例如,可以将所 述待分析问答对所属的网站的初步排列的次序号与所述待分析问答对的相关 联程度相乘,以相乘运算的结果的次序作为所述待分析问答对的搜索排名。

图7示出了图6中相关联程度计算单元300的详细的框图。相关联程度 计算单元300包括词语提取子单元310和计算子单元320。

词语提取子单元310,适于对待分析的问答对的问题内容和答案内容进 行词语提取操作,得到至少一个待分析问题词语和至少一个待分析答案词语。

在本发明的一个实施例中,词语提取子单元310,适于对待分析的问答 对的问题内容和答案内容进行分词、去除停用词、词合并(word join),和 提取实体词(例如名词、动词等)的操作,以得到至少一个待分析问题词语 和至少一个待分析答案词语。

计算子单元320,适于根据待分析问题词语和待分析答案词语,从问答 知识库选择至少一条问答知识记录,根据所选择的问答知识记录计算待分析 的问答对的相关联程度。

在本发明的一个实施例中,计算子单元320,适于选取其包括的问题词 语与待分析问题词语匹配且包括的答案词语与待分析答案词语匹配的问答知 识记录。本实施例中,问题词语与待分析问题词语匹配是指待分析问题词语 与问题词语相同或待分析问题词语是问题词语的子串;答案词语与待分析答 案词语匹配是指待分析答案词语与答案词语相同或待分析答案词语是答案词 语的子串;根据所述选取的问答知识记录中对应于相同类别的问答知识记录, 得到该待分析的问答对针对各个类别的相关联程度,更具体地,是将选取的 问答知识记录中对应于相同类别的问答知识记录的语义相关度加权(例如, 权值为1或100)相加而得到该待分析的问答对分别针对各个类别的相关联 程度,由此得到至少一个(本实施例中的相关联程度的数目即待分析问答对 对应的类别的数目)相关联程度;选取上述该待分析的问答对针对各个类别 的相关联程度的最大值,以该最大值作为待分析的问答对的相关联程度。

图8示出了根据本发明另一个实施例的确定网络资源点的抓取频率的装 置的框图。在本实施例中,该装置还包括问答知识库构建单元500,问答知 识库构建单元500适于预先从含有问答对的网页提取出多个问答对,根据提 取的问答对构建包括多条问答知识记录的问答知识库。在图6所示的装置中, 问答知识库是已有的,由于实际网络的信息量不断增加,信息内容的变化速 度快,问答知识库的内容往往需要更新,本实施例通过增设问答知识库构建 单元500构建(或者说更新)问答知识库,可以保证问答知识库的内容的即 时性和可靠性。

较佳地,在从含有问答对的网页提取出多个问答对时,问答知识库构建 单元500抓取与所述问答对对应的类别。本实施例中,可以通过使用网络爬 虫,从互联网上含有高质量问答对的网页抓取数据并提取出问答对,以保证 所提取的问答对的质量;所述含有高质量问答对的网页包括cQA社区、各大 专业论坛等。由于所述含有高质量问答对的网页中包括对应于每个问答对的 类别信息,所以问答知识库构建单元500可以在抓取问答对的同时一并抓取 与所述问答对对应的类别。

在本实施例中,问答知识库构建单元500,适于对每个问答对执行以下 操作:对该问答对的问题内容和答案内容进行词语提取操作,得到问题词语 集合和答案词语集合,具体地,问答知识库构建单元500对提取得到的所述 问答对中的每一个问答对的问题内容和答案内容进行分词、去除停用词、词 合并,和提取实体词的操作而得到问题词语和答案词语;令问题词语集合中 的每个问题词语与答案词语集合中的每个答案词语分别在与该问答对对应的 每个类别上形成一条信息记录。问答知识库构建单元500,适于对每一条信 息记录,执行以下操作:计算该答案词语属于该类别的概率,计算在该类别 上该答案词语对该问题词语的解释的专一程度,计算在该类别上该问题词语 用该答案词语进行解释的强度;将上述概率、专一程度和强度相乘,所得到 的乘积是该答案词语和该问题词语的语义相关度;令该问题词语、该答案词 语和其语义相关度形成一条对应于该类别的问答知识记录。

更具体地,问答知识库构建单元500,适于按照如下的方法计算该答案 词语属于该类别的概率:

P(Ck|AWj)=P(AWj|Ck)*P(Ck)P(AWj);

更具体地,问答知识库构建单元500,适于按照如下的方法计算在该类 别上各个答案词语对该问题词语的解释的专一程度:

specific(QWi,AWj|C=Ck)=P(QWi|AWj,C=Ck)=#(QWi,AWj)#(AWj)|C=Ck;

更具体地,问答知识库构建单元500,适于按照如下的方法计算在该类 别上该问题词语用各个答案词语进行解释的强度:

interpret(QWi,AWj|C=Ck)=P(AWj|QWi,C=Ck)=#(QWi,AWj)Σj=1x#(QWi,AWj)|C=Ck;

更具体地,问答知识库构建单元500,适于按照如下的方法将上述概率、 专一程度和强度相乘:

weight(QWi,AWj|C=Ck)=P(Ck|AWj)*specific(QWi,AWj|C=Ck)*interpret(QWi,AWj|C=Ck);

其中,P(Ck)表示类别Ck出现的概率;P(AWj)表示答案为AWj的 概率;P(AWj│Ck)表示Ck类别属于AWj的概率;

#(QWi,AWj)表示问题词语为QWi且答案词语为AWj的次数;

#(AWj)表示答案词语为AWj的次数。

以下通过一个例子说明使用本发明的实施例所能达到的效果,比如有如 下问答对,类别为“医疗健康”:

通过分词技术处理,得到待分析问题词语和待分析答案词语如下:

从分词结果可以看出,问题和答案中没有相关词覆盖,因此如果使用现 有技术则容易认为该问答对相关联程度低,质量不高,因此搜索排名靠后。 但是实际上使用人工判断明显可知该问答对是一个高质量的问答对。

若使用本发明的方法和装置处理,首先,可以调取已有的问答知识库, 或者通过抓取cQA社区、各大专业论坛的问答对,构建得到问答知识库;

第二步,在接收使用者的搜索请求,根据使用者的搜索请求(例如,孩 子鼻涕),获取与搜索请求匹配的多个待分析问答对,假定搜索结果中包括 上述待分析的问答对;

第三步,对上述待分析的问答对,经过词语提取操作得到待分析问题词 语集合<孩子,咳嗽,鼻涕>、待分析答案词语集合<症状,药物,治疗,抗病毒, 小儿感冒颗粒,说明,剂量,止咳,中药,冲剂,抗生素,阿莫西林,阿莫西 林颗粒,颗粒,口服,罗红霉素,疗效>,并且得到待分析的问答对的类别为 “医疗健康”;根据各个待分析问题词语以及该类别,从问答知识库中选择 得到问题词语与待分析问题词语匹配的若干问答知识记录,从而得到如下答 案词语及语义相关度(为了方便阅读,下表中的语义相关度的数值是进行了 适当的归一化处理后的数值):

第四步,根据待分析答案词语集合中的待分析答案词语,在第三步所选 择得到的问答知识记录的基础上筛选出其包括的答案词语与待分析答案词语 匹配的问答知识记录,进而得到所筛选出的问答知识记录的语义相关度。经 分析可知,本例中与问答知识记录中的答案词语匹配的待分析答案词语包括: <口服,咳喘,小儿感冒颗粒,检查,止咳,治疗,流感症状,感冒颗粒>;

再计算上述待分析的问答对的相关联程度可以得出,该待分析的问答对 的相关联程度达到了0.9(在相关联程度取值范围为0~1的条件下);

根据相关联程度获取所述待分析问答对的搜索排名。本例仅以一个待分 析问答对的相关联程度为例,在搜索结果包括多个问答对的情况下,可以对 所述问答对从语义方面分别计算相关联程度,进而优化问答对的搜索排名, 从而使相关联程度高的搜索结果排名靠前。

需要说明的是:

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固 有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述, 构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定 编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容, 并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本 发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未 详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个 或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时 被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开 的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求 中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映 的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循 具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利 要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自 适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以 把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可 以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者 单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴 随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或 者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴 随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相 似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其 它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组 合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权 利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使 用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理 器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当 理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据 本发明实施例的优化问答对的搜索排名的装置中的一些或者全部部件的一 些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分 或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这 样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或 者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体 信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制, 并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实 施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要 求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于 元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以 借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在 列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个 硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。 可将这些单词解释为名称。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号