首页> 中国专利> 一种跨语言搜索中的网页排序方法和系统

一种跨语言搜索中的网页排序方法和系统

摘要

本发明提供了一种跨语言搜索中的网页排序方法及系统。该跨语言搜索中的网页排序方法包括:获取第一语言搜索请求;将第一语言搜索请求翻译成第二语言搜索请求;利用第二语言搜索请求搜索多个第二语言网页;将多个第二语言网页翻译成多个第一语言网页;根据多个第二语言网页的翻译置信度对多个第一语言网页进行排序。通过上述方式,根据翻译置信度对翻译后的搜索结果进行排序,进而提高了用户体验。

著录项

  • 公开/公告号CN102654867A

    专利类型发明专利

  • 公开/公告日2012-09-05

    原文格式PDF

  • 申请/专利权人 北京百度网讯科技有限公司;

    申请/专利号CN201110049883.1

  • 发明设计人 吴华;王海峰;

    申请日2011-03-02

  • 分类号G06F17/30(20060101);G06F17/28(20060101);

  • 代理机构深圳市威世博知识产权代理事务所(普通合伙);

  • 代理人何青瓦;李庆波

  • 地址 100085 北京市海淀区上地十街10号百度大厦2层

  • 入库时间 2023-12-18 08:10:40

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2013-12-11

    授权

    授权

  • 2012-10-31

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20110302

    实质审查的生效

  • 2012-09-05

    公开

    公开

说明书

技术领域

本发明涉及互联网领域,特别涉及一种跨语言搜索中的网页排序方 法及系统。

背景技术

随着网络搜索技术的不断发展,为克服用户的语言障碍,跨语言搜索 技术应运而生。在跨语言搜索(比如用中文搜索英文网页)时,首先,输 入中文的搜索请求,并将中文的搜索请求翻译成英文的搜索请求,再利用 英文的搜索请求搜索英文网页。然后,将搜索到的英文网页的内容翻译成 中文呈现给读者。在搜索结果呈现的过程中,一般需要进行排序。在现有 的跨语言搜索技术,主要通过英文的搜索请求与英文网页的相关度来进行 排序。然而,由于跨语言搜索进行了翻译过程,因此可能导致翻译质量较 差的结果排在前面,导致用户体验不佳。

发明内容

本发明所要解决的技术问题是提供一种跨语言搜索中的网页排序方法 及系统,以提高用户体验。

本发明为解决技术问题而采用的技术方案是提供一种跨语言搜索中的 网页排序方法,包括:a.获取第一语言搜索请求;b.将所述第一语言搜索 请求翻译成第二语言搜索请求;c.利用所述第二语言搜索请求搜索多个第 二语言网页;d.将所述多个第二语言网页翻译成多个第一语言网页;e.根 据所述多个第二语言网页的翻译置信度对所述多个第一语言网页进行排 序。

根据本发明之一优选实施例,在所述步骤e中,在排序后的所述多个第 一语言网页中,所述翻译置信度越高的所述第一语言网页的位置越靠前。

根据本发明之一优选实施例,所述步骤e包括:e1.获取翻译所述第二 语言网页时使用的双语语料库中的源语言语料;e2.利用所述源语言语料生 成语言模型;e3.利用所述语言模型计算所述第二语言网页的翻译困惑度; e4.根据所述翻译困惑度对所述多个第一语言网页进行排序。

根据本发明之一优选实施例,在所述步骤e4中,通过以下公式计算所 述翻译困惑度:

P=2-Σi=1Ip(xi)logp(xi)

其中,P为所述翻译困惑度,xi为所述第二语言网页中的第i个句子, 1≤i≤I,I为所述第二语言网页中的句子数量,p(xi)为通过所述语言模型计 算获得的xi的出现概率。

根据本发明之一优选实施例,所述语言模型为n-gram语言模型。

根据本发明之一优选实施例,所述步骤e包括:e1.统计所述第二语言 网页在翻译过程中的调序次数;e2.根据所述调序次数对所述多个第一语言 网页进行排序。

根据本发明之一优选实施例,所述步骤e包括:e1.获取翻译所述第二 语言网页时使用的双语语料库中的源语言语料;e2.将所述源语言语料聚类 成多个文档;e3.计算所述第二语言网页与所述多个文档的最大相似度;e4. 根据所述最大相似度对所述多个第一语言网页进行排序。

根据本发明之一优选实施例,在步骤e2中,从所述多个文档中获取多 个主题,并计算每一所述文档属于每一所述主题的概率,以形成多个第一 向量,在步骤e3中,计算所述第二语言网页属于每一所述主题的概率,以 形成第二向量,计算所述多个第一向量与所述第二向量的相似度,并选择 所述相似度中最大的作为所述最大相似度。

根据本发明之一优选实施例,在步骤e3中,根据如下公式计算所述最 大相似度:

H=maxm=1MΣn=1Np(tn|ds)×p(tn|dm)Σn=1N(p(tn|ds))2Σn=1N(p(tn|dm))2

其中,H为所述最大相似度,tn为第n个主题,1≤n≤N,N为所述主 题的数量,dm为第m个文档,1≤m≤M,M为所述文档的数量,p(tn|dm)为 dm属于tn的概率,ds为所述第二语言网页,p(tn|ds)为ds属于tn的概率。

根据本发明之一优选实施例,所述步骤e包括:e1.统计所述第二语言 网页在翻译过程中包含的未登录词的个数;e2.根据所述未登录词的个数对 所述多个第一语言网页进行排序。

根据本发明之一优选实施例,所述步骤e包括:e1.计算所述第二语言 网页在翻译过程中的平均翻译评分;e2.根据所述平均翻译评分对所述多个 第一语言网页进行排序。

根据本发明之一优选实施例,在步骤e1中,根据如下公式计算所述平 均翻译评分:

A=Σk=1Kscorek/K

其中,A为所述平均翻译评分,scorek为所述第二语言网页中的第k个 句子的翻译评分,1≤k≤K,K为所述第二语言网页中的句子数量。

根据本发明之一优选实施例,所述步骤e包括:e1.统计所述第二语言 网页在翻译过程中的规则使用次数;e2.根据所述规则使用次数对所述多个 第一语言网页进行排序。

本发明为解决技术问题而采用的技术方案是提供一种跨语言搜索中的 网页排序系统,包括:搜索请求获取单元,用于获取第一语言搜索请求; 第一翻译单元,用于将所述第一语言搜索请求翻译成第二语言搜索请求; 搜索单元,用于利用所述第二语言搜索请求搜索多个第二语言网页;第二 翻译单元,用于将所述多个第二语言网页翻译成多个第一语言网页;排序 单元,用于根据所述多个第二语言网页的翻译置信度对所述多个第一语言 网页进行排序。

根据本发明之一优选实施例,在经所述排序单元排序后的所述多个第 一语言网页中,所述翻译置信度越高的所述第一语言网页的位置越靠前。

根据本发明之一优选实施例,所述排序单元包括:源语言语料获取模 块,用于获取翻译所述第二语言网页时使用的双语语料库中的源语言语料; 语言模型生成模块,用于利用所述源语言语料生成语言模型;困惑度计算 模块,用于利用所述语言模型计算所述第二语言网页的翻译困惑度;排序 模块,用于根据所述翻译困惑度对所述多个第一语言网页进行排序。

根据本发明之一优选实施例,所述困惑度计算模块通过以下公式计算 所述翻译困惑度:

P=2-Σi=1Ip(xi)logp(xi)

其中,P为所述翻译困惑度,xi为所述第二语言网页中的第i个句子, 1≤i≤I,I为所述第二语言网页中的句子数量,p(xi)为通过所述语言模型计 算获得的xi的出现概率。

根据本发明之一优选实施例,所述语言模型为n-gram语言模型。

根据本发明之一优选实施例,所述排序单元包括:调序次数统计模块, 用于统计所述第二语言网页在翻译过程中的调序次数;排序模块,用于根 据所述调序次数对所述多个第一语言网页进行排序。

根据本发明之一优选实施例,所述排序单元包括:源语言语料获取模 块,用于获取翻译所述第二语言网页时使用的双语语料库中的源语言语料; 聚类模块,用于将所述源语言语料聚类成多个文档;相似度计算模块,用 于计算所述第二语言网页与所述多个文档的最大相似度;排序模块,用于 根据所述最大相似度对所述多个第一语言网页进行排序。

根据本发明之一优选实施例,所述聚类模块从所述多个文档中获取多 个主题,并计算每一所述文档属于每一所述主题的概率,以形成多个第一 向量,所述相似度计算模块计算所述第二语言网页属于每一所述主题的概 率,以形成第二向量,计算所述多个第一向量与所述第二向量的相似度, 并选择所述相似度中最大的作为所述最大相似度。

根据本发明之一优选实施例,所述相似度计算模块根据如下公式计算 所述最大相似度:

H=maxm=1MΣn=1Np(tn|ds)×p(tn|dm)Σn=1N(p(tn|ds))2Σn=1N(p(tn|dm))2

其中,H为所述最大相似度,tn为第n个主题,1≤n≤N,N为所述主 题的数量,dm为第m个文档,1≤m≤M,M为所述文档的数量,p(tn|dm)为 dm属于tn的概率,ds为所述第二语言网页,p(tn|ds)为ds属于tn的概率。

根据本发明之一优选实施例,所述排序单元包括:未登录词统计模块, 用于统计所述第二语言网页在翻译过程中包含的未登录词的个数;排序模 块,用于根据所述未登录词的个数对所述多个第一语言网页进行排序。

根据本发明之一优选实施例,所述排序单元包括:翻译评分计算模块, 用于计算所述第二语言网页在翻译过程中的平均翻译评分;排序模块,用 于根据所述平均翻译评分对所述多个第一语言网页进行排序。

根据本发明之一优选实施例,所述翻译评分计算模块根据如下公式计 算所述平均翻译评分:

A=Σk=1Kscorek/K

其中,A为所述平均翻译评分,scorek为所述第二语言网页中的第k个 句子的翻译评分,1≤k≤K,K为所述第二语言网页中的句子数量。

根据本发明之一优选实施例,所述排序单元包括:规则使用次数统计 模块,用于统计所述第二语言网页在翻译过程中的规则使用次数;排序模 块,用于根据所述规则使用次数对所述多个第一语言网页进行排序。

由以上技术方案可以看出,本发明提供的跨语言搜索中的网页排序方 法及系统根据翻译置信度对翻译后的搜索结果进行排序,进而提高了用户 体验。

附图说明

图1是本发明实施例的跨语言搜索中的网页排序方法的流程示意图;

图2是图1所示的跨语言搜索中的网页排序方法的排序过程的第一实 施方式的流程示意图;

图3是图1所示的跨语言搜索中的网页排序方法的排序过程的第二实 施方式的流程示意图;

图4是图1所示的跨语言搜索中的网页排序方法的排序过程的第三实 施方式的流程示意图;

图5是图1所示的跨语言搜索中的网页排序方法的排序过程的第四实 施方式的流程示意图;

图6是图1所示的跨语言搜索中的网页排序方法的排序过程的第五实 施方式的流程示意图;

图7是图1所示的跨语言搜索中的网页排序方法的排序过程的第六实 施方式的流程示意图;

图8是本发明实施例的跨语言搜索中的网页排序系统的示意框图;

图9是图8所示的跨语言搜索中的网页排序系统的排序单元的第一实 施方式的示意框图;

图10是图8所示的跨语言搜索中的网页排序系统的排序单元的第二实 施方式的示意框图;

图11是图8所示的跨语言搜索中的网页排序系统的排序单元的第三实 施方式的示意框图;

图12是图8所示的跨语言搜索中的网页排序系统的排序单元的第四实 施方式的示意框图;

图13是图8所示的跨语言搜索中的网页排序系统的排序单元的第五实 施方式的示意框图;

图14是图8所示的跨语言搜索中的网页排序系统的排序单元的第六实 施方式的示意框图。

具体实施方式

下面结合附图和实施例对本发明进行详细说明。

请参阅图1,图1是本发明实施例的跨语言搜索中的网页排序方法 的流程示意图。在本实施例中,该跨语言搜索中的网页排序方法主要包 括以下几个步骤:

在步骤S101中,获取第一语言搜索请求。在本步骤中,用户可通过在 浏览器的搜索框内输入想要搜索的第一语言搜索请求(Query),例如中文 的搜索请求,并点击搜索按钮。该第一语言搜索请求经互联网传输至搜索 引擎,并被搜索引擎所获取。

在步骤S102中,将第一语言搜索请求翻译成第二语言搜索请求。在本 步骤中,可通过本领域公知的各种机器翻译手段将第一语言搜索请求翻译 成第二语言搜索请求,例如,在利用中文搜索英文网页时,将中文的搜索 请求翻译成英文的搜索请求。具体的机器翻译手段可包括基于单词、基于 短语或句法的统计机器翻译等等。

在步骤S103中,利用第二语言搜索请求搜索多个第二语言网页。在本 步骤中,通过搜索引擎搜索与第二语言搜索请求相关的多个第二语言网页, 例如英文网页。

在步骤S104中,将多个第二语言网页翻译成多个第一语言网页。在本 步骤中,可通过上文提到的各种机器翻译手段将第二语言网页中的网页内 容翻译成第一语言,例如中文,进而实现跨语言搜索。

在步骤S105中,根据多个第二语言网页的翻译置信度对多个第一语言 网页进行排序。在本步骤中,在排序后的多个第一语言网页中,翻译置信 度越高的第一语言网页的位置越靠前,以将翻译质量好的网页结果优先提 供给用户,进而提高用户体验。在下文中将详细描述获得第二语言网页的 翻译置信度的多种实施方式,本领域技术人员完全可以想到将本领域公知 的其他翻译置信度获取方法应用到步骤S105。

请参阅图2,图2是图1所示的跨语言搜索中的网页排序方法的排序过 程的第一实施方式的流程示意图。本实施方式主要包括以下几个步骤:

在步骤S201中,获取翻译第二语言网页时使用的双语语料库中的源语 言语料。在机器翻译过程中,一般都利用双语语料库来训练翻译模型。该 双语语料库包括多个双语例句对,每一双语例句对包括源语言例句以及与 源语言例句对应的目标语言例句。在第二语言网页的翻译过程中,源语言 为第二语言,目标语言为第一语言。双语语料库在机器翻译领域中被普遍 使用,并可通过各种方式获得,在此不再赘述。

在步骤S202中,利用源语言语料生成语言模型,例如n-gram语言模型。

在步骤S203中,利用语言模型计算第二语言网页的翻译困惑度。具体 来说,对于由L个词w1,w2,...,wL组成一个句子xi,通过语言模型可以计算出 该句子的出现概率:

p(xi)=p(w1,w2,...,wL)=Πl=1Lp(wl|wl-n,...,wl-1)

其中,p(wl|wl-n,...,wl-1)表示词wl与前面的n个词wl-n,...,wl-1搭配的出现概 率,n为一正整数。例如,在2-gram语言模型中,n=2,在3-gram语言 模型中n=3。

对于包含有I个句子的第二语言网页来说,第二语言网页的翻译困惑度 可通过如下公式计算:

P=2-Σi=1Ip(xi)logp(xi)

其中,P为第二语言网页的翻译困惑度,xi为第二语言网页中的第i个 句子,1≤i≤I,I为第二语言网页中的句子数量,p(xi)为通过上述语言模型 计算获得的句子xi的出现概率。在翻译过程中,如果翻译困惑度越高,表 示翻译复杂度越高,其翻译置信度越低。

在步骤S204中,根据翻译困惑度对多个第一语言网页进行排序。其中, 在排序后的多个第一语言网页中,翻译困惑度越高的第一语言网页的位置 越靠后。

请参阅图3,图3是图1所示的跨语言搜索中的网页排序方法的排序过 程的第二实施方式的流程示意图。本实施方式主要包括以下几个步骤:

在步骤S301中,统计第二语言网页在翻译过程中的调序次数。在翻译 过程中,需要对源语言句子中的词或短语的翻译顺序进行调整,这种调整 即为调序。调序次数越多,表示翻译复杂度越高,其翻译置信度就越低。

在步骤S302中,根据调序次数对多个第一语言网页进行排序。其中, 在排序后的多个第一语言网页中,调序次数越多的第一语言网页的位置越 靠后。

请参阅图4,图4是图1所示的跨语言搜索中的网页排序方法的排序过 程的第三实施方式的流程示意图。本实施方式主要包括以下几个步骤:

在步骤S401中,获取翻译第二语言网页时使用的双语语料库中的源语 言语料。

在步骤S402中,将源语言语料聚类成多个文档。具体来说,利用聚类 算法对源语言语料中的句子进行聚类,然后把每个类的句子集合到一个文 档,进而形成多个文档。随后,利用概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)或其他算法从该多个文档中获取多个主题,并计 算每一文档属于每一主题的概率,以形成多个第一向量:

Vec(dm)=(p(t1|dm),p(t2|dm),...p(tn|dm),...,p(tN|dm)),

其中,tn为第n个主题,1≤n≤N,N为主题的数量,dm为第m个文档, 1≤m≤M,M为文档的数量,p(tn|dm)为文档dm属于主题tn的概率。

在步骤S403中,计算第二语言网页与多个文档的最大相似度。具体来 说,计算第二语言网页属于每一主题的概率,以形成第二向量:

Vec(ds)=(p(t1|ds),p(t2|ds),...p(tn|ds),...,p(tN|ds))

其中,ds为第二语言网页,p(tn|ds)为第二语言网页ds属于主题tn的 概率。

随后,计算多个第一向量与第二向量的相似度,并选择相似度中最大 的作为最大相似度。具体相似度计算公式可以是:

H=maxm=1MΣn=1Np(tn|ds)×p(tn|dm)Σn=1N(p(tn|ds))2Σn=1N(p(tn|dm))2

其中,H为最大相似度。最大相似度越高,代表翻译质量越高,表示 翻译置信度就越高。

在步骤S404中,根据最大相似度H对多个第一语言网页进行排序。其 中,在排序后的多个第一语言网页中,最大相似度越高的第一语言网页的 位置越靠前。

请参阅图5,图5是图1所示的跨语言搜索中的网页排序方法的排序过 程的第四实施方式的流程示意图。本实施方式主要包括以下几个步骤:

在步骤S501中,统计第二语言网页在翻译过程中包含的未登录词的个 数。未登录词是指没有被收录在源语言语料中的词,包括各类专有名词(人 名、地名、机构名等)、缩写词、新增词汇等等。在机器翻译过程中,未登 录词越多,代表翻译质量越差,其翻译置信度就越低。

在步骤S502中,根据未登录词的个数对多个第一语言网页进行排序。 其中,在排序后的多个第一语言网页中,未登录词的个数越多的第一语言 网页的位置越靠后。

请参阅图6,图6是图1所示的跨语言搜索中的网页排序方法的排序过 程的第五实施方式的流程示意图。本实施方式主要包括以下几个步骤:

在步骤S601中,计算第二语言网页在翻译过程中的平均翻译评分。具 体来说,根据如下公式计算第二语言网页的平均翻译评分:

A=Σk=1Kscorek/K

其中,A为第二语言网页的平均翻译评分,scorek为第二语言网页中的 第k个句子的翻译评分,1≤k≤K,K为第二语言网页中的句子数量。在本 步骤中,可通过本领域公知的翻译评价方法来确定每个句子的翻译评分, 例如归一化的句子翻译概率等自动评价方法。平均翻译评分越高,代表翻 译质量越高,表示翻译置信度就越高。

在步骤S602中,根据平均翻译评分对多个第一语言网页进行排序。其 中,在排序后的多个第一语言网页中,平均翻译评分越高的第一语言网页 的位置越靠前。

请参阅图7,图7是图1所示的跨语言搜索中的网页排序方法的排序过 程的第六实施方式的流程示意图。本实施方式主要包括以下几个步骤:

在步骤S701中,统计第二语言网页在翻译过程中的规则使用次数。在 机器翻译领域中往往会制定一定的翻译规则,例如针对特定短语的翻译规 则。在机器翻译过程中,使用规则的次数越多,代表翻译质量越差,其翻 译置信度就越低。

在步骤S702中,根据规则使用次数对多个第一语言网页进行排序。其 中,在排序后的多个第一语言网页中,规则使用次数越多的第一语言网页 的位置越靠后。

上述第一至第四实施方式是从第二语言网页的源语言端获取表示翻译 置信度的特征,第五至第六实施例是从第二语言网页的翻译模型或翻译结 果获取表示翻译置信度的特征。当然,本领域技术人员完全可以通过其他 方式获取表示翻译置信度的其他特征。

进一步,本领域技术人员阅读上述内容后完全可以想到将上文描述的 表示翻译置信度的各种特征进行结合,例如使用回归学习(regression learning)方法将包括上述多个特征的特征向量映射成一个实数,进而形成 一个综合上述特征的翻译置信度。上述过程可使用公知的工具实现,例如, SVM-light工具。

此外,在获得翻译置信度后,还可以把翻译置信度作为一个特征与本 领域公知的其他排序方法进行结合,例如learning to rank或PageRank方法。

请参阅图8,图8是本发明实施例的跨语言搜索中的网页排序系统 的示意框图。在本实施例中,该跨语言搜索中的网页排序系统主要包括 搜索请求获取单元801、第一翻译单元802、搜索单元803、第二翻译单 元804以及排序单元805。

搜索请求获取单元801用于获取第一语言搜索请求。用户可通过在浏 览器的搜索框内输入想要搜索的第一语言搜索请求(Query),例如中文的 搜索请求,并点击搜索按钮。该第一语言搜索请求经互联网传输至搜索请 求获取单元801,并被搜索请求获取单元801所获取。

第一翻译单元802用于将第一语言搜索请求翻译成第二语言搜索请求。 第一翻译单元802可通过本领域公知的各种机器翻译手段将第一语言搜索 请求翻译成第二语言搜索请求,例如,在利用中文搜索英文网页时,将中 文的搜索请求翻译成英文的搜索请求。具体的机器翻译手段可包括基于单 词、基于短语或句法的统计机器翻译等等。

搜索单元803用于利用第二语言搜索请求搜索多个第二语言网页。搜 索单元803通过本领域公知的各种搜索引擎技术搜索与第二语言搜索请求 相关的多个第二语言网页,例如英文网页。

第二翻译单元804用于将多个第二语言网页翻译成多个第一语言网页。 第二翻译单元804可通过上文提到的各种机器翻译手段将第二语言网页中 的网页内容翻译成第一语言,例如中文,进而实现跨语言搜索。在本实施 方式中,第一翻译单元802和第二翻译单元804可由同一翻译单元或不同 的翻译单元实现。

排序单元805用于根据多个第二语言网页的翻译置信度对多个第一语 言网页进行排序。在经排序单元805排序后的多个第一语言网页中,翻译 置信度越高的第一语言网页的位置越靠前,以将翻译质量好的网页结果优 先提供给用户,进而提高用户体验。在下文中将详细描述获得第二语言网 页的翻译置信度的多种实施方式,本领域技术人员完全可以想到将本领域 公知的其他翻译置信度获取方法应用到排序单元805。

请参阅图9,图9是图8所示的跨语言搜索中的网页排序系统的排序单 元805的第一实施方式的示意框图。本实施方式的排序单元805主要包括 源语言语料获取模块901、语言模型生成模块902、困惑度计算模块903以 及排序模块904。

源语言语料获取模块901用于获取翻译第二语言网页时使用的双语语 料库中的源语言语料。在机器翻译过程中,一般都利用双语语料库来训练 翻译模型。该双语语料库包括多个双语例句对,每一双语例句对包括源语 言例句以及与源语言例句对应的目标语言例句。在第二语言网页的翻译过 程中,源语言为第二语言,目标语言为第一语言。双语语料库在机器翻译 领域中被普遍使用,并可通过各种方式获得,在此不再赘述。

语言模型生成模块902用于利用源语言语料生成语言模型,例如n-gram 语言模型。

困惑度计算模块903用于利用语言模型计算第二语言网页的翻译困惑 度。具体来说,对于由L个词w1,w2,...,wL组成一个句子xi,通过语言模型可 以计算出该句子的出现概率:

p(xi)=p(w1,w2,...,wL)=Πl=1Lp(wl|wl-n,...,wl-1)

其中,p(wl|wl-n,...,wl-1)表示词wl与前面的n个词wl-n,...,wl-1搭配的出现概 率,n为一正整数。例如,在2-gram语言模型中,n=2,在3-gram语言 模型中n=3。

对于包含有I个句子的第二语言网页来说,第二语言网页的翻译困惑度 可通过如下公式计算:

P=2-Σi=1Ip(xi)logp(xi)

其中,P为第二语言网页的翻译困惑度,xi为第二语言网页中的第i个 句子,1≤i≤I,I为第二语言网页中的句子数量,p(xi)为通过上述语言模型 计算获得的句子xi的出现概率。在翻译过程中,如果翻译困惑度越高,表 示翻译复杂度越高,其翻译置信度越低。

排序模块904用于根据翻译困惑度对多个第一语言网页进行排序。其 中,在经排序模块904排序后的多个第一语言网页中,翻译困惑度越高的 第一语言网页的位置越靠后。

请参阅图10,图10是图8所示的跨语言搜索中的网页排序系统的排序 单元805的第二实施方式的示意框图。本实施方式的排序单元805主要包 括调序次数统计模块1001以及排序模块1002。

调序次数统计模块1001用于统计第二语言网页在翻译过程中的调序次 数。在翻译过程中,需要对源语言句子中的词或短语的翻译顺序进行调整, 这种调整即为调序。调序次数越多,表示翻译复杂度越高,其翻译置信度 就越低。

排序模块1002用于根据调序次数对多个第一语言网页进行排序。其中, 在经排序模块1002排序后的多个第一语言网页中,调序次数越多的第一语 言网页的位置越靠后。

请参阅图11,图11是图8所示的跨语言搜索中的网页排序系统的排序 单元805的第三实施方式的示意框图。本实施方式的排序单元805主要包 括源语言语料获取模块1101、聚类模块1102、相似度计算模块1103以及排 序模块1104。

源语言语料获取模块1101用于获取翻译第二语言网页时使用的双语语 料库中的源语言语料。

聚类模块1102用于将源语言语料聚类成多个文档。具体来说,聚类模 块1102利用聚类算法对源语言语料中的句子进行聚类,然后把每个类的句 子集合到一个文档,进而形成多个文档。随后,聚类模块1102利用概率潜 在语义分析(Probabilistic Latent Semantic Analysis,PLSA)或其他算法从该 多个文档中获取多个主题,并计算每一文档属于每一主题的概率,以形成 多个第一向量:

Vec(dm)=(p(t1|dm),p(t2|dm),...p(tn|dm),...,p(tN|dm)),

其中,tn为第n个主题,1≤n≤N,N为主题的数量,dm为第m个文档, 1≤m≤M,M为文档的数量,p(tn|dm)为文档dm属于主题tn的概率。

相似度计算模块1103计算第二语言网页与多个文档的最大相似度。具 体来说,相似度计算模块1103计算第二语言网页属于每一主题的概率,以 形成第二向量:

Vec(ds)=(p(t1|ds),p(t2|ds),...p(tn|ds),...,p(tN|ds))

其中,ds为第二语言网页,p(tn|ds)为第二语言网页ds属于主题tn的 概率。

随后,相似度计算模块1103计算多个第一向量与第二向量的相似度, 并选择相似度中最大的作为最大相似度。具体相似度计算公式可以是:

H=maxm=1MΣn=1Np(tn|ds)×p(tn|dm)Σn=1N(p(tn|ds))2Σn=1N(p(tn|dm))2

其中,H为最大相似度。最大相似度越高,代表翻译质量越高,表示 翻译置信度就越高。

排序模块1104用于根据最大相似度H对多个第一语言网页进行排序。 其中,在经排序模块1104排序后的多个第一语言网页中,最大相似度越高 的第一语言网页的位置越靠前。

请参阅图12,图12是图8所示的跨语言搜索中的网页排序系统的排序 单元805的第四实施方式的示意框图。本实施方式的排序单元805主要包 括未登录词统计模块1201以及排序模块1202。

未登录词统计模块1201用于统计第二语言网页在翻译过程中包含的未 登录词的个数。未登录词是指没有被收录在源语言语料中的词,包括各类 专有名词(人名、地名、机构名等)、缩写词、新增词汇等等。在机器翻译 过程中,未登录词越多,代表翻译质量越差,其翻译置信度就越低。

排序模块1202用于根据未登录词的个数对多个第一语言网页进行排 序。其中,在经排序模块1202排序后的多个第一语言网页中,未登录词的 个数越多的第一语言网页的位置越靠后。

请参阅图13,图13是图8所示的跨语言搜索中的网页排序系统的排序 单元805的第五实施方式的示意框图。本实施方式的排序单元805主要包 括翻译评分计算模块1301以及排序模块1302。

翻译评分计算模块1301用于计算第二语言网页在翻译过程中的平均翻 译评分。具体来说,翻译评分计算模块1301根据如下公式计算第二语言网 页的平均翻译评分:

A=Σk=1Kscorek/K

其中,A为第二语言网页的平均翻译评分,scorek为第二语言网页中的 第k个句子的翻译评分,1≤k≤K,K为第二语言网页中的句子数量。翻译 评分计算模块1301可通过本领域公知的翻译评价方法来确定每个句子的翻 译评分,例如归一化的句子翻译概率等自动评价方法。平均翻译评分越高, 代表翻译质量越高,表示翻译置信度就越高。

排序模块1302用于根据平均翻译评分对多个第一语言网页进行排序。 其中,在经排序模块1302排序后的多个第一语言网页中,平均翻译评分越 高的第一语言网页的位置越靠前。

请参阅图14,图14是图8所示的跨语言搜索中的网页排序系统的排序 单元805的第六实施方式的示意框图。本实施方式的排序单元805主要包 括规则使用次数统计模块1401以及排序模块1402。

规则使用次数统计模块1401用于统计第二语言网页在翻译过程中的规 则使用次数。在机器翻译领域中往往会制定一定的翻译规则,例如针对特 定短语的翻译规则。在机器翻译过程中,使用规则的次数越多,代表翻译 质量越差,其翻译置信度就越低。

排序模块1402用于根据规则使用次数对多个第一语言网页进行排序。 其中,在经排序模块1402排序后的多个第一语言网页中,规则使用次数越 多的第一语言网页的位置越靠后。

上述第一至第四实施方式是从第二语言网页的源语言端获取表示翻译 置信度的特征,第五至第六实施例是从第二语言网页的翻译模型或翻译结 果获取表示翻译置信度的特征。当然,本领域技术人员完全可以通过其他 方式获取表示翻译置信度的其他特征。

进一步,本领域技术人员阅读上述内容后完全可以想到将上文描述的 表示翻译置信度的各种特征进行结合,例如使用回归学习(regression learning)方法将包括上述多个特征的特征向量映射成一个实数,进而形成 一个综合上述特征的翻译置信度。上述过程可使用公知的工具实现,例如, SVM-light工具。

此外,在获得翻译置信度后,还可以把翻译置信度作为一个特征与本 领域公知的其他排序方法进行结合,例如learning to rank或PageRank方法。

由以上技术方案可以看出,本发明提供的跨语言搜索中的网页排序方 法及系统根据翻译置信度对翻译后的搜索结果进行排序,进而提高了用户 体验。

在上述实施例中,仅对本发明进行了示范性描述,但是本领域技术人 员在阅读本专利申请后可以在不脱离本发明的精神和范围的情况下对本发 明进行各种修改。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号