首页> 中国专利> 交叉语言信息检索装置和方法

交叉语言信息检索装置和方法

摘要

本发明提供了交叉语言信息检索装置和方法。机器翻译部分将输入部分输入的检索请求机器翻译成与检索目标文件相同的语言。直译部分将检索请求内机器翻译部分没能翻译的表音符号转换成与检索目标文件相同的语言内的表音符号。检索部分根据机器翻译部分产生的检索词和直译部分提供的检索词从文件数据库中检索包括这些检索词的文件。

著录项

  • 公开/公告号CN1448868A

    专利类型发明专利

  • 公开/公告日2003-10-15

    原文格式PDF

  • 申请/专利权人 株式会社东芝;

    申请/专利号CN03108384.6

  • 发明设计人 酒井哲也;

    申请日2003-03-28

  • 分类号G06F17/30;

  • 代理机构中国国际贸易促进委员会专利商标事务所;

  • 代理人吴丽丽

  • 地址 日本东京都

  • 入库时间 2023-12-17 15:01:15

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2009-05-27

    专利权的终止(未缴年费专利权终止)

    专利权的终止(未缴年费专利权终止)

  • 2006-04-26

    授权

    授权

  • 2003-12-17

    实质审查的生效

    实质审查的生效

  • 2003-10-15

    公开

    公开

说明书

相关申请的交叉引用

本申请基于2002年3月28日递交的在先日本专利申请No.2002-092925,并要求享受该日本专利申请的优先权,该日本专利申请的全部内容在此列为参考予以引用。

技术领域

本发明涉及在检索请求的语言与检索目标文件的语言相互不同时实现检索的交叉语言信息检索系统(cross-language informationretrieval system)。

背景技术

最近几年中,业已增加了对交叉语言信息检索的需要,例如用日语检索英语文件,或者用英语从包括法语、德语或西班牙语文件的数据库中进行检索。

上述应用的方法大致可以分为以下(1)至(3)三类:

(1)将检索请求翻译成检索目标的语言;

(2)将检索目标翻译成检索请求的语言;

(3)将检索请求和检索目标转换为不取决于语言的中间表示方式。

实际上,主要应用的是翻译成本低的(1)。

作为翻译检索请求的主要资源,有(a)机器翻译、(b)双语词表和(c)平行语言资料库。(c)包括大量的文件数据及其双语文献,双语资料必须用统计技术之类从中提取,但是完全自动获得的双语资料不一定高度可靠。

(b)是一种机械地接入一个日英词典的方法,例如在输入检索请求“情報,検索”时,对每个词执行象“情報→information”或“検索→search”那样的替换,再根据“information,search”执行检索。

然而,在这样按照每个词得到一个对等词时,就不能实现考虑语境的翻译。例如,在以上情况下,获取进一步的适当检索条件“information,retrieval”就可能会失败。

虽然很难开发一种机器翻译系统(a),可以通过输入一个母语句子作为检索请求分析和翻译整个句子,但是通常可以认为与(b)或(c)相比较可以得到更为正确的翻译。本发明涉及利用(1)检索请求翻译和(a)机器翻译的交叉语言信息检索方法。

然而,无论机器翻译系统多么有效,没有登录在机器翻译词典内的词,例如新流行的字、技术名词或公司名称,是不能成功翻译的。

例如,母语为英语的用户输入一个技术名词“instanton”作为检索请求,如果机器翻译没能将这个词翻译成一个日语对等词就不能实现对日语文件的检索。相反,如果一个日本用户输入“ィンスタントン”,如果机器翻译没能将这个词翻译成英语的对等词就不能实现对英语文件的检索。

如上所述,作为一种众所周知的被认为适合于翻译词典外的词的技术,是直译。例如,对于日语和英语来说,这种技术预先准备了表音符号(phonogram)的基本对应关系,例如“ィン←→in”、“ン←→n”和“トン←→ton”,再根据它们的组合实现例如“instanton→ィンスタントン”或“ィンスタントン→instanton”的转换。

例如,作为一种实现的方法,有日本专利申请特开公开No.1997-69109“文件检索方法和文件检索装置”(“document retrievalmethod and document retrieval apparatus”)。这个公开文件揭示了一种实现在根据日语检索请求执行对日语文件的检索时自动执行例如对“ィンスタントン→instanton”的直译的具体直译的方法,假设一个申请用两个检索字“ィンスタントン”和“instanton”而不是只用片假名字符串“ィンスタントン”提取,同时允许这个词以英语按照原样出现在日语文件中。

然而,在由本发明处理的交叉语言检索的环境中,很难只用直译处理检索请求的翻译。例如,在用日语提取一个英语文件时,直译只能用于在检索请求内的片假名词。

发明内容

因此,本发明的一个目的是在一个在检索请求的语言与检索目标文件的语言不同时实现检索的交叉语言信息检索系统内以实现检索请求的准确和可靠的翻译,从而也实现高度准确的交叉语言检索。

按照本发明的一个实施例,提供了一种在检索请求的第一语言与检索目标文件的语言不同时实现文件检索的交叉语言信息检索装置,这种设备包括:一个存储含有各检索词的诸文件的文件数据库,按照多个检索词存储每个文件;一个输入检索请求的输入装置;一个机器翻译装置,用来将输入装置输入的检索请求翻译成与检索目标文件关联的第二语言和以检索目标文件的语言产生第一检索词;一个直译装置,用来将检索请求内的机器翻译设备不能翻译的一个表音符号转换成与检索目标文件关联的第二语言内的一个表音符号,以检索目标文件的语言提供一个结果作为第二检索词;以及一个检索装置,用来从文件数据库提取包括第一检索词和第二检索词的文件。

附图说明

图1为示出按照本发明设计的交叉语言检索系统的一个实施例的结构的示意图;

图2为示出第一实施例内翻译部分的处理的例子的流程图;

图3为示出第一实施例内直译部分的处理的例子的流程图;

图4A和4B为示出直译部分所用的转换规则的数据结构的例子的示意图;

图5为示出第一实施例内检索部分14的处理的例子的流程图;

图6为示出检索部分得到的检索结果的例子的示意图;

图7示出了按照本发明设计的交叉语言检索系统的第二实施例的结构;

图8为示出第二实施例内翻译部分的处理的例子的流程图;

图9为示出第二实施例内直译部分的处理的例子的流程图;

图10为示出在第一实施例中在将机器翻译结果和直译结果给用户判别、比较从中选择检索词时的屏幕显示例子的示意图;以及

图11为示出在第二实施例中在将机器翻译结果和直译结果给用户判别、比较从中选择检索词时的屏幕显示例子的示意图。

具体实施方式

下面将说明本发明的一些实施例,但这并不对本发明的设备和方法有所限制。

图1示出了按照本发明设计的交叉语言检索系统的一个实施例的结构。

这个设备包括输入部分11、输出部分12、登录部分13、检索部分14、翻译部分15和直译部分16。

在这里,输入部分11和输出部分12相应于计算机的用户接口,硬件上相当于诸如键盘或鼠标之类的输入装置和诸如计算机显示器之类的输出装置。另一方面,登录部分13、检索部分14、翻译部分15和直译部分16相应于计算机的程序。

下面将首先说明这个设备的整个处理流程的概况,然后再说明一些主模块的处理流程。

整个处理流程

象一个常规的情检索系统那样,登录部分13事先读出作为检索目标的文件数据17,对文件进行分析,生成一个文件数据库(索引)18。文件数据17包括多个文件。作为这样的文件,包括在诸如科学、医学、娱乐、体育之类的任何技术领域内的文件,可以是报纸或专利刊物之类。登录部分13检测在每个文件内包括的检索词(关键词),生成指出每个检索词包括在哪个文件内的文件数据库18。在文件数据库18内,含有检索词的文件的文件ID按照多个检索词登记到一个表。在有些情况下,多个文件可以含有相同的检索词。在这种情况下,在用一个检索词对文件数据库18执行检索时,就会提供多个文件作为检索结果。

用户将一个任意的检索请求输入输入部分11。这个检索请求是一个母语句子,或者一个词组或词。在这里,由于假设是交叉语言检索,因此在文件数据17例如是用英语写的时,用户的检索请求是以一种语言,例如是日语,而不是英语输入。

输入的检索请求首先传送到翻译部分15。翻译部分15试图对检索请求进行机器翻译,产生检索词。此时,只将没能翻译的部分传送给直译部分16。这里,机器翻译包括日语到英语的翻译、英语到日语的翻译,或者从任何其他语言到另一种语言的翻译。直译部分16通过直译以与文件数据相同的语言产生检索词。最后,检索部分14从翻译部分15和直译部分16接收检索词,在文件数据库18内进行检索,将结果传送给输出部分12。

下面将对作为本发明核心的翻译部分15、直译部分16和检索部分14的处理进行详细说明。

翻译部分15的处理流程

图2示出了在第一实施例内翻译部分15的处理流程的例子。

从输入部分11接收到检索请求后,翻译部分15就对这个检索请求执行机器翻译(S101,S102)。例如,在检索请求以日语词组“ィンスタントンが実在すゐ証”的形式给出而文件数据17是用英语写的时,检索请求就由日语到英语的机器翻译进行翻译。

然后,可能从机器翻译得到一个指出原始语言和翻译语言的对应关系的数据结构,例如“(ィンスタントン:[词典外的词]),(実在:exist),(証:evidence)”。顺便说一下,在这个例子中假设词“ィンスタントン”没能翻译,因为它没有登入机器翻译词典19。

在上述情况下,翻译部分15将字符串“ィンスタントン”作为没能翻译的部分传送给直译部分16(S103)。然后,将对等词“existence”和“evidence”作为成功翻译的部分传送给检索部分14作为检索词(S104)。

直译部分16的处理流程

图3示出了在第一实施例内直译部分16的处理流程的例子。

从翻译部分15接收到一个字符串后,直译部分16从这个字符串中只提取一个表音符号串(S201,S202)。在说明翻译部分15时所提供的这个例子中,字符串“ィンスタントン”传送给直译部分16,但这是一个不包括汉字之类的作为一个整体的表音符号串,从而成为按照原样直译的目标。在日语到英语转换的情况下,直译部分16从输入的字符串中提取片假名作为转换目标。

在这种情况下,直译部分16用稍后将说明的转换规则20等将表音符号串“ィンスタントン”转换成与文件数据17相同的语言内的表音符号串(S203)。例如,在文件数据17是用英语写的时,将“ィンスタントン”转换成“instanton”之类。最后,直译部分16将转换结果提供给检索部分14(S204)。

在本发明中,对直译技术并没有限制,例如可以采用如在上面提到的日本专利申请特开公开No.1997-69109中所揭示的技术。这里,将说明直译技术的一个例子,但这本身并不是本发明的核心。

图4A和4B示出了直译部分16所用的转换规则20的数据结构的例子。

图4A示出了将一个英语字符串转换成一个日语片假名字符串的规则的例子,图4B示出了将日语片假名字符串转换成英语字符串的规则的例子。

例如,图4A中的第一个词条给出了字符串“web”转换成“ウエブ”的概率为0.9而转换成“ウエッブ”的概率为0.1的信息。

此外,第三个词条给出字符串“sta”转换成“スタ”的概率为0.7而转换成“スティ”的概率为0.3的信息。(这是因为例如“sta”在“stack”或“statistic”内发音如“スタ”,而“sta”在“station”之类内发音如“スティ”)。相反,图4B中第二个词条给出字符串“サィト”转换成“site”的概率为0.6、转换成“cite”的概率为0.2和转换成“sight”的概率为0.2的信息。

这样的规则必须事先制定。例如,在采用如图4A所示的转换规则的情况下,在提供了一个字符串“website”时,直译部分16首先将它分解成“web”和“site”,再用转换规则核对。因此,可以得到转换结果“ウエブサィト”和“ウエッブサィト”。

此外,根据在转换规则中给出的“ウエブ”、“ウエッブ”和“サィト”的概率,通过计算每个转换结果的出现概率(实际用的转换结果的概率),例如为0.9×1.0=0.9和0.1×1.0=0.1,就很容易为多个转换结果提供各自的优先等级。而且,通常可以按概率次序输出一个或几个转换结果。

同样,如果采用如图4B所示的转换规则,在提供了一个字符串“ィンスタントン”时,根据图4B中的第三个词条和其他词条按优先等级可以得到诸如“instanton”、“imstanton”和“innstanton”之类的候选词。

检索部分14的处理流程

图5示出了在第一实施例内检索部分14的处理流程的例子。

检索部分14从翻译部分15和直译部分16接收检索词(S301,S302)。在说明翻译部分15所给出的例子中,从翻译部分15得到“exist”和“evidence”和从直译部分16得到“instanton”(“imstanton”,“innstanton”)。于是,将这些词认为是检索词,生成检索条件,执行检索,将检索结果提供给输出部分12(S303至S305)。

作为一种变型,可以分别执行用翻译部分15给出的检索词的检索和用直译部分16给出的检索词的检索,再将两个检索结果合并在一起,从而最后得到一个检索结果。具体地说,例如可以考虑根据在两个检索结果内的文件得分的和或平均值得出各个文件得分。

图6示出了检索结果的例子。

在这个例子中,检索部分14首先从文件数据库18提取一个包括“exist”的文件。在有命中时(在存在一个包括“exist”的文件时),记录这个文件的文件ID和在同一个文件有多个命中的情况下将文件内的命中数乘以例如10点所得到的点值。对于“evidence”、“instanton”、“imstanton”和“innstanton”,同样录取命中文件的文件ID和这个文件的点值。然后,检索部分14a录取将各个命中文件得到的点值相加后得到的值作为得分。最后,检索部分14按照这些得分确定这些文件的优先级,按照得分排列命中文件的文件ID(或文件名),再将结果提供给输出部分12。

采用上述处理,由于直译(transliteration)在机器翻译没能翻译词典外的词时起着一个备用机制的作用,因此有可能实现高度准确的检索请求翻译和高度准确的交叉语言检索。

下面将说明按照本发明设计的第二实施例。图7示出了按照这个实施例设计的交叉语言检索系统。

在这个实施例中交叉语言检索系统的结构与第一实施例不同的是用户输入的检索请求从输入部分11同时提供给翻译部分15和直译部分16。下面将就差别进行说明。

翻译部分15的处理流程

图8示出了在这个实施例中翻译部分15b的处理流程的例子。

翻译部分15b从输入部分11接收检索请求后,用机器翻译进行翻译(S401,S402)。然后,将成功翻译部分的对等部分提供给检索部分14b(S403)。如稍后要详细说明的那样,在为用户显示对等信息时,也将对等信息提供给输出部分12。

例如,如果作为检索请求给出的是英语词组“Risk factors ofheart diseases”而要执行对日语文件的搜索,假设机器翻译内部得到一个数据结构“(risk factor:危険因子),(heart disease:心疾患)”。此时,翻译部分15b就将“危険因子”和“心疾患”提供给检索部分14b作为检索词。

直译部分16的处理流程

图9示出了在第二实施例内直译部分16b的处理流程的例子。

直译部分16b从输入部分11接收到检索请求后,从这个检索请求中只提取表音符号串(S501,S502)。在上面提到的“Risk factorsof heart diseases”的例子中,由于整个输入是英语词组,因此所有的词都是表音符号串。因此,对诸如“risk”、“factor”、“heart”和“disease”各词用就第一实施例说明的转换规则执行直译(S503)。注意,诸如“of”之类的前置词、冠词、连接词等可以通过与一个称为“无用词表”的表进行对照后予以删除。此外,在这个例子中规定机械地剔除添加在每个词未端的“s”。

例如,假设通过直译对于“risk”、“factor”和“heart”得到正确的转换结果“リスク”、“ファクタ”和“ハ-ト”,但是对于“disease”得到一个错误的转换结果“ディシ-セ”。(例如,可以认为这个结果是由转换规则“di:ディ”、“sea:シ-”和“se:セ”得出的。)很难保证这样直译会得到一个正确的转换结果,但是直译部分16b将所有得到的转换结果(“リスク”,“ファクタ”,“ハ-ト”,“ディシ-セ”)全部提供给检索部分14b作为检索词(S504)。

虽然检索部分14b的处理流程与在第一实施例中的相同,但是不但从翻译部分15b获得“危険因子”和“心疾患”而且可以从直译部分16b获得“リスク”、“ファクタ”、“ハ-ト”和“ディシ-セ”,因此检索部分14b用所有的这些词执行搜索。

这里,假设文件数据库18内有一个日语文件与英语检索请求“Risk factors of heart diseases”匹配,在这个文件中出现词语“心疾患のリスクファクタ”但是没有出现词语“危険因子”。

在这种情况下,采用第一实施例的方法从翻译部分得到一个内部数据结构“(risk factor:危険因子),(heart disease:心疾患)”,而不检测词典外的词。因此,直译部分16b不操作。

也就是说,只用“危険因子”和“心疾患”执行搜索。因此,有可能在检索结果的顶上出现一个大量含有“危険因子”和“心疾患”的文件而不是含有词语“心疾患のリスクファクタ”的适当文件。

但是,由于在这个实施例中无论机器翻译是否能翻译都执行直译,因此在检索结果的上部会出现一个适当的文件。

应当注意的是,如果检索是根据一个诸如在以上例子中的“ディシ-セ”之类的不适当的转换结果执行的,那么在很多情况下这样的词不能命中实际文件。因此,可以认为这种对检索准确性有不利影响的可能性是很小的。

基于优先级产生检索条件

此外,在第一和第二实施例中,检索部分14可以判定机器翻译结果和直译结果的优先级,将这个优先级反映给检索条件。例如,如果结合第一实施例说明的每个转换结果的出现概率仅仅是一个固定值,那么检索词在转换结果后的权重就可能降低。

具体地说,如果输入的检索请求是用英语写的,文件数据是用日语写的,而转换规则如图4A所示,那么可以得到字符串“website”转换成字符串“ウエブサィト”的出现概率为0.9×1.0=0.9。因此,转换结果“ウエブサィト”的可靠性可以认为是高的。在这种情况下,转换结果的检索词权重等于机器翻译结果的检索词权重。

相反,如果输入检索请求是用日语写的,文件数据是用英语写的,而转换规则如图4B所示的那样,那么得到字符串“ウエブサィト”转换成“website”的出现概率为0.8×0.6=0.48。在这种情况下,直译得到的“website”的检索词权重与机器翻译得到的检索词权重相比是降低了。通常,由于在执行从片假名逆转换成英语时模糊度比在从英语转换成片假名时高,因此可靠性趋于比较低。

此外,在第二实施例中,在对于同一个词得到机器翻译、直译两个结果时,也可以考虑按照直译结果的出现概率采用其中一个结果作为检索词。

为用户显示/由用户选择

此外,在第一和第二实施例中,可以将机器翻译的结果和直译的结果给用户判别和比较,用户因此可以进行选择。

图10示出了在将机器翻译结果和直译结果给用户判别和比较从而使用户可以从中选择一个结果作为检索词时的屏幕的显示例子。

在这个例子中,假设用户输入日语检索请求“ィンスタントンが実在すゐ証”,而所检索的的英语文件。

在一个“机器翻译结果”的面板上“実在”和“証”分别被译成检索词“exist”和“evidence”,但是斜线指出“ィンスタントン”不能翻译。在这里,诸如作为与“証”相应的检索词的“proof”之类的对等词可以显示为一个具有低优先级的检索词。在屏栏“直译结果”内,按优先等级次序(即出现概率的次序)显示与“ィンスタントン”相应的多个直译结果。

用户可以很容易通过操作为各候选检索词给出的复选框确定采用哪个检索词。在图10这种情况下,用作为直译结果的“instanton”和作为机器翻译结果的“exist”和“evidence”三个检索词执行对英语文件的搜索。

图11示出了在将机器翻译结果和直译结果给用户判别和比较、请求用户选择其中之一作为检索词时的屏幕的显示例子。

图10示出了根据日语检索结果执行对英语文件的搜索的例子,而图11示出了根据英语检索请求对日语文件执行搜索的例子,假设用户输入以上说明的“Risk factors of heart diseases”作为检索请求。

在第二实施例中,由于翻译部分15b和直译部分16b独立操作,“机器翻译”示出“riskfactor”已译成“危険因子”,而“heartdisease”已译成“心疾患”,但是屏栏“transliteration(直译)”示出直译已得出字符串“リスク”、“ファクタ”、“ハ-ト”和“デシ-セ”。

象图10那样,用户可以通过操作每个候选检索词的复选框来选择检索词。此外,用户可以通过操作就在词“机器翻译”和“直译”下的复选框选择只用机器翻译结果的搜索、只用直译结果的搜索或用机器翻译结果和直译结果的搜索。

在将机器翻译结果和直译结果给用户判别和比较而检索词的最终选择由用户确定时,用户可以学习区别机器翻译有益的场合和直译有益的场合,可以认为具有机器翻译的准确性和对于词典外的词直译的可靠性的优点的交叉语言检索可以容易取得成功。

对于熟悉该技术领域的人员来说其他的优点和变型都是显而易见的。因此,本发明在各方面都不局限于在这里所示出和说明的具体细节和典型实施例。因此,根据如所附权利要求书给出的本发明的精神所作出的各种修改都应属于本发明的专利保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号