首页> 中国专利> 文件检索方法、文件检索系统、程序以及非暂时性计算机可读存储介质

文件检索方法、文件检索系统、程序以及非暂时性计算机可读存储介质

页面导航

摘要
著录项
说明书
相似文献

摘要

按文件块进行相似文件的检索。以高精度进行文件检索。从将多个检索对象文件切分来创建的多个文本块中检索特定文本块。准备为检索文件的一部分的第一检索文本块，将多个文本块中的至少一部分作为第一对象，使用第一检索文本块作为检索条件进行全文检索，由此计算出每一包括在第一对象中的文本块与第一检索文本块之间的第一相关度，基于第一相关度从第一对象中决定第二对象，按包括在第一检索文本块中的句子进行与每一包括在第二对象中的句子之间的第一相似度计算，利用第一相似度检索出至少一个与第一检索文本块相似的文本块。

著录项

公开/公告号CN113168415A

专利类型发明专利
公开/公告日2021-07-23

原文格式PDF
申请/专利权人株式会社半导体能源研究所;
展开▼

申请/专利号CN201980076644.X
发明设计人冈野达也;齐藤祥子;
展开▼

申请日2019-11-19
分类号G06F16/33(20060101);G06F16/338(20060101);
代理机构31100 上海专利商标事务所有限公司;
代理人宋俊寅
地址日本神奈川县
入库时间 2023-06-19 11:55:48

说明书

技术领域

本发明的一个方式涉及一种文件检索方法、文件检索系统、程序及非暂时性计算机可读存储介质。

注意，本发明的一个方式不局限于上述技术领域。作为本发明的一个方式的技术领域的一个例子，可以举出半导体装置、显示装置、发光装置、蓄电装置、存储装置、电子设备、照明装置、输入装置(例如，触摸传感器等)、输入输出装置(例如，触摸面板等)以及上述装置的驱动方法或制造方法。

背景技术

从批量文件中高效地检索出目的文件的文件检索技术的开发很活跃。例如，专利文献1公开了相似文件检索方法。

有相似文件在整体上与目的文件相似的情况，还有相似文件的一些部分的与目的文件的相似性极高而其他部分的相似性极低的情况。

在专利文献1中，作为判断相似文件与目的文件在整体上相似还是只有一部分相似的指标，计算出详细程度。

[先行技术文献]

[专利文献]

[专利文献1]日本专利申请公开第2004-295712号公报

发明内容

发明所要解决的技术问题

在专利申请业务中，在制作新的说明书(在后申请的说明书)时，有时参照或引用以前自己公司制作的说明书(在先申请的说明书)的记载。在此，如果已有在先申请的说明书的译文，当制作在后申请的说明书的译文时，就可以参照或引用在先申请的说明书的译文，可以缩短在后申请的说明书的翻译所需的时间。

在一些相似文件的检索方法中，与目的文件的相似度被计算为高的文件有时包括如下文件：虽然实际上不相似，但是整体上有一定程度的相似度，因此被计算为文件整体上的相似度高的文件。另一方面，有相似性极高的部分(例如，包括完全一致的文本)而其余部分的相似性极低的文件的整体上的相似度有时被计算为低。例如，在想要参考或引用译文时，后者文件比前者文件优选。

另外，通过一句一句地进行文本检索，可以找到完全一致的文本，但是这个方法有时导致文本逻辑中断或基于说明书不同的译词不同。因此，优选的是，根据章节等以包括多个句子的文本为单位掌握相似部分。

另外，在制作新的说明书时参考的说明书不局限于一个。因此，优选的是，不仅容易掌握参考哪个说明书制作新的说明书，而且容易掌握参考哪个说明书的哪个部分制作新的说明书的哪个部分。此外，这不仅仅是说明书而是所有文件的共同点。但是，在制作新的文件时，详细地记录参考哪个文件的哪个部分是很费时间又麻烦的工作。

本发明的一个方式的目的之一是提供一种能够按文件块进行相似文件的检索的文件检索方法。另外，本发明的一个方式的目的之一是提供一种能够按文件块进行相似文件的检索的文件检索系统。另外，本发明的一个方式的目的之一是提供一种能够通过简单的输入方法按文件块进行相似文件的检索的文件检索方法。

本发明的一个方式的目的之一是提供一种能够以高精度进行文件检索的文件检索方法。另外，本发明的一个方式的目的之一是提供一种能够以高精度进行文件检索的文件检索系统。另外，本发明的一个方式的目的之一是通过简单的输入方法实现精度高的文件检索，尤其实现精度高的有关知识产权的文件检索。

注意，这些目的的记载不妨碍其他目的的存在。本发明的一个方式并不需要实现所有上述目的。可以从说明书、附图、权利要求书的记载中抽取上述目的以外的目的。

解决技术问题的手段

本发明的一个方式是一种从将多个检索对象文件切分来创建的多个文本块中检索特定文本块的文件检索方法，包括如下步骤：准备为检索文件的一部分的第一检索文本块；将多个文本块中的至少一部分作为第一对象，使用第一检索文本块作为检索条件进行全文检索，由此计算出每一包括在第一对象中的文本块与第一检索文本块之间的第一相关度；基于第一相关度从第一对象中决定第二对象；按包括在第一检索文本块中的各句子进行与每一包括在第二对象中的句子之间的第一相似度计算；以及利用第一相似度检索出至少一个与第一检索文本块相似的文本块。

优选通过将检索文件切分来创建多个检索文本块。此时，第一检索文本块优选为多个检索文本块之一。

并且，优选的是：准备为检索文件的其他一部分的第二检索文本块；将多个文本块中的至少一部分作为第三对象，使用第二检索文本块作为检索条件进行全文检索，由此计算出每一包括在第三对象中的文本块与第二检索文本块之间的第二相关度；基于第二相关度从第三对象中决定第四对象；按包括在第二检索文本块中的句子进行与每一包括在第四对象中的句子之间的第二相似度计算；以及利用第二相似度检索出至少一个与第二检索文本块相似的文本块。此时，第一对象和第三对象可以相同，也可以不同。

优选利用第一相似度中的阈值以上的值检索出至少一个与第一检索文本块相似的文本块。

本发明的一个方式是一种从将多个检索对象文件切分来创建的多个文本块中检索与多个检索文本块的每一个相似的文本块的文件检索方法，进行如下步骤：将检索文件切分来创建多个检索文本块；将多个文本块中的至少一部分作为第一对象，使用检索文本块作为检索条件进行多个检索文本块的每一个的全文检索，由此计算出每一包括在第一对象中的文本块与检索文本块之间的相关度的步骤；基于相关度从第一对象中决定第二对象的步骤；按包括在检索文本块中的句子进行与每一包括在第二对象中的句子之间的相似度计算的步骤；以及利用相似度检索出至少一个与检索文本块相似的文本块的步骤。

本发明的一个方式是一种从将多个检索对象文件切分来创建的多个文本块中检索特定文本块的文件检索方法，包括如下步骤：准备为检索文件的一部分的第一检索文本块；将多个文本块中的至少一部分作为第一对象，使用包括在第一检索文本块中的各句子作为检索条件进行全文检索，由此计算出每一包括在第一对象中的句子与包括在第一检索文本块中的各句子之间的第一相关度；按包括在第一检索文本块中的句子基于第一相关度从包括在第一对象中的句子决定第二对象；按包括在第一检索文本块中的句子进行与每一包括在第二对象中的句子之间的第一相似度计算；以及利用第一相似度检索出至少一个与第一检索文本块相似的文本块。

优选通过将检索文件切分来创建多个检索文本块。此时，第一检索文本块优选为多个检索文本块之一。

并且，优选的是：准备为检索文件的其他一部分的第二检索文本块；将多个文本块中的至少一部分作为第三对象，使用包括在第二检索文本块中的各句子作为检索条件进行全文检索，由此计算出每一包括在第三对象中的句子与包括在第二检索文本块中的各句子之间的第二相关度；按包括在第二检索文本块中的句子基于第二相关度从包括在第三对象中的句子中决定第四对象；按包括在第二检索文本块中的句子进行与每一包括在第四对象中的句子之间的第二相似度计算；以及利用第二相似度检索出至少一个与第二检索文本块相似的文本块。此时，第一对象和第三对象可以相同，也可以不同。

优选利用第一相似度中的阈值以上的值检索出至少一个与第一检索文本块相似的文本块。

本发明的一个方式是一种从将多个检索对象文件切分来创建的多个文本块中检索与多个检索文本块的每一个相似的文本块的文件检索方法，进行如下步骤：将检索文件切分来创建多个检索文本块；将多个文本块中的至少一部分作为第一对象，使用包括在检索文本块中的各句子作为检索条件进行多个检索文本块的每一个的全文检索，由此计算出每一包括在第一对象中的句子与包括在检索文本块中的各句子之间的相关度的步骤；按包括在检索文本块中的句子基于相关度从包括在第一对象中的句子中决定第二对象的步骤；按包括在检索文本块中的句子进行与每一包括在第二对象中的句子之间的相似度计算的步骤；以及利用相似度检索出至少一个与检索文本块相似的文本块的步骤。

本发明的一个方式是一种具有执行上述文件检索方法中的任意个的功能的文件检索系统。

本发明的一个方式是一种从将多个检索对象文件切分来创建的多个文本块中检索特定文本块的文件检索系统，该文件检索系统包括处理部，处理部具有如下功能：准备为将检索文件切分来创建的多个检索文本块之一的第一检索文本块的功能；将多个文本块中的至少一部分作为第一对象，使用第一检索文本块作为检索条件进行全文检索，由此计算出每一包括在第一对象中的文本块与第一检索文本块之间的第一相关度的功能；基于第一相关度从第一对象中决定第二对象的功能；按包括在第一检索文本块中的句子进行与每一包括在第二对象中的句子之间的第一相似度计算的功能；以及利用第一相似度检索出至少一个与第一检索文本块相似的文本块。

本发明的一个方式是一种具有使处理器执行上述文件检索方法中的任意个的功能的程序。本发明的一个方式是一种储存有该程序的非暂时性计算机可读存储介质。

程序也可以被各种类型的暂时性计算机可读存储介质供应到计算机。暂时性计算机可读存储介质包括电信号、光信号及电磁波。暂时性计算机可读存储介质可以通过电线及光纤维等有线通信路径或无线通信路径将程序供应到计算机。

本发明的一个方式是一种从将多个检索对象文件切分来创建的多个文本块中检索特定文本块的程序，该程序使处理器执行如下步骤：准备为将检索文件切分来创建的多个检索文本块之一的第一检索文本块的步骤；将多个文本块中的至少一部分作为第一对象，使用第一检索文本块作为检索条件进行全文检索，由此计算出每一包括在第一对象中的文本块与第一检索文本块之间的第一相关度的步骤；基于第一相关度从第一对象中决定第二对象的步骤；按包括在第一检索文本块中的句子进行与每一包括在第二对象中的句子之间的第一相似度计算的步骤；以及利用第一相似度检索出至少一个与第一检索文本块相似的文本块。本发明的一个方式是一种储存有该程序的非暂时性计算机可读存储介质。

作为非暂时性计算机可读存储介质，可以使用各种类型的有形的记录介质。作为非暂时性计算机可读存储介质，例如可以举出RAM(Random Access Memory)等挥发性存储器、ROM(Read Only Memory)等非挥发性存储器。此外，还可以举出硬盘驱动器(Hard DiscDrive：HDD)及固态驱动器(Solid State Drive：SSD)等记录介质驱动器、磁光盘、CD-ROM、CD-R等。

发明效果

根据本发明的一个方式可以提供一种能够按文件块进行相似文件的检索的文件检索方法。另外，根据本发明的一个方式可以提供一种能够按文件块进行相似文件的检索的文件检索系统。或者，根据本发明的一个方式可以提供一种能够通过简单的输入方法按文件块进行相似文件的检索的文件检索方法。

根据本发明的一个方式可以提供一种能够以高精度进行文件检索的文件检索方法。另外，根据本发明的一个方式可以提供一种能够以高精度进行文件检索的文件检索系统。另外，根据本发明的一个方式可以通过简单的输入方法实现精度高的检索，尤其实现精度高的有关知识产权的文件检索。

注意，这些效果的记载不妨碍其他效果的存在。本发明的一个方式并不一定必须具有所有上述效果。可以从说明书、附图、权利要求书的描述中抽取上述效果外的效果。

附图简要说明

图1是示出文件检索方法的例子的流程图。

图2是示出检索前阶段的处理的例子的图。

图3A、图3B及图3C是示出文件检索方法的例子的图。

图4A、图4B及图4C是示出文件检索方法的例子的图。

图5A及图5B是示出文件检索方法的例子的图。

图6A、图6B及图6C是示出文件检索方法的例子的图。

图7A、图7B及图7C是示出文件检索方法的例子的图。

图8A、图8B及图8C是示出文件检索方法的例子的图。

图9A及图9B是示出文件检索方法的例子的图。

图10是示出文件检索方法的例子的流程图。

图11是示出文件检索方法的例子的流程图。

图12是示出文件检索方法的例子的图。

图13是示出文件检索系统的例子的方框图。

图14是示出文件检索系统的例子的方框图。

实施发明的方式

参照附图对实施方式进行详细说明。注意，本发明不局限于以下说明，所属技术领域的普通技术人员可以很容易地理解一个事实就是其方式及详细内容在不脱离本发明的宗旨及其范围的情况下可以被变换为各种各样的形式。因此，本发明不应该被解释为仅局限在以下所示的实施方式所记载的内容中。

注意，在以下说明的发明的结构中，在不同的附图中共同使用相同的附图标记来表示相同的部分或具有相同的功能的部分，而有时省略其重复说明。此外，当表示具有相同的功能的部分时有时使用相同的阴影线，而不特别附加附图标记。

另外，为了便于理解，有时附图中示出的各构成的位置、大小及范围等并不表示其实际的位置、大小及范围等。因此，所公开的发明不一定局限于附图所公开的位置、大小、范围等。

(实施方式1)

在本实施方式中，使用图1至图12说明本发明的一个方式的文件检索方法。注意，数据的示意图是只是一个例子而已，不局限于此。

本发明的一个方式是一种从将多个检索对象文件的每一个切分来创建的多个文本块中检索特定文本块的文件检索方法。

首先，准备为检索文件的一部分的第一检索文本块。

例如，通过抽取检索文件的一部分可以创建第一检索文本块。或者，第一检索文本块也可以是将检索文件切分来创建的多个检索文本块之一。

在本发明的一个方式的文件检索方法中，事先从多个检索对象文件中创建多个文本块，在进行检索时从检索文件创建检索文本块。由此，可以进行与检索文本块相似的文本块的检索。因此，与使用整个检索文件作为检索条件的情况或者整个文件为检索对象的情况相比，更容易掌握相似部分的对应关系。

接着，将多个文本块中的至少一部分作为第一对象，使用第一检索文本块作为检索条件来进行全文检索，由此计算出每一包括在第一对象中的文本块与第一检索文本块之间的第一相关度。

检索对象文件的数量越多，文本块的数量也越多。在本发明的一个方式中，可以按检索文本块选取用作检索对象的文本块(第一对象)，可以减少处理量而提高检索速度。

接着，基于第一相关度，从第一对象中决定第二对象。

在全文检索中，不考虑句子或词的顺序，因此计算出来的相关度是与相似度不同的。另一方面，包括与检索文本块共同的词的文本块的相关度值较高，相似性低的文本块的相关度值也低，因此可以以高精度选取要进行相似度计算的对象。

接着，按包括在第一检索文本块中的句子进行与每一包括在第二对象中的句子之间的第一相似度计算。

与全文检索相比，相似度计算处理倾向于需要较长的时间。在本发明的一个方式中，在从第一对象中决定第二对象来选取对象之后进行相似度计算，由此可以缩短文件检索所需的时间。

相似度可以根据句子之间的字面重合度计算。与全文检索不同，在相似度计算中，考虑句子中的词序。因此，其中与第一检索文本块所包括的句子共同的词存在而词的排列顺序不同的句子的相似度较低。

并且，利用第一相似度检索出至少一个与第一检索文本块相似的文本块。

如上所述，通过使用本发明的一个方式的文件检索方法，可以容易掌握其他文件中的与检索文件的特定部分相似的记载部分。

另外，在本发明的一个方式的文件检索方法中，只要输入检索文件即可而不需要选定用于检索的关键词，因此有如下优点：使用者的负担很轻，并且不易产生基于技能不同的检索结果的差异。

另外，因为在将用作检索对象的文本块选取为第一对象之后将其进一步选取为第二对象，然后进行相似度计算，所以可以缩短文件检索所需的时间。

另外，也可以逐一使用包括在第一检索文本块中的句子作为检索条件而进行全文检索。此时，计算出每一包括在第一对象中的句子与包括在第一检索文本块中的各句子之间的第一相关度。并且，按包括在第一检索文本块中的句子，基于第一相关度从包括在第一对象中的句子中决定第二对象。

文本块包括多个句子。在包括在文本块中的句子中，不一定大部分与包括在第一检索文本块中的句子相似。因此，为了以高精度检索相似度高的文本块，需要进行很多文本块的相似度计算，有时相似度计算时间很长。另外，在减少为第二对象的文本块的数量以便缩短相似度计算所需的时间时，有可能遗漏包括相似度高的句子的文本块。

于是，优选不是以文本块为单位而是以句子为单位从第一对象中选取第二对象。具体而言，优选的是，按包括在第一检索文本块中的句子进行相关度高的句子的检索，以句子为单位选取要进行相似度计算的对象。通过以句子为单位选取对象，与以文本块为单位选取对象的情况相比，可以在抑制相似度高的句子(及文本块)的遗漏的同时可以缩短相似度计算所需的时间。

<文件检索方法的例子1>

图1示出文件检索方法的流程图。如图1所示，本发明的一个方式的文件检索方法包括步骤A1至步骤A6的六个步骤。

注意，除非另有说明，否则即便在对包括多个要素(文件、文本块或句子等)的结构进行说明的情况下，当说明各要素间的共同部分时，省略其符号的变数及字母。例如，当说明检索对象文件TD1、检索对象文件TD2和检索对象文件TDn等间共同的部分时，有时记载为检索对象文件TD。

[预处理]

首先，使用图2说明检索前阶段的处理。

在预处理中，分割多个检索对象文件TD来创建多个文本块TB。

在本实施方式的文件检索方法中，将预先准备的多个文件切分为块。并且，在检索时将被输入的检索文件也切分为块。由此，可以进行与检索文件的各块相似的文本块的检索。

在图2中，示出准备n个(n是2以上的整数)检索对象文件TD的例子。

对检索对象文件TD没有特别的限制，可以使用各种文件。

作为检索对象文件TD例如可以举出有关知识产权的文件。具体而言，作为有关知识产权的文件可以举出用于专利申请的说明书、权利要求书及摘要等。此外，作为有关知识产权的文件可以举出专利文献(公开专利公报、专利公报等)、实用新型公报、外观设计公报及论文等出版物。不仅限于国内发行的出版物，也可以使用世界各国发行的出版物作为有关知识产权的文件。

此外，作为检索对象文件TD还可以使用书籍、论文、报告、专栏或其他的各种著作。另外，作为检索对象文件TD还可以使用诊疗文件等。

另外，对文件的语言也没有特别的限制，例如可以使用日文、英文、中文或韩文等的文件。

图2所示的检索对象文件TD1被切分为x个(x是2以上的整数)文本块(文本块TB1(1)至文本块TB1(x))。

另外，检索对象文件TD2被切分为y个(y是2以上的整数)文本块(文本块TB2(1)至文本块TB2(y))。

另外，检索对象文件TDn被切分为z个(z是2以上的整数)文本块(文本块TBn(1)至文本块TBn(z))。

例如，在检索对象文件是由多个章节组成的文件的情况下，可以通过按章节进行切分来创建多个文本块。

具体而言，在是专利说明书的情况下，可以切分为“背景、课题、手段以及效果”、“实施方式1”、“实施方式2”等。

另外，在是论文的情况下，可以切分为“引言”、“研究方法”、“结果”、”考察”、“结论”等。

此外，可以使用检索对象文件中的所有句子创建多个文本块，也可以只使用检索对象文件中的必要部分创建多个文本块。

例如，在检索对象文件是专利说明书的情况下，也可以不使用“符号说明”创建多个文本块。

在文件检索之前(步骤A1之前)进行至少一次的预处理。可以根据用途多次进行预处理。例如，通过定期进行预处理，进行检索对象文件的追加、更新或删除，由此可以提高检索精度及方便性。

并且，优选利用多个文本块TB创建用于全文检索的索引文件。由此，可以在短时间内进行全文检索。对索引文件的构成没有特别的限制，例如，可以包括字符串、文件名称、文本块名称、出现频率等信息。

另外，例如，索引文件也可以包括有关检索对象文件TD(或文本块TB)的各语言译文是否存在的信息。由此，在检索时，可以指定条件诸如“已有英译的”、“已有中译的”等。

接着，使用图3至图5详细地说明图1所示的六个步骤。

[步骤A1：多个检索文本块STB的创建]

首先，通过切分检索文件STD，创建多个检索文本块STB(图3A)。

如图3A所示，检索文件STD被切分为w个(w是2以上的整数)检索文本块(检索文本块STB(1)至检索文本块STB(w))。

在本实施方式的文件检索方法中，因为将被输入的检索文件STD切分为多个检索文本块STB，所以可以按检索文本块STB进行相似文件(文本块TB)的检索。

对检索文件STD没有特别的限制，可以使用各种文件。

作为检索文件STD例如可以举出翻译前的有关知识产权的文件。因此，可以从检索对象文件TD中检索出已翻译的相似文件，可以参考或引用译文。

另外，作为检索文件STD可以使用书籍、论文、报告、专栏或包括句子的各种著作。因此，可以从检索对象文件TD中检索出相似文件，可以确认检索文件STD是否有剽窃或抄袭的嫌疑。

另外，作为检索文件STD可以使用诊疗文件。通过使用记载有治疗过程的诊疗文件进行相似病例的诊疗文件的检索，可以将其作为诊疗参考，可以探讨患者今后会经历什么样的过程。

[步骤A2：检索文本块STB(i)的选择]

接着，从w个检索文本块STB中选择要进行检索的检索文本块STB(i)(i是1以上且w以下的整数)。

注意，在只对一个检索文本块STB进行检索的情况下，也可以在步骤A1中从检索文件STD中抽取必要部分来创建检索文本块STB。

另外，在对多个检索文本块STB逐一进行检索的情况下，可以一个一个地进行渐进式检索(参照文件检索方法的例子3)，可以进行多个检索文本块STB的并行检索(参照文件检索方法的例子4)，也可以组合逐一处理和并行处理而进行检索。

在本实施方式的文件检索方法中，可以按检索文本块STB进行相似文本块TB的检索，因此可以高精度地且简单地掌握检索对象文件TD中的与检索文件STD的特定部分相似的记载部分。

[步骤A3：与检索文本块STB(i)之间的相关度计算]

接着，计算出与检索文本块STB(i)之间的相关度。

具体而言，使用检索文本块STB(i)作为检索条件而进行全文检索，由此计算出用作检索对象的每一文本块TB与检索文本块STB(i)之间的相关度。

在此，可以计算出所有的文本块TB与检索文本块STB(i)之间的相关度，也可以计算出一部分文本块TB与检索文本块STB(i)之间的相关度。

例如，当想要进行专利说明书中的“背景、课题、手段以及效果”的相似文件检索时，只将检索对象文件的“背景、课题、手段以及效果”作为检索对象即可，可以从检索对象中排除“实施方式1”等。

另外，当想要进行“实施方式1”的相似文件检索时，将检索对象文件的各实施方式作为检索对象，可以从检索对象中排除“背景、课题、手段以及效果”。并且，当想要进行“已有英译的”相似文件检索时，可以将“已有英译的”检索对象文件的各实施方式作为检索对象。

在全文检索中，例如，基于包括在索引文件中的信息自动选择要计算出相关度的文本块TB。或者，也可以在输入检索文件STD时指定要计算出相关度的文本块TB。

如此，通过根据检索文本块STB(i)改变用作检索对象的文本块，可以减少处理量而缩短文件检索所需的时间。

在文件检索方法的例子1中示出使用检索文本块STB(i)作为全文检索的一个检索条件的情况。注意，如后述那样，也可以使用包括在检索文本块STB(i)中的各句子作为全文检索的检索条件(参照文件检索方法的例子2)。就是说，也可以存在与包括在检索文本块STB(i)中的句子相同数量的检索条件。

对全文检索方法没有特别的限制，也可以采用渐进式检索、索引检索等。

尤其是，在是索引检索的情况下，即使用作检索对象的文本块TB较多，检索速度也不容易降低，所以是优选的。

在索引检索中，预先进行用作检索对象的文本块TB的扫描，准备可以实现高速检索的索引文件。

对构成索引文件的字符串的抽取方法没有特别的限制，可以采用单词间隔(将词和词之间以间隔分隔开的方法)、形态分析、N-gram(也称为N字符索引法、N元模型等)等。

尤其是，与形态分析相比，N-gram在完全一致的检索上很有利，专业术语、新词、简称等不容易造成问题，所以是优选的。

相关度计算例如优选使用TF-IDF(Term Frequency-Inverse DocumentFrequency：词频-逆文本频率指数)。TF值表示某个文本块中的各词出现频率，IDF值表示词在一部分文本块中集中出现的程度。某个词在一个文本块出现得越多，该词的该文本块中的TF值越高。出现在很多文本块中的词的IDF值较低，只出现在一部分文本块中的词的IDF值较高。通过求出各词的TF值和IDF值之积，可以计算出与该词是否是描述文本块的特征的词有关的分数。

相关度计算方法不局限于利用TF-IDF的方法。

例如，可以利用为开放源代码的检索引擎工具包Apache Lucene进行全文检索。

图3B示出与检索文本块STB(1)之间的相关度计算的例子。另外，示出用作检索对象的第一对象110(1)是各检索对象文件TD所包括的第一文本块TB(1)的例子。

[步骤A4：从第一对象110(i)中决定第二对象120(i)]

接着，基于相关度从第一对象110(i)中决定第二对象120(i)。

对包括在第二对象120(i)中的文本块TB的数量没有特别的限制。第二对象120(i)是在下一次步骤中要进行相似度计算的对象。与全文检索相比，相似度的计算处理倾向于需要较长的时间。在从第一对象110(i)中决定第二对象120(i)来选取对象之后进行相似度计算，由此可以缩短文件检索所需的时间。

例如，通过按相关度高的顺序对步骤A3中的全文检索的结果进行排序，可以掌握与检索文本块STB(i)之间的相关度高的文本块TB。

图3C示出将与检索文本块STB(1)之间的相关度高的前十名的文本块TB用作第二对象120(1)的例子。作为一个例子，图3C示出文本块TB4(1)是第一名(Rank 1)，文本块TB1(1)是第二名(Rank 2)且文本块TB9(1)是第十名(Rank 10)的情况。

[步骤A5：与检索文本块STB(i)之间的相似度计算]

接着，计算出与检索文本块STB(i)之间的相似度。具体而言，按包括在检索文本块STB(i)中的句子进行与每一包括在第二对象120(i)中的句子之间的相似度计算。

在本发明的一个方式的文件检索方法中，求出句子与句子之间的相似度。具体而言，优选基于句子间的字面重合度计算出相似度。

例如，可以利用求出文件差分的算法diff计算出相似度。

首先，如图4A所示，计算出检索文本块STB(1)的第一句子STS1与每一包括在第二对象120(1)中的句子之间的相似度。

接着，如图4B所示，计算出检索文本块STB(1)的第二句子STS2与每一包括在第二对象120(1)中的句子之间的相似度。同样地，计算出检索文本块STB(1)的各句子与每一包括在第二对象120(1)中的句子之间的相似度。

然后，如图4C所示，直到检索文本块STB(1)的最后句子STSp(p是1以上的整数)为止进行相似度计算，由此计算出包括在检索文本块STB(1)中的所有句子与每一包括在第二对象120(1)中的句子之间的相似度。注意，图4C示出p是3以上的整数的例子。

此外，也可以并行进行与检索文本块STB(1)的多个句子之间的相似度计算。例如，也可以并行进行图4A所示的处理、图4B所示的处理和图4C所示的处理。

通过利用计算出来的相似度可以求出与检索文本块STB(1)相似的文本块TB。

例如，在各文本块TB中，计算出与检索文本块STB(1)的各句子之间的相似度最高的句子的相似度之和，该和除以检索文本块STB(1)的句子数量，由此可以求出该文本块TB的与检索文本块STB(1)之间的归一化相似度。

在图5A所示的文本块TB4(1)中，与检索文本块STB(1)的第一句子STS1之间的相似度最高的句子是第一句子S1(相似度为1)，与第二句子STS2之间的相似度最高的句子是第二句子S2(相似度是0.9)，与最后句子STSp之间的相似度最高的句子是第三句子S3(相似度是0.5)。将这些p个相似度加起来除以句子数量p，由此可以求出文本块TB4(1)的与检索文本块STB(1)之间的归一化相似度。

通过利用句子之间的相似度中的阈值以上的值，可以提高检索精度，所以是优选的。例如，当阈值是0.8时，在图5A所示的文本块TB4(1)中，与最后句子STSp之间的相似度最高的句子S3的相似度是0.5，因此在相似度之和的计算中不使用该值(将该值看作0)。

[步骤A6：结果的输出]

然后，输出与检索文本块STB(i)之间的归一化相似度高的文本块TB。

图5B是按归一化相似度高的顺序列出文本块TB(Block)的例子。另外，示出作为Score用百分率表示归一化相似度的例子。

在步骤A3中进行的全文检索中，不考虑句子或词的顺序，因此计算出来的相关度是与相似度不同的。通过在步骤A5中计算出相似度，可以以与检索文本块STB(1)之间的相似性高的顺序列出在步骤A4(图3C)中被决定为第二对象120(1)的十个文本块TB(图5B)。

如上所述，通过将检索文件STD切分为检索文本块STB而进行相似文本块的检索，可以进行与检索文本块STB相似的文件(文本块TB)的检索。由此，与使用整个检索文件STD作为检索条件的情况或者整个文件为检索对象的情况相比，更容易掌握相似部分的对应关系。

另外，因为在将用作检索对象的文本块选取为第一对象之后将其进一步选取为第二对象，然后进行相似度计算，所以可以缩短文件检索所需的时间。

<文件检索方法的例子2>

接着，使用图6至图9说明步骤A3以后的变形例子。具体而言，说明使用包括在检索文本块STB(i)中的各句子作为全文检索的检索条件的情况。

[步骤A3：与检索文本块STB(i)之间的相关度计算]

在文件检索方法的例子2的步骤A3中，使用包括在检索文本块STB(i)中的各句子作为检索条件而进行全文检索。由此，计算出每一包括在检索对象中的句子与包括在检索文本块STB(i)中的各句子之间的相关度。

在此，可以计算出所有的文本块TB与包括在检索文本块STB(i)中的各句子之间的相关度，也可以计算出一部分文本块TB与包括在检索文本块STB(i)中的各句子之间的相关度。

通过根据检索文本块STB(i)改变用作检索对象的文本块，可以减少处理量而缩短文件检索所需的时间。

全文检索方法及相关度计算方法可以使用与文件检索方法的例子1同样的方法。

首先，如图6A所示，使用检索文本块STB(1)的第一句子STS1作为检索条件而进行全文检索，由此计算出包括在第一对象110(1)中的各句子与第一句子STS1之间的相关度。注意，包括在第一对象110(1)中的句子是指构成包括在第一对象110(1)中的多个文本块TB的句子。

接着，如图6B所示，使用检索文本块STB(1)的第二句子STS2作为检索条件而进行全文检索，由此计算出包括在第一对象110(1)中的各句子与第二句子STS2之间的相关度。同样地，计算出与检索文本块STB(1)的各句子之间的相关度。

然后，如图6C所示，直到检索文本块STB(1)的最后句子STSp(p是2以上的整数)为止进行相关度计算，由此计算出包括在第一对象110(1)中的句子与包括在检索文本块STB(1)中的各句子之间的相关度。注意，图6C示出p是3以上的整数的例子。

此外，也可以并行进行使用检索文本块STB(1)的各句子作为检索条件的全文检索。例如，也可以并行进行图6A所示的处理、图6B所示的处理和图6C所示的处理。

[步骤A4：从第一对象110(i)中决定第二对象120(i)]

接着，按包括在检索文本块STB(i)中的句子基于相关度从包括在第一对象110(i)中的句子中决定第二对象120(i)。

对包括在第二对象120(i)中的句子数量没有特别的限制。第二对象120(i)是在下一次步骤中要进行相似度计算的对象。与全文检索相比，相似度的计算处理倾向于需要较长的时间。在从第一对象110(i)中决定第二对象120(i)来选取对象之后进行相似度计算，由此可以缩短文件检索所需的时间。

例如，通过按相关度高的顺序对步骤A3中的全文检索的结果进行排序，可以掌握与包括在检索文本块STB(i)中的各句子之间的相关度高的句子。

图7A示出将与检索文本块STB(1)的第一句子STS1之间的相关度高的前300名的句子用作第二对象120(1)(STS1)的例子。作为一个例子，图7A示出文本块TB4(1)的第一句子TB4(1)_S1是第一名(Rank 1)，文本块TB3(1)的第一句子TB3(1)_S1是第二名(Rank 2)且文本块TB6(1)的第六句子TB6(1)_S6为第300名(Rank 300)的情况。

图7B示出将与检索文本块STB(1)的第二句子STS2之间的相关度高的前300名的句子用作第二对象120(1)(STS2)的例子。作为一个例子，图7B示出文本块TB1(1)的第二句子TB1(1)_S2是第一名(Rank 1)，文本块TB3(1)的第二句子TB3(1)_S2是第二名(Rank 2)且文本块TB62(1)的第八句子TB62(1)_S8为第300名(Rank 300)的情况。

并且，如图7C所示，将与检索文本块STB(1)的最后句子STSp之间的相关度高的前300句子决定为第二对象120(1)(STSp)。作为一个例子，图7C示出文本块TB2(1)的第九句子TB2(1)_S9是第一名(Rank 1)，文本块TB6(1)的第八句子TB6(1)_S8是第二名(Rank 2)且文本块TB7(1)的第十二句子TB7(1)_S12为第300名(Rank 300)的情况。如上所述，逐一决定相对于包括在检索文本块STB(1)中的所有句子的第二对象120(1)。同样地，按相关度从第一对象110(i)中的句子中逐一决定相对于包括在检索文本块STB(i)中的所有句子的第二对象120(i)。

[步骤A5：与检索文本块STB(i)之间的相似度计算]

相似度计算方法可以使用与文件检索方法的例子1同样的方法。

首先，如图8A所示，计算出检索文本块STB(1)的第一句子STS1与每一包括在第二对象120(1)(STS1)中的句子之间的相似度。

接着，如图8B所示，计算出检索文本块STB(1)的第二句子STS2与每一包括在第二对象120(1)(STS2)中的句子之间的相似度。同样地，计算出检索文本块STB(1)的各句子与每一包括在第二对象120(1)中的句子之间的相似度。

然后，如图8C所示，直到检索文本块STB(1)的最后句子STSp为止进行相似度计算，由此计算出包括在检索文本块STB(1)中的所有句子与每一包括在第二对象120(1)中的句子之间的相似度。

此外，也可以并行进行与检索文本块STB(1)的多个句子之间的相似度计算。例如，也可以并行进行图8A所示的处理、图8B所示的处理和图8C所示的处理。

通过利用计算出来的相似度可以求出与检索文本块STB(1)相似的文本块TB。

在图9A所示的文本块TB4(1)中，与检索文本块STB(1)的第一句子STS1之间的相似度最高的句子是第一句子S1(相似度为1)，与第二句子STS2之间的相似度最高的句子是第二句子S2(相似度是0.90)。如此，将p个与各句子之间的最高相似度加起来除以句子数量p，由此可以求出文本块TB4(1)的与检索文本块STB(1)之间的归一化相似度。注意，在文本块TB4(1)中，第二十六句子S26与检索文本块STB(1)的第一句子STS1的相似度高(相似度是0.80)而低于第一句子S1，因此不使用S26的相似度值。

通过利用句子之间的相似度中的阈值以上的值，可以提高检索精度，所以是优选的。在图9A所示的文本块TB9(1)中，与检索文本块STB(1)的第一句子STS1之间的相似度最高的句子是第二句子S2(相似度是0.70)，与第二句子STS2之间的相似度最高的句子是第一句子S1(相似度是0.60)，与最后句子STSp之间的相似度最高的句子是第三句子S3(相似度是0.60)。在不使用阈值的情况下，在p个与各句子之间的最高相似度之和的计算中，使用这些三个句子的相似度值。另一方面，例如，当阈值是0.8时，这些三个句子的相似度值低于阈值，因此在相似度之和的计算中不使用该值(将该值看作0)。

[步骤A6：结果的输出]

然后，输出与检索文本块STB(i)之间的归一化相似度高的文本块TB。

图9B是按归一化相似度高的顺序列出文本块TB的例子。另外，示出作为Score用百分率表示归一化相似度的例子。

在文件检索方法的例子2中，按包括在检索文本块STB(i)中的句子从第一对象110(i)中决定被用作第二对象120(i)的句子。因此，可以只对包括在文本块TB中的句子中的与包括在检索文本块STB(i)中的句子之间的相关性高的句子进行与该包括在检索文本块STB(i)中的句子之间的相似度计算。通过以句子为单位选取对象，与以文本块为单位选取对象的情况相比，可以在抑制相似度高的句子(及文本块)的遗漏的同时可以缩短相似度计算所需的时间。另外，可以防止实际不相似的文本块TB的相似度被计算为高。

例如，通过利用文件检索方法的例子2，在文件检索方法的例子1(图5B)中排不进前十名的文本块TB7(1)、TB3(1)和TB6(1)有可能排进前十名(图9B)。

与文件检索方法的例子1相比，在文件检索方法的例子2中，可以将有相似性极高的部分(例如，包括完全一致的文本)而其余部分的相似性极低的文本块的相似度计算为高。

<文件检索方法的例子3>

接着，说明对多个检索文本块STB进行相似文本块的渐进式检索的方法。注意，在文件检索方法的例子3中，示出对所有检索文本块STB进行相似文本块的检索的例子，但是不局限于此，也可以对一部分检索文本块STB进行相似文本块的检索。图10示出文件检索方法的流程图。

注意，因为检索前阶段的处理是与文件检索方法的例子1同样的，因此省略说明。

[步骤B1：多个检索文本块STB(1)至STB(w)的创建]

首先，通过切分检索文件STD，创建多个检索文本块STB。在此，示出切分为w个(w是2以上的整数)检索文本块(检索文本块STB(1)至检索文本块STB(w))的例子。步骤B1可以与图3A所示的步骤A1同样地进行。

[步骤B2：检索文本块STB(i)的选择(i＝1)]

接着，从w个检索文本块STB中选择要进行检索的检索文本块STB(i)(i是1以上且w以下的整数)。

注意，对进行检索文本块STB的一部分或全部的相似文本块的检索顺序没有特别的限制。

在文件检索方法的例子3中，示出从检索文本块STB(1)依次进行检索的例子。因此，步骤B2中选择i＝1。

[步骤B3：与检索文本块STB(i)之间的相关度计算]

接着，计算出与检索文本块STB(i)之间的相关度。

因为步骤B2中选择i＝1，第一次步骤B3中计算出与检索文本块STB(1)之间的相关度。第一次步骤B3可以与图3B所示的步骤A3同样地进行。

[步骤B4：从第一对象110(i)中决定第二对象120(i)]

接着，基于相关度从第一对象110(i)中决定第二对象120(i)。

因为步骤B2中选择i＝1，第一次步骤B4中基于相关度从第一对象110(1)中决定第二对象120(1)。第一次步骤B4可以与图3C所示的步骤A4同样地进行。

[步骤B5：与检索文本块STB(i)之间的相似度计算]

接着，计算出与检索文本块STB(i)之间的相似度。具体而言，按包括在检索文本块STB(i)中的句子逐一进行与包括在第二对象120(i)中的每一句子之间的相似度计算。

因为步骤B2中选择i＝1，第一次步骤B5中计算出与检索文本块STB(1)之间的相关度。第一次步骤B5可以与图4A至图4C以及图5A所示的步骤A5同样地进行。

[步骤B6：是否对所有检索文本块STB进行相似度计算(i＝w？)]

对所有检索文本块STB依次进行上述步骤B3至步骤B5的处理。如果存在没有进行相似度计算的检索文本块STB，则经过步骤B7返回到步骤B3。然后，在对所有检索文本块STB的相似度计算完成的情况下，进到步骤B8。

[步骤B7：i加1(i＝i+1)]

在从步骤B6返回到步骤B3时，作为步骤B7，i加1。就是说，对检索文本块STB(2)进行第二次步骤B3至B5。如此，直达对检索文本块STB(w)进行相似度计算为止，反复进行步骤B3至B5。

[步骤B8：结果的输出]

然后，输出与各检索文本块STB之间的归一化相似度高的文本块TB。

图12是按归一化相似度高的顺序分别列出相对于各检索文本块STB的文本块TB的例子。并且，如图5B所示的Score那样，也可以输出表示相似度的值。

如上所述，通过在按检索文件STB依次进行相似文本块的检索之后输出所有结果，可以进行与检索文件STD的各检索文本块STB相似的文件(文本块TB)的检索。

<文件检索方法的例子4>

接着，说明对多个检索文本块STB并行进行相似文本块的检索的方法。注意，在文件检索方法的例子4中，示出对所有检索文本块STB进行相似文本块的检索的例子，但是不局限于此，也可以对一部分检索文本块STB进行相似文本块的检索。图11示出文件检索方法的流程图。

注意，因为检索前阶段的处理是与文件检索方法的例子1同样的，因此省略说明。

[步骤C1：多个检索文本块STB的创建]

首先，通过切分检索文件STD，创建多个检索文本块STB。在此，示出切分为w个(w是2以上的整数)检索文本块(检索文本块STB(1)至检索文本块STB(w))的例子。步骤C1可以与图3A所示的步骤A1同样地进行。

可以对两个以上的检索文本块STB并行进行以后的步骤C2至C5的处理。在文本检索方法的例子4中，示出对w个检索文本块STB并行进行处理的例子。

[步骤C2(i)：检索文本块STB(i)的选择]

接着，从w个检索文本块STB中选择要进行检索的检索文本块STB(i)(i是1以上且w以下的整数)。

图11所示的步骤C2(1)中选择i＝1。与步骤C2(1)并行进行的步骤C2(2)中选择i＝2，步骤C2(w)中选择i＝w。

[步骤C3(i)：与检索文本块STB(i)之间的相关度计算]

接着，计算出与检索文本块STB(i)之间的相关度。

图11所示的步骤C3(1)中计算出与检索文本块STB(1)之间的相关度。步骤C3(1)可以与图3B所示的步骤A3同样地进行。

与步骤C3(1)并行进行的步骤C3(2)中计算出与检索文本块STB(2)之间的相关度，步骤C3(w)中计算出与检索文本块STB(w)之间的相关度。

[步骤C4(i)：从第一对象110(i)中决定第二对象120(i)]

接着，基于相关度从第一对象110(i)中决定第二对象120(i)。

图11所示的步骤C4(1)中基于相关度从第一对象110(1)中决定第二对象120(1)。步骤C4(1)可以与图3C所示的步骤A4同样地进行。

与步骤C4(1)并行进行的步骤C4(2)中基于相关度从第一对象110(2)中决定第二对象120(2)，步骤C4(w)中基于相关度从第一对象110(w)中决定第二对象120(w)。

[步骤C5：与检索文本块STB(i)之间的相似度计算]

图11所示的步骤C5(1)中计算出与检索文本块STB(1)之间的相关度。步骤C5(1)可以与图4A至图4C以及图5A所示的步骤A5同样地进行。

与步骤C5(1)并行进行的步骤C5(2)中计算出与检索文本块STB(2)之间的相似度，步骤C4(w)中计算出与检索文本块STB(w)之间的相似度。

[步骤C6：结果的输出]

然后，输出与各检索文本块STB之间的归一化相似度高的文本块TB。

图12是按归一化相似度高的顺序分别列出相对于各检索文本块STB的文本块TB的例子。并且，如图5B所示的Score那样，也可以输出表示相似度的值。

如上所述，通过在并行进行与各检索文件STB相似的文本块的检索之后输出所有结果，可以进行与检索文件STD的各检索文本块STB相似的文件(文本块TB)的检索。

如上所述，在本实施方式的文件检索方法中，通过进行与检索文本块相似的文本块的检索，可以高精度地检索出检索对象文件中的与检索文件的特定部分相似的记载部分。由此，与使用整个检索文件作为检索条件的情况或者整个文件为检索对象的情况相比，更容易掌握相似部分的对应关系。

另外，在本实施方式的文件检索方法中，利用全文检索结果选取要进行与检索文本块之间的相似度计算的对象。由此，可以缩短文件检索所需的时间。

本实施方式可以与其他实施方式适当地组合。在本说明书中，在一个实施方式中示出多个结构例子的情况下，可以适当地组合该结构例子。

(实施方式2)

在本实施方式中，使用图13至图14说明本发明的一个方式的文件检索系统。

本实施方式的文件检索系统可以利用实施方式1所示的文件检索方法进行文件检索。具体而言，可以将事先准备的文本块作为检索对象，进行与被输入的检索文件(的检索文本块)相似的文件(文本块)的检索。

<文件检索系统的结构例子1>

图13示出文件检索系统100的方框图。本说明书的附图中，方框图示出在独立的方框中根据功能进行分类的构成要素，但是，实际的构成要素难以根据功能被清楚地划分，一个构成要素有时具有多个功能。此外，一个功能有时涉及到多个构成要素，例如，在处理部103中进行的各处理有时在不同的服务器中进行。

文件检索系统100至少包括处理部103。图13所示的文件检索系统100还包括输入部101、传送通道102、存储部105、数据库107及输出部109。

[输入部101]

对输入部101从文件检索系统100的外部供应检索文件STD。供应到输入部101的检索文件STD通过传送通道102供应给处理部103、存储部105或数据库107。

[传送通道102]

传送通道102具有传送各种数据的功能。输入部101、处理部103、存储部105、数据库107及输出部109间的数据的发送及接收可以通过传送通道102进行。例如，通过传送通道102进行检索文件STD、检索文本块STB、检索对象文件TD及文本块TB等数据的发送及接收。

[处理部103]

处理部103具有使用从输入部101、存储部105、数据库107等供应的数据进行运算的功能。处理部103可以将运算结果等供应给存储部105、数据库107、输出部109等。

在处理部103中优选使用在沟道形成区域中包含金属氧化物的晶体管。由于该晶体管的关态电流极小，所以通过将该晶体管用作保持流入被用作存储元件的电容器的电荷(数据)的开关，可以确保长期的数据保持期间。通过将该特性应用于处理部103所包括的寄存器及高速缓冲存储器中的至少一个，可以仅在必要时使处理部103工作，而在其他情况下使之前的处理信息储存在该存储元件，可以关闭处理部103。就是说，实现常闭运算(normally off computing)，由此可以实现文件检索系统的低功耗化。

另外，在本说明书等中，将在沟道形成区域中使用氧化物半导体或金属氧化物的晶体管称为Oxide Semiconductor(氧化物半导体)晶体管或OS晶体管。OS晶体管的沟道形成区域优选包含金属氧化物。

在本说明书等中，金属氧化物(metal oxide)是指广义上的金属的氧化物。金属氧化物被分类为氧化物绝缘体、氧化物导电体(包括透明氧化物导电体)和氧化物半导体(Oxide Semiconductor，也可以简称为OS)等。例如，在将金属氧化物用于晶体管的半导体层的情况下，有时将该金属氧化物称为氧化物半导体。换言之，在金属氧化物具有放大作用、整流作用和开关作用中的至少一个的情况下，可以将该金属氧化物称为金属氧化物半导体(metal oxide semiconductor)，或者可以将其缩称为OS。

沟道形成区域所包含的金属氧化物优选含有铟(In)。在沟道形成区域所包含的金属氧化物含有铟的情况下，OS晶体管的载流子迁移率(电子迁移率)得到提高。另外，沟道形成区域所包含的金属氧化物优选为含有元素M的氧化物半导体。元素M优选是铝(Al)、镓(Ga)或锡(Sn)等。作为可用作元素M的其他元素，有硼(B)、硅(Si)、钛(Ti)、铁(Fe)、镍(Ni)、锗(Ge)、钇(Y)、锆(Zr)、钼(Mo)、镧(La)、铈(Ce)、钕(Nd)、铪(Hf)、钽(Ta)、钨(W)等。注意，作为元素M，有时也可以组合多个上述元素。元素M例如是与氧的键能高的元素。元素M例如是与氧的键能高于铟的元素。此外，沟道形成区域所包含的金属氧化物优选包含锌(Zn)。包含锌的金属氧化物有时容易晶化。

沟道形成区域所包含的金属氧化物不局限于含有铟的金属氧化物。半导体层例如也可以是锌锡氧化物或镓锡氧化物等不含有铟且含有锌、镓或锡的金属氧化物等。

另外，也可以将沟道形成区域中含有硅的晶体管用于处理部103。

另外，优选组合沟道形成区域中含有氧化物半导体的晶体管和沟道形成区域中含有硅的晶体管，将其用于处理部103。

处理部103例如包括运算电路或中央处理器(CPU：Central Processing Unit)等。

处理部103也可以包括DSP(Digital Signal Processor：数字信号处理器)、GPU(Graphics Processing Unit：图形处理器)等微处理器。微处理器也可以由FPGA(FieldProgrammable Gate Array：现场可编程门阵列)、FPAA(Field Programmable AnalogArray：现场可编程模拟阵列)等PLD(Programmable Logic Device：可编程逻辑器件)实现。处理部103通过由处理器解释且执行来自各种程序的指令，可以进行各种数据处理及程序控制。可由处理器执行的程序储存在处理器所包括的存储器区域及存储部105中的至少一个。

处理部103也可以包括主存储器。主存储器包括RAM等易失性存储器及ROM等非易失性存储器中的至少一个。

作为RAM，例如使用DRAM(Dynamic Random Access Memory：动态随机存取存储器)、SRAM(Static Random Access Memory：静态随机存取存储器)等，该RAM分配有虚拟存储空间作为处理部103的工作空间，并用于处理部103。储存在存储部105中的操作系统、应用程序、程序模块、程序数据及查找表等在执行时被加载于RAM中。处理部103直接存取并操作被加载于RAM中的这些数据、程序及程序模块。

ROM可以储存不需要改写的BIOS(Basic Input/Output System：基本输入/输出系统)及固件等。作为ROM，可以举出遮罩式ROM、OTPROM(One Time Programmable Read OnlyMemory：一次可编程只读存储器)、EPROM(Erasable Programmable Read Only Memory：可擦除可编程只读存储器)等。作为EPROM，可以举出通过紫外线照射可以消除存储数据的UV-EPROM(Ultra-Violet Erasable Programmable Read Only Memory：紫外线-可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory：电子式可抹除可编程只读存储器)、快闪存储器等。

[存储部105]

存储部105具有储存处理部103执行的程序的功能。此外，存储部105也可以具有储存处理部103所生成的运算结果以及输入到输入部101的数据等的功能。

存储部105包括易失性存储器及非易失性存储器中的至少一个。存储部105例如也可以包括DRAM、SRAM等易失性存储器。存储部105例如也可以包括以ReRAM(ResistiveRandom Access Memory：电阻随机存取存储器，也称为阻变式存储器)、PRAM(Phase changeRandom Access Memory：相变存储器)、FeRAM(Ferroelectric Random Access Memory：铁电随机存取存储器)、MRAM(Magnetoresistive Random Access Memory：磁阻随机存取存储器，也称为磁阻式存储器)或快闪存储器等非易失性存储器。另外，存储部105也可以包括硬盘驱动器(Hard Disc Drive：HDD)及固态驱动器(Solid State Drive：SSD)等记录介质驱动器。

[数据库107]

数据库107具有至少储存检索对象文件TD及文本块TB等数据的功能。此外，数据库107也可以具有储存处理部103所生成的运算结果以及输入到输入部101的数据等的功能。存储部105及数据库107也可以不被分离。例如，文件检索系统也可以包括具有存储部105及数据库107的双方的功能的存储单元。

另外，可以说处理部103、存储部105及数据库107所包括的存储器都是非暂时性计算机可读存储介质的一个例子。

[输出部109]

输出部109具有将数据供应给文件检索系统100的外部的功能。例如，可以将处理部103中的运算结果等供应给外部。

<文件检索系统的结构例子2>

图14示出文件检索系统150的方框图。文件检索系统150包括服务器151及终端152(个人计算机等)。

服务器151包括通信部161a、传送通道162、处理部163a及数据库167。虽然在图14中未图示，但是服务器151也可以还包括存储部、输入输出部等。

终端152包括通信部161b、传送通道168、处理部163b、存储部165及输入输出部169。虽然在图14中未图示，但是终端152也可以还包括数据库等。

文件检索系统150的使用者将检索文件STD从终端152输入到服务器151。检索文件STD从通信部161b传送到通信部161a。

通信部161a接收的检索文件STD通过传送通道162储存在数据库167或存储部(未图示)中。或者，检索文件STD也可以从通信部161a直接供应到处理部163a。

在实施方式1中说明的检索文本块STB的创建、相关度计算及相似度计算都需要高处理能力。服务器151所包括的处理部163a的处理能力比终端152所包括的处理部163b高。因此，这些处理优选在处理部163a中进行。

然后，通过处理部163a生成检索结果。检索结果通过传送通道162储存在数据库167或存储部(未图示)中。或者，检索结果也可以从处理部163a直接供应到通信部161a。然后，检索结果从服务器151输出到终端152。检索结果从通信部161a传送到通信部161b。

[输入输出部169]

对输入输出部169从文件检索系统150的外部供应数据。输入输出部169具有将数据供应给文件检索系统150的外部的功能。注意，如文件检索系统100那样，输入部与输出部也可以彼此分离。

[传送通道162及传送通道168]

传送通道162及传送通道168具有传送数据的功能。通信部161a、处理部163a及数据库167间的数据的发送及接收可以通过传送通道162进行。通信部161b、处理部163b、存储部165及输入输出部169间的数据的发送及接收可以通过传送通道168进行。

[处理部163a及处理部163b]

处理部163a具有通过使用从通信部161a及数据库167等供应的数据进行运算的功能。处理部163b具有通过使用从通信部161b、存储部165及输入输出部169等供应的数据进行运算的功能。关于处理部163a及处理部163b可以参照处理部103的说明。处理部163a的处理能力优选高于处理部163b。

[存储部165]

存储部165具有储存处理部163b执行的程序的功能。此外，存储部165具有储存处理部163b所生成的运算结果、输入到通信部161b的数据以及输入到输入输出部169的数据等的功能。

[数据库167]

数据库167具有储存检索对象文件TD及文本块TB的功能。此外，数据库167也可以具有储存处理部163a所生成的运算结果以及输入到通信部161a的数据等的功能。或者，服务器151也可以包括数据库167以外的存储部，该存储部也可以具有储存处理部163a所生成的运算结果以及输入到通信部161a的数据等的功能。

[通信部161a及通信部161b]

通过使用通信部161a及通信部161b可以在服务器151与终端152之间进行数据的发送及接收。作为通信部161a及通信部161b可以使用集线器、路由器、调制解调器等。数据的发送及接收可以使用有线也可以使用无线(例如，电波、红外线等)。

本实施方式可以与其他实施方式适当地组合。

[符号说明]

S1：句子、S2：句子、S3：句子、S26：句子、STB：检索文本块、STD：检索文件、STS1：句子、STS2：句子、STSp：句子、TB：文本块、TB1：文本块、TB2：文本块、TB3：文本块、TB4：文本块、TB6：文本块、TB7：文本块、TB9：文本块、TB62：文本块、TD：检索对象文件、TD1：检索对象文件、TD2：检索对象文件、TDn：检索对象文件、100：文件检索系统、101：输入部、102：传送通道、103：处理部、105：存储部、107：数据库、109：输出部、110：第一对象、110(i)：第一对象、120：第二对象、120(i)：第二对象、150：文件检索系统、151：服务器、152：终端、161a：通信部、161b：通信部、162：传送通道、163a：处理部、163b：处理部、165：存储部、167：数据库、168：传送通道、169：输入输出部

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 文件检索方法、文件检索系统、程序以及非暂时性计算机可读存储介质 [P] . 中国专利： CN113168415A . 2021-07-23
2. 文件检索系统、文件检索方法、程序以及非暂时性计算机可读存储介质 [P] . 中国专利： CN112136126A . 2020-12-25
3. DOCUMENT RETRIEVAL SYSTEM, DOCUMENT RETRIEVAL METHOD, PROGRAM FOR EXECUTING DOCUMENT RETRIEVAL, COMPUTER READABLE STORAGE MEDIUM WITH THE PROGRAM RECORDED THEREON, COMPILATION DEVICE, COMPILATION METHOD, PROGRAM FOR EXECUTING COMPILATION METHOD, COMPUTER READABLE STORAGE MEDIUM WITH THE PROGRAM RECORDED THEREON, AND RETRIEVAL AUTOMATION EVALUATION DEVICE [P] . 日本专利： JP2004126933A . 2004-04-22

机译：文件检索系统，文件检索方法，用于执行文件检索的程序，带有记录的程序的计算机可读存储介质，编译设备，编译方法，用于执行编译方法的程序，计算机可读存储介质，带有程序的存储介质设备
4. DOCUMENT RETRIEVAL METHOD, DOCUMENT RETRIEVAL SYSTEM, PROGRAM, AND NON-TEMPORARY COMPUTER-READABLE STORAGE MEDIUM [P] . 世界知识产权组织专利： WO2020109921A1 . 2020-06-04

机译：文件检索方法，文件检索系统，程序和非临时性计算机可读存储介质
5. DOCUMENT MANAGEMENT APPARATUS, DOCUMENT MANAGEMENT METHOD, AND COMPUTER-READABLE NON-TRANSITORY STORAGE MEDIUM STORING DOCUMENT MANAGEMENT PROGRAM [P] . 美国专利： US2011238617A1 . 2011-09-29

机译：文件管理装置，文件管理方法和计算机可读非暂时性存储介质存储文件管理程序