首页> 中国专利> 文档相似性评价系统、文档相似性评价方法以及计算机程序

文档相似性评价系统、文档相似性评价方法以及计算机程序

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

一种能够评价至少两类文档中具有高相似性的部分的集中和分散程度的文档相似性评价系统或类似系统，包括：片段搜索单元，在第一片段串和第二片段串二者中寻找公共片段，对找到的公共片段的个数进行计数，并识别出现所述公共片段的出现范围；以及相似性指数计算单元，执行：计算第一和，即片段搜索单元识别出的出现范围中包括的每个片段的字符个数和；计算第二和，即是被识别为公共片段的每个片段的字符个数和；并且使用以下等式计算对第一片段串与第二片段串之间的相似性加以指示的相似性指数：相似性指数＝F(NTC)/G(NCC)×NS(其中，NTC是第一和，NCC是第二和，NS是公共片段的个数，函数F和函数G是将特定整数值与正实数值相关联的单调增函数)。

著录项

公开/公告号CN103218388A

专利类型发明专利
公开/公告日2013-07-24

原文格式PDF
申请/专利权人日本电气株式会社;
展开▼

申请/专利号CN201210528898.0
发明设计人周文琦;
展开▼

申请日2012-12-10
分类号G06F17/30;
代理机构中科专利商标代理有限责任公司;
代理人王波波
地址日本东京都
入库时间 2024-02-19 19:37:31

法律信息

法律状态公告日

法律状态信息

法律状态
2017-06-27

授权

授权
2014-08-13

实质审查的生效 IPC(主分类):G06F17/30 申请日:20121210

实质审查的生效
2013-07-24

公开

公开

说明书

本申请基于并要求2012年1月19日递交的日本专利申请 No.2012-008691的优先权权益，其全部公开内容通过引用合并于此。

技术领域

本发明涉及评价文档之间相似性的信息处理技术领域。

背景技术

评价不同文档之间相似性的方法广泛用于评价科学论文之间的相似性或者检测公司文档之间的相似性。专利文档1至3公开了文档相似性确定系统。

在专利文档1至2中公开的文档相似性确定系统中，首先针对每一页分离整个文档，或者在出现特定字符串的每个位置处分割整个文档 (在下文中，一个分离出(或分割出)的单元被称作“片段”)，并且针对每个片段计算特性值。按照文档中从第一个片段到最后一个片段的顺序，通过比较片段的特性值，基于特性值彼此相同的片段的个数来确定不同文档之间的相似性。作为确定的结果，当特性值彼此相同的片段的个数较多时，文档之间的相似性较高，相反，当特性值彼此相同的片段的个数较少时，文档之间的相似性较低。

在专利文档3中公开的文档相似性确定系统中，从句子中分离文档中存在的图和等式，针对分离出的图和等式的布置来定义密集程度，并且将密集程度用作确定相似性的指数。

[专利文档]

[专利文档1]日本专利申请特开No.2008-257444

[专利文档2]日本专利申请特开No.2010-256951

[专利文档3]国际公开No.WO 2009/048149

[本发明的简要概述]

[本发明要解决的问题]

上述专利文档中描述的文档相似性确定系统可以评价整个文档之间的相似性。然而，这些文档相似性确定系统不能评价具有高相似性的部分是集中在特定段落中还是分散在整个文档中。

发明内容

考虑到上述问题提出本发明。本发明的主要目的是提供一种针对至少两类文档之间的相似性确定具有高相似性的部分的文档相似性评价系统或类似系统。

为了实现上述目的，根据本发明的文档相似性评价系统的特征在于具有以下配置。

即，根据本发明的文档相似性评价系统的特征在于包括：

片段搜索单元，所述片段搜索单元在第一片段串和第二片段串二者中寻找公共片段，对找到的所述公共片段的个数进行计数，并且识别出现所述公共片段的出现范围；以及

相似性指数计算单元，所述相似性指数计算单元：计算第一和，所述第一和是所述片段搜索单元识别出的所述出现范围中包括的每个片段的字符个数和；计算第二和，所述第二和是被识别为所述公共片段的每个片段的字符个数和；以及使用以下等式计算对所述第一片段串与所述第二片段串之间的相似性加以指示的相似性指数：

相似性指数＝F(NTC)/G(NCC)×NS，

(其中，在上述等式中，NTC是所述第一和，NCC是所述第二和， NS是所述公共片段的个数，并且函数F和函数G是将特定整数值与正实数值相关联的单调增函数。)

作为本发明的另一方面，根据本发明的文档相似性评价方法的特征在于包括：

在第一片段串和第二片段串二者中寻找公共片段；

对找到的所述公共片段的个数进行计数；

识别出现所述公共片段的出现范围；

计算第一和，所述第一和是所述出现范围中包括的每个片段的字符个数和；

计算第二和，所述第二和是被识别为所述公共片段的每个片段的字符个数和；并且

使用以下等式计算对所述第一片段串与所述第二片段串之间的相似性加以指示的相似性指数：

相似性指数＝F(NTC)/G(NCC)×NS，

此外，该目的还可以通过使用计算机程序以及存储了所述计算机程序的计算机可读存储介质来实现，所述计算机程序使计算机实现具有上述配置的文档相似性评价系统和对应方法。

通过使用本发明，可以针对至少两类文档之间的相似性来确定具有高相似性的部分。

附图说明

结合附图，通过以下详细描述，本发明的示例性特征和优点将变得显而易见，在附图中：

图1是示出了根据本发明第一示例性实施例的文档相似性评价系统的配置的框图，

图2是示出了根据本发明第一示例性实施例的文档相似性评价系统中执行的处理步骤的流程图，

图3是示意性示出了可以实现根据示例性实施例的文档相似性评价系统的计算机处理装置的硬件配置的图，

图4是示出了用于说明根据本发明第一示例性实施例的文档相似性评价系统中执行的处理步骤的示例的图，以及

图5是示出了字符个数表的示例的图，在字符个数表中，片段与片段中包括的字符个数相关联。

具体实施方式

接着，参照附图详细描述本发明的示例性实施例。

在以下说明中，片段是例如通过针对每一页分离整个文档或者在出现特定字符串的每个位置处分割整个文档或者通过以特定长度分割整个文档而获得的一个分离出或分割出的单元。特性值是通过将诸如散列值、CRC(循环冗余校验)值、和校验值等特定字符串转换成数字值而获得的值。已知并广泛使用用于将文档分离成片段的方法以及用于计算特性值的各种方法。因此，在本示例性实施例中省略了对这些方法的说明。将文档分离成片段的方法和用于计算特性值的方法不限于本示例性实施例中作为示例描述的方法。

<第一示例性实施例>

图1是示出了根据本发明第一示例性实施例的文档相似性评价系统的配置的框图。

参照图1，根据示例性实施例的文档相似性评价系统101包括片段搜索单元102和相似性指数计算单元103。

以下描述计算文档A与文档B之间的相似性的情况。片段搜索单元 102接收串1(在下文中，被称作“片段串1”)和串2(在下文中，被称作“片段串2”)作为输入，串1表示与文档A有关的片段的特性值序列，串2表示与文档B有关的片段的特性值序列。片段搜索单元102按照作为评价目标的文档中从第一个片段到最后一个片段或者从最后一个片段到第一片段的顺序，通过执行片段串1与片段串2之间的比较来在片段串1和片段串2二者中寻找公共片段。接着，片段搜索单元102对找到的公共片段的个数进行计数(下文中，描述为NS)，并且识别片段串2 中公共片段的第一个位置和公共片段的最后一个位置(下文中，包括了在第一个位置与最后一个位置之间存在的所有片段在内的范围被称作“出现范围”)。

接着，相似性指数计算单元103接收作为输入接收到的片段串2、上述出现范围以及输入的字符个数表(字符个数信息)。在作为字符个数信息的字符个数表中，将存在于片段串1或片段串2中的片段与在相应片段中存在的字符的个数相关联，并且至少存储这些信息(图5)。例如，在图5中示出的字符个数表中，由于句子A1包括12个字符，因此“A1”与“12”相关联，并且存储该信息。相似性指数计算单元103 针对片段搜索单元102识别出的出现范围中包括的每个片段，从输入的字符个数表中读取与片段相关联的字符个数，并且计算字符个数和(下文中，描述为“NCC”)。此外，相似性指数计算单元103针对作为识别为公共片段的每个片段，从输入的字符个数表中读取与片段相关联的字符个数，并且计算字符个数和(下文中，描述为“NTC”)。接着，相似性指数计算单元103使用以下等式计算相似性指数。

相似性指数＝F(NTC)/G(NCC)×NS (等式1)

这里，函数F和函数G是将特定整数值与正实数值相关联的单调增函数。

在说明上述文档相似性评价系统的配置时，根据示例性实施例的文档相似性评价系统针对片段串2识别出现范围。但是，根据该示例性实施例的文档相似性评价系统可以针对片段串1识别出现范围。

图2是示出了根据本发明第一示例性实施例的文档相似性评价系统中执行的处理步骤的流程图。接着，参照图1和图2描述根据示例性实施例的文档相似性评价系统的操作。

片段搜索单元102接收表示文档A的片段串1和表示文档B的片段串2作为输入。片段搜索单元102按照片段串中从第一个片段到最后一个片段的顺序，在片段串1和片段串2二者中寻找公共片段(步骤 S201)。接着，片段搜索单元102对在步骤S201中找到的公共片段的个数进行计数(步骤S202)，并且识别片段串2中的出现范围(步骤S203)。

接着，相似性指数计算单元103接收输入的片段串2、上述出现范围、和输入的字符个数表。相似性指数计算单元103针对片段搜索单元 102识别出的出现范围中包括的每个片段，从输入的字符个数表中读取与片段相关联的字符个数，并且计算作为字符个数和的NCC。接着，相似性指数计算单元103针对识别为公共片段的每个片段，从输入的字符个数表中读取与片段相关联的字符个数，并且计算作为字符个数和的NTC(步骤S204)。接着，相似性指数计算单元103使用等式1计算相似性指数(步骤S205)。

在上述对处理步骤的说明中，根据示例性实施例的文档相似性评价系统针对片段串2识别出现范围。然而，根据该示例性实施例的文档相似性评价系统可以针对片段串1识别出现范围。

专利文档1中公开的文档相似性确定系统采用NS作为相似性指数。另一方面，根据示例性实施例的文档相似性评价系统采用通过用 NS乘以函数F(NTC)与函数G(NCC)的比值而获得的值。这里，函数F 和函数G都是将特定整数值与正实数值相关联的单调增函数。因此，当公共片段密集出现时，F(NTC)/G(NCC)的值较大，相反，当公共片段分散时，F(NTC)/G(NCC)的值较小。甚至在通过专利文档1中公开的文档相似性确定系统计算出相同值的相似性指数的情况下，如果使用根据示例性实施例的文档相似性确定系统，也会存在根据公共片段的集中程度和分散程度而计算出不同值的相似性指数的高概率。

图4是示出了用于说明根据本发明第一示例性实施例的文档相似性评价系统中执行的处理步骤的示例的图。接着，参照图1、图2和图4 描述根据示例性实施例的文档相似性评价系统的操作。

如图4所示，文档A、文档B1和文档B2由表示片段的句子组成，例如，句子A1、句子A2、句子A3、句子B21、和句子B22。在下文中，通过省略词语“句子”将句子A1、句子A2等描述为“A1”、“A2”等。即，文档A由包括A1、A2和A3的片段串组成。文档B1由包括A1和A2 的片段串组成，文档B2由包括A1、B21、A2、B22和A3的片段串组成。这里，为了便于说明，假定所有片段A1、A2、A3、B21和B22包括相同个数字符，并且字符个数为N。相似性指数计算单元103的函数F和函数G输出输入值而不改变该输入值。

下面描述在输入表示文档A和文档B1的片段串的情况下的操作。片段搜索单元102在表示文档A的片段串和表示文档B1的片段串二者中寻找公共片段(步骤S201)，并且发现片段A1和A2是这两个文档中的公共片段。接着，片段搜索单元102对公共片段的个数进行计数(步骤S202)，并且发现公共片段的个数为2。接着，片段搜索单元102识别表示文档B1的片段串中的出现范围(步骤S203)，并且识别出所述出现范围包括片段A1和A2。

相似性指数计算单元103针对片段搜索单元102所识别的出现范围中包括的每个片段，从输入的字符个数表中读取与片段相关联的字符个数，并且计算出现范围中包括的每个片段的字符个数和。在这种情况下，NCC是2×N。接着，相似性指数计算单元103针对识别为公共片段的每个片段从输入的字符个数表中读取与片段相关联的字符个数，并且计算作为字符个数和的NTC(步骤S204)。在这种情况下， NTC是2×N。相似性指数计算单元103使用上述等式1计算指数，并且获得2(＝2N/2N×2)作为指数。

接着，对输入表示文档A的片段串和表示文档B2的片段串的情况下的操作进行描述。片段搜索单元102在表示文档A的片段串和表示文档B2的片段串二者中寻找公共片段(步骤S201)，并且发现片段A1、 A2和A3是这两个文档中的公共片段。接着，片段搜索单元102对公共片段的个数进行计数(步骤S202)，并发现公共片段个数是3。接着，片段搜索单元102识别表示文档B2的片段串中的出现范围(步骤 S203)，并且识别出所述出现范围包括片段A1、B21、A2、B22和A3。

相似性指数计算单元103针对片段搜索单元102所识别的出现范围中包括的每个片段，从输入的字符个数表中读取与片段相关联的字符个数，并且计算出现范围中包括的每个片段的字符个数和。在这种情况下，NCC是5×N。接着，相似性指数计算单元103针对作为公共片段识别的每个片段，从输入的字符个数表中读取与片段相关联的字符个数，并且计算作为字符个数和的NTC(步骤S204)。在这种情况下， NTC是3×N。相似性指数计算单元103使用上述等式1计算指数，并且获得1.8(＝3N/5N×3)作为指数。

根据示例性实施例的文档相似性评价系统针对文档A和文档B1所计算的相似性指数是2，针对文档A和文档B2所计算的相似性指数是 108。相应地，根据示例性实施例的系统通过比较两个计算的相似性指数确定文档B1与文档A相似。

然而，当使用专利文档1中公开的文档相似性确定系统时，针对文档A和文档B1获得相似性指数2，针对文档A和文档B2获得相似性指数3。相应地，专利文档1中公开的文档相似性确定系统基于计算的相似性指数来确定文档B2与文档A相似。在图4中，清楚的是，与文档 B1相比，公共片段分散在文档B2中。因此，根据本发明的系统所计算的值小于专利文档1公开的文档相似性确定系统所计算的值。因此。根据本示例性实施例的文档相似性评价系统可以提供这样的指数：通过该指数，可以在评价中涉及文档中具有高相似性的部分的集中和分散程度。

在上述说明中，为了简化说明，假定所有片段A1、A2、A3、B21 和B22包括相同个数的字符。然而，即使当使用每个片段中包括的字符个数彼此不同的系统配置(处理配置)时，也可以保持本示例性所获得的效果。类似地，在上述说明中，假定相似性指数计算单元103 的函数F和函数G输出输入值而不改变所述输入值。然而，只要函数F 和函数G是将特定整数值与正实数值相关联的单调增函数，顺序关系就不可逆。因此保持了本示例性实施例所获得的效果。

即，通过本示例性实施例，可以提供可以评价至少两类文档中具有高相似性的部分的集中和分散程度的文档相似性评价系统。

<第二示例性实施例>

接着，描述基于上述第一示例性实施例的第二示例性实施例。

在以下描述中，说明集中于本示例性实施例的特性部分，并且省略了对与上述第一示例性实施例的配置相同的配置的说明。

参照图1描述根据第二示例性实施例的文档相似性评价系统。在片段搜索单元102计算NCC和NTC之后，相似性指数计算单元103使用以下等式2针对输入的片段串1和2计算相似性指数。

相似性指数＝H(NTC/NCC)×NS (等式2)

这里，函数H是将特定实数值与正实数值相关联的单调增函数。

根据示例性实施例的文档相似性评价系统采用通过将NS乘以H (NTC/NCC)而获得的相似性指数。函数H是将特定实数值与正实数值相关联的单调增函数。因此，当公共片段集中时，H(NTC/NCC)的值较大，相反，当公共片段分散时，H(NTC/NCC)的值较小。因此，甚至在通过专利文档1中公开的文档相似性确定系统计算出相同值的相似性指数的情况下，如果使用根据示例性实施例的文档相似性评价系统，也会存在根据公共片段的集中和分散程度计算出不同值的相似性指数的高概率。

即，通过该示例性实施例，提供了可以评价至少两类文档中具有高相似性的部分的集中和分散程度的文档相似性评价系统。

<第三示例性实施例>

接着，描述基于上述第一示例性实施例的第三示例性实施例。

在以下描述中，说明集中于本示例性实施例的特性部分，并且省略了对与上述第一示例性实施例的配置相同的配置的说明。

参照图1描述根据第三示例性实施例的文档相似性评价系统。在片段搜索单元102计算NCC和NTC之后，相似性指数计算单元103使用以下等式3针对输入的片段串1和2计算相似性指数。

相似性指数＝NTC/NCC×NS(等式3)

根据示例性实施例的文档相似性评价系统采用通过将NS乘以 NTC与NCC的比值而获得的相似性指数。当公共片段集中时， NTC/NCC的值较大，相反，当公共片段分散时，NTC/NCC的值较小。因此，甚至在通过专利文档1中公开的文档相似性确定系统计算出相同值的相似性指数的情况下，如果使用根据示例性实施例的文档相似性评价系统，则存在根据公共片段的集中和分散程度计算出不同值的相似性指数的高概率。

即，通过该示例性实施例，提供了可以评价至少两类文档中具有高相似性的部分的集中和分散程度的文档相似性评价系统。

(硬件配置的示例)

接着，描述硬件资源配置的示例，其中，使用一个计算机处理装置(信息处理设备或计算机)来实现在上述每个示例性实施例中描述的文档相似性评价系统。然而，可以在物理上或功能上使用至少两个计算机处理装置来实现文档相似性评价系统。此外，可以将文档相似性评价系统实现为专用设备。

图3是示意性示出了计算机处理设备的配置的图，通过该计算机处理设备可以实现根据本发明第一至第三示例性实施例的文档相似性评价系统。计算机处理装置306包括CPU(中央处理单元)301、存储器302、磁盘303、输出设备304和输入设备305。

即，CPU 301在执行程序时将磁盘303中存储的软件程序(计算机程序：下文中，简单称作程序)拷贝到存储器302中，并且执行算术处理。CPU 301从存储器302中读取执行程序所需的数据。当需要显示时， CPU 301显示输出设备304中的输出结果。当从外部输入程序时，CPU 301从输入设备305中读取程序。CPU 301对存储器302中的文档相似性评价系统进行解译，并且执行程序。CPU 301根据流程图(图2)以及在上述每个示例性实施例中引述的等式顺序地执行处理。在这样的情况下，考虑到本发明包括计算机程序编译的代码或存储该代码的计算机可读存储介质。

提供在前的实施例描述来使得本领域技术人员能够实现和使用本发明。此外，对这些示例性实施例的各种修改对于本领域技术人员是显而易见的，并且可以将本文定义的一般原理和特定示例应用于其他实施例，而无需使用创造性能力。因此，本发明不应限制于本文描述的示例性实施例，而是应当符合权利要求和等同物的限制所限定的最宽范围。

此外，应当注意本发明人的意图在于即使在审查期间修改权利要求的情况下也能够保持要求保护的本发明的所有等同物。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 文档相似性评价系统、文档相似性评价方法以及计算机程序 [P] . 中国专利： CN103218388B . 2017.06.27
2. 文档相似性评价系统、文档相似性评价方法以及计算机程序 [P] . 中国专利： CN103218388A . 2013-07-24
3. Multilingual document similarity learning apparatus, multilingual document similarity determination apparatus, multilingual document similarity learning method, multilingual document similarity determination method, and multilingual document similarity learning program [P] . 日本专利： JPWO2015145981A1 . 2017-04-13

机译：多语言文档相似性学习设备，多语言文档相似性确定设备，多语言文档相似性学习方法，多语言文档相似性确定方法和多语言文档相似性学习程序
4. Method for processing of documents, esp. electronic documents, requires determining similarity of document being processed with specified additional electronic documents [P] . 德国专利： DE10355920A1 . 2005-07-07

机译：文件的处理方法，特别是电子文档，要求确定正在处理的文档与指定的其他电子文档的相似性
5. Organizing and categorizing hypertext document bookmarks by mutual affinity based on predetermined affinity criteria [P] . 美国专利： US6832350B1 . 2004-12-14

机译：根据预定的相似性标准，通过相互相似性对超文本文档书签进行组织和分类