首页> 中国专利> 文档相似性评价系统、文档相似性评价方法以及计算机程序

文档相似性评价系统、文档相似性评价方法以及计算机程序

摘要

一种能够评价至少两类文档中具有高相似性的部分的集中和分散程度的文档相似性评价系统或类似系统,包括:片段搜索单元,在第一片段串和第二片段串二者中寻找公共片段,对找到的公共片段的个数进行计数,并识别出现所述公共片段的出现范围;以及相似性指数计算单元,执行:计算第一和,即片段搜索单元识别出的出现范围中包括的每个片段的字符个数和;计算第二和,即是被识别为公共片段的每个片段的字符个数和;并且使用以下等式计算对第一片段串与第二片段串之间的相似性加以指示的相似性指数:相似性指数=F(NTC)/G(NCC)×NS(其中,NTC是第一和,NCC是第二和,NS是公共片段的个数,函数F和函数G是将特定整数值与正实数值相关联的单调增函数)。

著录项

  • 公开/公告号CN103218388A

    专利类型发明专利

  • 公开/公告日2013-07-24

    原文格式PDF

  • 申请/专利权人 日本电气株式会社;

    申请/专利号CN201210528898.0

  • 发明设计人 周文琦;

    申请日2012-12-10

  • 分类号G06F17/30;

  • 代理机构中科专利商标代理有限责任公司;

  • 代理人王波波

  • 地址 日本东京都

  • 入库时间 2024-02-19 19:37:31

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-06-27

    授权

    授权

  • 2014-08-13

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20121210

    实质审查的生效

  • 2013-07-24

    公开

    公开

说明书

本申请基于并要求2012年1月19日递交的日本专利申请 No.2012-008691的优先权权益,其全部公开内容通过引用合并于此。

技术领域

本发明涉及评价文档之间相似性的信息处理技术领域。

背景技术

评价不同文档之间相似性的方法广泛用于评价科学论文之间的 相似性或者检测公司文档之间的相似性。专利文档1至3公开了文档相 似性确定系统。

在专利文档1至2中公开的文档相似性确定系统中,首先针对每一 页分离整个文档,或者在出现特定字符串的每个位置处分割整个文档 (在下文中,一个分离出(或分割出)的单元被称作“片段”),并且 针对每个片段计算特性值。按照文档中从第一个片段到最后一个片段 的顺序,通过比较片段的特性值,基于特性值彼此相同的片段的个数 来确定不同文档之间的相似性。作为确定的结果,当特性值彼此相同 的片段的个数较多时,文档之间的相似性较高,相反,当特性值彼此 相同的片段的个数较少时,文档之间的相似性较低。

在专利文档3中公开的文档相似性确定系统中,从句子中分离文 档中存在的图和等式,针对分离出的图和等式的布置来定义密集程度, 并且将密集程度用作确定相似性的指数。

[专利文档]

[专利文档1]日本专利申请特开No.2008-257444

[专利文档2]日本专利申请特开No.2010-256951

[专利文档3]国际公开No.WO 2009/048149

[本发明的简要概述]

[本发明要解决的问题]

上述专利文档中描述的文档相似性确定系统可以评价整个文档 之间的相似性。然而,这些文档相似性确定系统不能评价具有高相似 性的部分是集中在特定段落中还是分散在整个文档中。

发明内容

考虑到上述问题提出本发明。本发明的主要目的是提供一种针对 至少两类文档之间的相似性确定具有高相似性的部分的文档相似性评 价系统或类似系统。

为了实现上述目的,根据本发明的文档相似性评价系统的特征在 于具有以下配置。

即,根据本发明的文档相似性评价系统的特征在于包括:

片段搜索单元,所述片段搜索单元在第一片段串和第二片段串二 者中寻找公共片段,对找到的所述公共片段的个数进行计数,并且识 别出现所述公共片段的出现范围;以及

相似性指数计算单元,所述相似性指数计算单元:计算第一和, 所述第一和是所述片段搜索单元识别出的所述出现范围中包括的每个 片段的字符个数和;计算第二和,所述第二和是被识别为所述公共片 段的每个片段的字符个数和;以及使用以下等式计算对所述第一片段 串与所述第二片段串之间的相似性加以指示的相似性指数:

相似性指数=F(NTC)/G(NCC)×NS,

(其中,在上述等式中,NTC是所述第一和,NCC是所述第二和, NS是所述公共片段的个数,并且函数F和函数G是将特定整数值与正 实数值相关联的单调增函数。)

作为本发明的另一方面,根据本发明的文档相似性评价方法的特 征在于包括:

在第一片段串和第二片段串二者中寻找公共片段;

对找到的所述公共片段的个数进行计数;

识别出现所述公共片段的出现范围;

计算第一和,所述第一和是所述出现范围中包括的每个片段的字 符个数和;

计算第二和,所述第二和是被识别为所述公共片段的每个片段的 字符个数和;并且

使用以下等式计算对所述第一片段串与所述第二片段串之间的 相似性加以指示的相似性指数:

相似性指数=F(NTC)/G(NCC)×NS,

(其中,在上述等式中,NTC是所述第一和,NCC是所述第二和, NS是所述公共片段的个数,并且函数F和函数G是将特定整数值与正 实数值相关联的单调增函数。)

此外,该目的还可以通过使用计算机程序以及存储了所述计算机 程序的计算机可读存储介质来实现,所述计算机程序使计算机实现具 有上述配置的文档相似性评价系统和对应方法。

通过使用本发明,可以针对至少两类文档之间的相似性来确定具 有高相似性的部分。

附图说明

结合附图,通过以下详细描述,本发明的示例性特征和优点将变 得显而易见,在附图中:

图1是示出了根据本发明第一示例性实施例的文档相似性评价系 统的配置的框图,

图2是示出了根据本发明第一示例性实施例的文档相似性评价系 统中执行的处理步骤的流程图,

图3是示意性示出了可以实现根据示例性实施例的文档相似性评 价系统的计算机处理装置的硬件配置的图,

图4是示出了用于说明根据本发明第一示例性实施例的文档相似 性评价系统中执行的处理步骤的示例的图,以及

图5是示出了字符个数表的示例的图,在字符个数表中,片段与 片段中包括的字符个数相关联。

具体实施方式

接着,参照附图详细描述本发明的示例性实施例。

在以下说明中,片段是例如通过针对每一页分离整个文档或者在 出现特定字符串的每个位置处分割整个文档或者通过以特定长度分割 整个文档而获得的一个分离出或分割出的单元。特性值是通过将诸如 散列值、CRC(循环冗余校验)值、和校验值等特定字符串转换成数 字值而获得的值。已知并广泛使用用于将文档分离成片段的方法以及 用于计算特性值的各种方法。因此,在本示例性实施例中省略了对这 些方法的说明。将文档分离成片段的方法和用于计算特性值的方法不 限于本示例性实施例中作为示例描述的方法。

<第一示例性实施例>

图1是示出了根据本发明第一示例性实施例的文档相似性评价系 统的配置的框图。

参照图1,根据示例性实施例的文档相似性评价系统101包括片段 搜索单元102和相似性指数计算单元103。

以下描述计算文档A与文档B之间的相似性的情况。片段搜索单元 102接收串1(在下文中,被称作“片段串1”)和串2(在下文中,被称 作“片段串2”)作为输入,串1表示与文档A有关的片段的特性值序列, 串2表示与文档B有关的片段的特性值序列。片段搜索单元102按照作 为评价目标的文档中从第一个片段到最后一个片段或者从最后一个片 段到第一片段的顺序,通过执行片段串1与片段串2之间的比较来在片 段串1和片段串2二者中寻找公共片段。接着,片段搜索单元102对找到 的公共片段的个数进行计数(下文中,描述为NS),并且识别片段串2 中公共片段的第一个位置和公共片段的最后一个位置(下文中,包括 了在第一个位置与最后一个位置之间存在的所有片段在内的范围被称 作“出现范围”)。

接着,相似性指数计算单元103接收作为输入接收到的片段串2、 上述出现范围以及输入的字符个数表(字符个数信息)。在作为字符个 数信息的字符个数表中,将存在于片段串1或片段串2中的片段与在相 应片段中存在的字符的个数相关联,并且至少存储这些信息(图5)。 例如,在图5中示出的字符个数表中,由于句子A1包括12个字符,因 此“A1”与“12”相关联,并且存储该信息。相似性指数计算单元103 针对片段搜索单元102识别出的出现范围中包括的每个片段,从输入的 字符个数表中读取与片段相关联的字符个数,并且计算字符个数和(下 文中,描述为“NCC”)。此外,相似性指数计算单元103针对作为识 别为公共片段的每个片段,从输入的字符个数表中读取与片段相关联 的字符个数,并且计算字符个数和(下文中,描述为“NTC”)。接着, 相似性指数计算单元103使用以下等式计算相似性指数。

相似性指数=F(NTC)/G(NCC)×NS    (等式1)

这里,函数F和函数G是将特定整数值与正实数值相关联的单调增 函数。

在说明上述文档相似性评价系统的配置时,根据示例性实施例的 文档相似性评价系统针对片段串2识别出现范围。但是,根据该示例性 实施例的文档相似性评价系统可以针对片段串1识别出现范围。

图2是示出了根据本发明第一示例性实施例的文档相似性评价系 统中执行的处理步骤的流程图。接着,参照图1和图2描述根据示例性 实施例的文档相似性评价系统的操作。

片段搜索单元102接收表示文档A的片段串1和表示文档B的片段 串2作为输入。片段搜索单元102按照片段串中从第一个片段到最后一 个片段的顺序,在片段串1和片段串2二者中寻找公共片段(步骤 S201)。接着,片段搜索单元102对在步骤S201中找到的公共片段的个 数进行计数(步骤S202),并且识别片段串2中的出现范围(步骤S203)。

接着,相似性指数计算单元103接收输入的片段串2、上述出现范 围、和输入的字符个数表。相似性指数计算单元103针对片段搜索单元 102识别出的出现范围中包括的每个片段,从输入的字符个数表中读取 与片段相关联的字符个数,并且计算作为字符个数和的NCC。接着, 相似性指数计算单元103针对识别为公共片段的每个片段,从输入的字 符个数表中读取与片段相关联的字符个数,并且计算作为字符个数和 的NTC(步骤S204)。接着,相似性指数计算单元103使用等式1计算 相似性指数(步骤S205)。

在上述对处理步骤的说明中,根据示例性实施例的文档相似性评 价系统针对片段串2识别出现范围。然而,根据该示例性实施例的文档 相似性评价系统可以针对片段串1识别出现范围。

专利文档1中公开的文档相似性确定系统采用NS作为相似性指 数。另一方面,根据示例性实施例的文档相似性评价系统采用通过用 NS乘以函数F(NTC)与函数G(NCC)的比值而获得的值。这里,函数F 和函数G都是将特定整数值与正实数值相关联的单调增函数。因此, 当公共片段密集出现时,F(NTC)/G(NCC)的值较大,相反,当公共片 段分散时,F(NTC)/G(NCC)的值较小。甚至在通过专利文档1中公开的 文档相似性确定系统计算出相同值的相似性指数的情况下,如果使用 根据示例性实施例的文档相似性确定系统,也会存在根据公共片段的 集中程度和分散程度而计算出不同值的相似性指数的高概率。

图4是示出了用于说明根据本发明第一示例性实施例的文档相似 性评价系统中执行的处理步骤的示例的图。接着,参照图1、图2和图4 描述根据示例性实施例的文档相似性评价系统的操作。

如图4所示,文档A、文档B1和文档B2由表示片段的句子组成, 例如,句子A1、句子A2、句子A3、句子B21、和句子B22。在下文中, 通过省略词语“句子”将句子A1、句子A2等描述为“A1”、“A2”等。 即,文档A由包括A1、A2和A3的片段串组成。文档B1由包括A1和A2 的片段串组成,文档B2由包括A1、B21、A2、B22和A3的片段串组成。 这里,为了便于说明,假定所有片段A1、A2、A3、B21和B22包括相 同个数字符,并且字符个数为N。相似性指数计算单元103的函数F和 函数G输出输入值而不改变该输入值。

下面描述在输入表示文档A和文档B1的片段串的情况下的操作。 片段搜索单元102在表示文档A的片段串和表示文档B1的片段串二者 中寻找公共片段(步骤S201),并且发现片段A1和A2是这两个文档中 的公共片段。接着,片段搜索单元102对公共片段的个数进行计数(步 骤S202),并且发现公共片段的个数为2。接着,片段搜索单元102识 别表示文档B1的片段串中的出现范围(步骤S203),并且识别出所述 出现范围包括片段A1和A2。

相似性指数计算单元103针对片段搜索单元102所识别的出现范 围中包括的每个片段,从输入的字符个数表中读取与片段相关联的字 符个数,并且计算出现范围中包括的每个片段的字符个数和。在这种 情况下,NCC是2×N。接着,相似性指数计算单元103针对识别为公共 片段的每个片段从输入的字符个数表中读取与片段相关联的字符个 数,并且计算作为字符个数和的NTC(步骤S204)。在这种情况下, NTC是2×N。相似性指数计算单元103使用上述等式1计算指数,并且 获得2(=2N/2N×2)作为指数。

接着,对输入表示文档A的片段串和表示文档B2的片段串的情况 下的操作进行描述。片段搜索单元102在表示文档A的片段串和表示文 档B2的片段串二者中寻找公共片段(步骤S201),并且发现片段A1、 A2和A3是这两个文档中的公共片段。接着,片段搜索单元102对公共 片段的个数进行计数(步骤S202),并发现公共片段个数是3。接着, 片段搜索单元102识别表示文档B2的片段串中的出现范围(步骤 S203),并且识别出所述出现范围包括片段A1、B21、A2、B22和A3。

相似性指数计算单元103针对片段搜索单元102所识别的出现范 围中包括的每个片段,从输入的字符个数表中读取与片段相关联的字 符个数,并且计算出现范围中包括的每个片段的字符个数和。在这种 情况下,NCC是5×N。接着,相似性指数计算单元103针对作为公共片 段识别的每个片段,从输入的字符个数表中读取与片段相关联的字符 个数,并且计算作为字符个数和的NTC(步骤S204)。在这种情况下, NTC是3×N。相似性指数计算单元103使用上述等式1计算指数,并且 获得1.8(=3N/5N×3)作为指数。

根据示例性实施例的文档相似性评价系统针对文档A和文档B1所 计算的相似性指数是2,针对文档A和文档B2所计算的相似性指数是 108。相应地,根据示例性实施例的系统通过比较两个计算的相似性指 数确定文档B1与文档A相似。

然而,当使用专利文档1中公开的文档相似性确定系统时,针对 文档A和文档B1获得相似性指数2,针对文档A和文档B2获得相似性指 数3。相应地,专利文档1中公开的文档相似性确定系统基于计算的相 似性指数来确定文档B2与文档A相似。在图4中,清楚的是,与文档 B1相比,公共片段分散在文档B2中。因此,根据本发明的系统所计算 的值小于专利文档1公开的文档相似性确定系统所计算的值。因此。根 据本示例性实施例的文档相似性评价系统可以提供这样的指数:通过 该指数,可以在评价中涉及文档中具有高相似性的部分的集中和分散 程度。

在上述说明中,为了简化说明,假定所有片段A1、A2、A3、B21 和B22包括相同个数的字符。然而,即使当使用每个片段中包括的字 符个数彼此不同的系统配置(处理配置)时,也可以保持本示例性所 获得的效果。类似地,在上述说明中,假定相似性指数计算单元103 的函数F和函数G输出输入值而不改变所述输入值。然而,只要函数F 和函数G是将特定整数值与正实数值相关联的单调增函数,顺序关系 就不可逆。因此保持了本示例性实施例所获得的效果。

即,通过本示例性实施例,可以提供可以评价至少两类文档中具 有高相似性的部分的集中和分散程度的文档相似性评价系统。

<第二示例性实施例>

接着,描述基于上述第一示例性实施例的第二示例性实施例。

在以下描述中,说明集中于本示例性实施例的特性部分,并且省 略了对与上述第一示例性实施例的配置相同的配置的说明。

参照图1描述根据第二示例性实施例的文档相似性评价系统。在 片段搜索单元102计算NCC和NTC之后,相似性指数计算单元103使用 以下等式2针对输入的片段串1和2计算相似性指数。

相似性指数=H(NTC/NCC)×NS  (等式2)

这里,函数H是将特定实数值与正实数值相关联的单调增函数。

根据示例性实施例的文档相似性评价系统采用通过将NS乘以H (NTC/NCC)而获得的相似性指数。函数H是将特定实数值与正实数 值相关联的单调增函数。因此,当公共片段集中时,H(NTC/NCC)的 值较大,相反,当公共片段分散时,H(NTC/NCC)的值较小。因此, 甚至在通过专利文档1中公开的文档相似性确定系统计算出相同值的 相似性指数的情况下,如果使用根据示例性实施例的文档相似性评价 系统,也会存在根据公共片段的集中和分散程度计算出不同值的相似 性指数的高概率。

即,通过该示例性实施例,提供了可以评价至少两类文档中具有 高相似性的部分的集中和分散程度的文档相似性评价系统。

<第三示例性实施例>

接着,描述基于上述第一示例性实施例的第三示例性实施例。

在以下描述中,说明集中于本示例性实施例的特性部分,并且省 略了对与上述第一示例性实施例的配置相同的配置的说明。

参照图1描述根据第三示例性实施例的文档相似性评价系统。在 片段搜索单元102计算NCC和NTC之后,相似性指数计算单元103使用 以下等式3针对输入的片段串1和2计算相似性指数。

相似性指数=NTC/NCC×NS(等式3)

根据示例性实施例的文档相似性评价系统采用通过将NS乘以 NTC与NCC的比值而获得的相似性指数。当公共片段集中时, NTC/NCC的值较大,相反,当公共片段分散时,NTC/NCC的值较小。 因此,甚至在通过专利文档1中公开的文档相似性确定系统计算出相同 值的相似性指数的情况下,如果使用根据示例性实施例的文档相似性 评价系统,则存在根据公共片段的集中和分散程度计算出不同值的相 似性指数的高概率。

即,通过该示例性实施例,提供了可以评价至少两类文档中具有 高相似性的部分的集中和分散程度的文档相似性评价系统。

(硬件配置的示例)

接着,描述硬件资源配置的示例,其中,使用一个计算机处理装 置(信息处理设备或计算机)来实现在上述每个示例性实施例中描述 的文档相似性评价系统。然而,可以在物理上或功能上使用至少两个 计算机处理装置来实现文档相似性评价系统。此外,可以将文档相似 性评价系统实现为专用设备。

图3是示意性示出了计算机处理设备的配置的图,通过该计算机 处理设备可以实现根据本发明第一至第三示例性实施例的文档相似性 评价系统。计算机处理装置306包括CPU(中央处理单元)301、存储 器302、磁盘303、输出设备304和输入设备305。

即,CPU 301在执行程序时将磁盘303中存储的软件程序(计算机 程序:下文中,简单称作程序)拷贝到存储器302中,并且执行算术处 理。CPU 301从存储器302中读取执行程序所需的数据。当需要显示时, CPU 301显示输出设备304中的输出结果。当从外部输入程序时,CPU 301从输入设备305中读取程序。CPU 301对存储器302中的文档相似性 评价系统进行解译,并且执行程序。CPU 301根据流程图(图2)以及 在上述每个示例性实施例中引述的等式顺序地执行处理。在这样的情 况下,考虑到本发明包括计算机程序编译的代码或存储该代码的计算 机可读存储介质。

提供在前的实施例描述来使得本领域技术人员能够实现和使用 本发明。此外,对这些示例性实施例的各种修改对于本领域技术人员 是显而易见的,并且可以将本文定义的一般原理和特定示例应用于其 他实施例,而无需使用创造性能力。因此,本发明不应限制于本文描 述的示例性实施例,而是应当符合权利要求和等同物的限制所限定的 最宽范围。

此外,应当注意本发明人的意图在于即使在审查期间修改权利要 求的情况下也能够保持要求保护的本发明的所有等同物。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号