首页> 中国专利> 一种基于上下文关联的中文相似性比较方法

一种基于上下文关联的中文相似性比较方法

摘要

本发明提出一种基于上下文关联的中文相似性比较方法,应用于中文相似性比较技术领域,该方法首先将要进行比较的两篇文本的文本流进行分词和索引,为每一个文本建立倒排表,然后对倒排表进行相似性检测,得到可疑相似片段,最后对可疑相似片段进行聚合,得到相似文本块,在相似文本块的生成过程中考虑到上下文的关联。本发明方法先发现较小可疑相似片段,再对可疑相似片段进行聚合,减少了空间向量模型中粒度大小与误判、漏判率之间的矛盾,实现对两篇文本的相似性比较。

著录项

  • 公开/公告号CN102314418A

    专利类型发明专利

  • 公开/公告日2012-01-11

    原文格式PDF

  • 申请/专利权人 北京航空航天大学;

    申请/专利号CN201110303533.3

  • 发明设计人 赵长海;晏海华;郎钰泽;

    申请日2011-10-09

  • 分类号G06F17/27;

  • 代理机构北京永创新实专利事务所;

  • 代理人周长琪

  • 地址 100191 北京市海淀区学院路37号

  • 入库时间 2023-12-18 04:04:27

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-11-25

    未缴年费专利权终止 IPC(主分类):G06F17/27 授权公告日:20130724 终止日期:20141009 申请日:20111009

    专利权的终止

  • 2013-07-24

    授权

    授权

  • 2012-04-18

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20111009

    实质审查的生效

  • 2012-01-11

    公开

    公开

说明书

技术领域

本发明涉及中文相似性比较技术领域,具体是一种基于上下文关联的中文相似性比较方 法。

背景技术

中文相似性比较技术广泛应用于抄袭检测、信息检索、机器翻译、文本挖掘、网页去重 等领域,因为计算机对自然语言,尤其是中文的理解很困难,所以一直是人们研究的热点和 难点。

相似性比较方法的目的是判断两篇文本是否“相似”。这里所说的“相似”,应该是指语 义层面的所谓的“形不似而神似”。即两篇“相似”的文章,在经过(1)语法结构改变;(2) 语序调换;(3)部分词语替换;(4)加入其他内容之后,仍然能检测出其相关性。其相似度 大小取决于相似片段长度、改动程度等因素。

目前文本相似性比较广泛采用基于词频统计的方法,该方法基于VSM(向量空间模型), 对粒度设置很敏感,粒度过小则会将大量不相关的片段判定为相似,粒度过大则会产生大量 漏判。使用基于词频统计的方法的技术包括SCAM(N Shivakumar,H Garcia-Molina, SCAM:A Copy Detection Mechanism for Digital Documents,1995)、CHECK (Antonio Si Hong Va Leong Rynson W.H.Lau,CHECK:A Document Plagiarism  Detection System,1997)等。

上述基于VSM的中文相似性比较方法是把一篇文本或其中的一个粒度单位作为一个向 量,其中的每一个词或字作为该向量的一个维;这个词或字出现的次数即为该向量在该维度 上的值。这种方法相当于把一个粒度范围内的文本完全拆散成为孤立的字或词,而忽略了这 些字或词之间的上下文关联。然而在判定两篇文本是否相似的时候,其上下文经常会提供重 要的信息。现有的这些方法并没有充分利用这些上下文信息。

有关VSM的知识可以参考N Shivakumar,H Garcia-Molina的论文:SCAM:A  Copy Detection Mechanism for Digital Documents。

发明内容

本发明针对现有基于VSM的中文相似性比较方法并没有充分利用上下文信息进行比较 的问题,提出了一种基于上下文关联的中文相似性比较方法。

本发明一种基于上下文关联的中文相似性比较方法,具体包括以下步骤:

步骤1、首先将要进行比较的两篇文本的文本流进行分词,然后为每一个文本建立倒排 表,具体是:通过词汇内容建立索引,将词汇本身作为索引的键,词汇在文本中的位置作为 索引值;步骤2、对倒排表进行相似性检测,得到可疑相似片段(suspicious fragment); 步骤3、对可疑相似片段进行聚合,得到最终的相似文本块(Similar Chunk)及该相似文 本块的相似度。

所述的步骤2具体又包括:

步骤2.1、首先使用倒排表对中心词进行映射:若词X同时在文本S的倒排表和文本D 的倒排表中出现,则在文本S的倒排表和文本D的倒排表中建立词X的关系映射,并得到 以词X作为中心词、以r作为半径,长度n=2r+1的一对可疑相似片段;步骤2.2、以n个 词作为一个粒度对两篇文本S和D进行相似性检测,并确定每一对可疑相似片段的相似度;

步骤2.3、确定文本S和文本D的相似值RS,D表示文本S 对文本D的相似度,RD,S表示文本D对文本S的相似度。

所述的步骤3中生成相似文本块,是针对文本S中每个核心可疑相似片段,进行下面过 程:寻找该核心可疑相似片段的直接密度可达集合,将生成的直接密度可达集合中的核心可 疑相似片段的最小的起始位置索引号作为所要生成的相似文本块的起始位置,最大的终止位 置索引号作为所要生成的相似文本块的结束位置。

本发明的优点与积极效果在于:本发明方法先发现较小可疑相似片段,再对可疑相似片 段进行聚合,减少了空间向量模型中粒度大小与误判、漏判率之间的矛盾。

附图说明

图1是本发明的中文相似性比较方法的整体步骤流程图;

图2是本发明方法步骤二中使用倒排表对中心词进行映射的示意图;

图3是一个可疑相似片段的数据结构所包含的信息。

具体实施方式

下面将结合附图和实施例对本发明的技术方案作进一步的详细说明。

本发明的基于上下文关联的中文相似性比较方法,如图1所示,具体包括以下步骤:

步骤一、读取要进行比较的文本S和文本D,将两篇文本的文本流(Text Stream)进 行分词和索引。

从句子中划分出的每个有独立意义的词被称作分词。由于中文的词与词之间没有明确的 边界,因此,中文分词是机器翻译、分类、主题词提取以及信息检索的重要基础。本发明方 法采用基于二元迭代的自适应中英文分词算法(参考文献:曹勇刚,曹羽中等,《面向信息检 索的自适应中文分词系统》,软件学报,2006年3月)。该自适应中英文分词算法利用它采 用迭代式二元切分方法,对目标文档进行在线词频统计,使用离线词频词搜索引擎的倒排索 引,筛选候选词并进行歧义消解。在统计模型的基础上,采用姓氏列表、量词表以及停词列 表进行后处理,进一步提高了准确度,达到了进行消歧和识别新词,为用户提供检索的中心 词的目的。

在分词之后,为每一个文本建立倒排表(Indexed Doc),具体是:通过词汇内容建立索 引,词汇本身作为索引的键,词汇在文本中的位置作为索引值。

步骤二、对倒排表进行相似性检测,得到可疑相似片段。

在建立索引之后,使用较小粒度进行相似性检测,得到可疑的相似片段。所述的可疑相 似片段要经过进一步判定才可以确定是否属于一个相似文本块。

步骤2.1、寻找可疑相似片段的时候,首先使用倒排表对中心词进行映射,如图2所示。 对于每一个可疑相似片段,设立中心词和一个半径r,则可疑相似片段长度n=2r+1。如图2 所示:在待比较的两篇文本S和文本D的倒排表中,若某一个词X同时在S的倒排表和D 的倒排表中出现,则将该词X作为中心词,建立该中心词X的关系映射。

经过实验,选取可疑相似片段半径r=2,如图2所示,画斜线部分为可疑相似片段长度, 该长度为5,即由步骤一产生的5个词为一个粒度进行相似性检测。

步骤2.2、以n个词作为一个粒度进行相似性检测,并确定可疑相似片段的相似度。令 S表示候选文本、D表示待检测(或者查询)文本;令s表示候选片段,s∈S,d表示待检 测(或者查询)片段,d∈D,F(s)表示片段s的词汇向量,即VSM模型中的“向量”,该 向量以所有可能的词汇作为维度,以某维度上的词汇出现在文本S中的次数作为该维度上的 数值,F(d)表示片段d的词汇向量,以某维度上的词汇出现在文本D中的次数作为该维度上 的数值。rsf(s,d)表示一对可疑相似片段s、d的相似度。可疑相似片段的相似度rsf(s,d)可以 使用经典的VSM算法进行计算(SCAM中的算法):

rsf(s,d)=Σi=1Nαi2·F(s)·F(d)Σi=1Nαi2F(s)2·Σi=1Nαi2F(d)2---(1)

其中,N表示文本S和文本D中包含的词语的总个数,αi表示第i个词语的权重向量。

下面说明在不涉及到可疑相似片段s,d的讨论时,rsf(s,d)简写为rsf

另外,每一个可疑相似片段的数据结构都包含其相似度和在两篇文本中的位置等信息, 如图3所示,文本S与文本D的一对可疑相似片段s、d具有相同的数据结构,该数据结构 中包含该可疑相似片段s与d的相似度rsf(s,d)、片段s在文本S中的起始位置索引号 s_StartIndex、片段s在文本S中的终止位置索引号s_EndIndex、片段d在文本D中的 起始位置索引号d_StartIndex和片段d在文本D中的终止位置索引号d_EndIndex。

步骤2.3、确定文本S和文本D的相似值。令w表示某个词语,这个词语可以同时出 现在待比较的两篇文本中,也可以只出现在一篇文本中;词语w可能同时被包含在多个可疑 相似区段中,令为第j个包含w的可疑片段的相似度,则词语w的相似度为:

rsfw=max(rsfw,1,rsfw,2,rsfw,3,...,rsfw,j)---(2)

若不存在包含w的可疑相似片段,则令

则,文本S对文本D的相似度为:

RS,D=ΣwirsfwiNS,wiS---(3)

其中,wi表示S中第i个词语,表示词语wi的相似度,将词语w=wi代入式(2)能够 得到表示对文本S中所有的词语的相似度求和,NS表示文本S中包含的词的总 个数。文本D对文本S的相似度RD,S类似得到RS,D的方法可得到。

则一对文本(S,D)的相似值定义为:

步骤三、对步骤二中得到的可疑相似片段进行聚合,生成相似文本块。在此处影响聚合 的因素包括可疑相似片段的相似度rsf,以及可疑相似片段在两篇文本S和D中出现的位置, 所述的在两篇文本S和D中出现的位置就是上下文关联信息。首先进行如下定义:

定义1:给定可疑相似片段半径ε(以同一篇文本内的倒排表词的索引序号计算,可疑相 似片段的索引号定义为其中心词X的索引号)内的相邻区域称为可疑相似片段的ε邻域。

定义2:如果可疑相似片段ε邻域内至少包含最小数目为K的可疑相似片段,则称该可疑 相似片段为K的核心可疑相似片段,在K值明确的情况下,简称为核心可疑相似片段。在可 疑相似片段半径r取2情况下,实验中ε取15~25,K取2~5可以取得比较好的效果。

定义3:给定一个可疑相似片段集合C,对于可疑相似片段p,q∈C,若p在q的ε邻域内, 而q是一个核心可疑相似片段,则称从p到q是直接密度可达的。

定义4:如果存在一个可疑相似片段链p1,p2,p3,...pm,pi到pi+1是直接密度可达的 ,i为从1到(m-1)的整数,则称p1到pm是密度可达的。

生成最终的相似文本块的具体步骤如下:

步骤1、找出文本S中的所有核心可疑相似片段。

步骤2、从文本S的第一个未经本步骤计算的核心可疑相似片段Pi开始,计算核心可疑 相似片段Pi的直接密度可达集合Reachable(Pi):Reachable(Pi)={p|Pi到p是直接密度可达的}。

步骤3、对于集合Reachable(Pi)中的每个核心可疑相似片段p,确定其各自的直接密度可 达集合Reachable(p),并将其加入Reachable(Pi)。

步骤4、递归执行步骤3,直到Reachable(Pi)的大小不再发生变化。

步骤5、由对可疑相似片段的数据结构的定义可知道,Reachable(Pi)中的每一个可疑相 似片段p,都包含一个起始位置索引号(start index)和一个终止位置索引号(end index)。 寻找其中最小的起始位置索引号作为相似文本块的起始位置,最大的终止位置索引号作为相 似文本块的结束位置。完成该相似文本块的生成。

步骤6、重复步骤2至步骤5,直至文本S中所有的核心可疑相似片段都经过了处理, 完成所有相似文本块的生成。

采用本发明方法得到的相似文本块,能够应用在抄袭检测、信息检索、机器翻译、文本 挖掘、网页去重等领域,判断两篇文本是否相似。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号