要解决的问题:以较低的计算复杂度,无需更改其他文档中的字符串即可准确地检测输入文档是否包含由两个或多个连续句子组成的引用。
解决方案:原始文档DB 4是通过将原始文档(作为引文来源的候选项)中的每个文档划分为可以作为引文单位的部分字符串,创建部分字符串的摘要,并按顺序排列每个摘要而准备的部分字符串的出现以形成文档的摘要,并为每个部分字符串注册具有其文档ID的摘要,以便能够进行最长的前缀匹配。摘要创建装置5将输入文档转换为与上述类似的摘要,并且引用检测装置6使用输入文档的摘要作为关键字通过最长前缀匹配来检索原始文档DB 4,并且如果存在则进行输出。连续匹配的摘要数为预定阈值以上的文档ID。
版权:(C)2010,日本特许厅&INPIT
公开/公告号JP2010182238A
专利类型
公开/公告日2010-08-19
原文格式PDF
申请/专利权人 NIPPON TELEGR & TELEPH CORP;
申请/专利号JP20090027288
申请日2009-02-09
分类号G06F17/30;G06F17/24;G06F17/21;
国家 JP
入库时间 2022-08-21 19:06:06