要解决的问题:提供一种文本数据相似度计算方法,用于准确计算文本之间的相似度。
解决方案:文本数据相似度计算方法包括:加权因子计算步骤(S102),用于从多个文本数据中提取单词,分析单词之间的修饰信息(S101),并计算每个单词的加权因子,根据提取的单词数;单词间相似度计算步骤,用于基于由单词信息提取步骤所提取的文本数据中的单词之间的修饰信息,生成文本数据的结构化数据(S103),以计算从生成的第一结构化数据的每个单词之间的相似度通过结构化数据生成步骤生成一个文本数据,并从一个其他文本数据生成第二结构化数据的每个单词;局部结构化数据相似度计算步骤(S105),用于根据由词间相似度计算步骤计算出的相似度和加权因子,计算第一结构化数据和第二结构化数据之间的相似度。
版权:(C)2006,JPO&NCIPI
公开/公告号JP2006139708A
专利类型
公开/公告日2006-06-01
原文格式PDF
申请/专利权人 RICOH CO LTD;
申请/专利号JP20040330939
申请日2004-11-15
分类号G06F17/30;G06F17/28;
国家 JP
入库时间 2022-08-21 21:53:21