首页> 中国专利> 基于词网识别大量Web文本信息相似度的方法

基于词网识别大量Web文本信息相似度的方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了一种基于词网识别大量Web文本信息相似度的方法，包括以下步骤：(1)构建词网；(2)新Web网页文本信息相似度识别，包括以下步骤：从新Web网页中提取文本信息构成新文档，从新文档中提取特征词f1、f2、…、fm；求解每一个特征词f的相似词的集合；求解每一个特征词f的相似文档集合；确定新文档的相似文档并计算相似文档集中文档的相似度值；过滤相似文档集中的文档，得到最终的相似度文档集合；(3)按步骤(1)的方法对新Web网页进行词网更新。利用本方法，可以用于发现信息剽窃或信息模仿、篡改，可以用于发掘不同领域之间隐含存在的相关关系，可以消除重复的网页，降低搜索引擎的负担，优化存储和索引结构。

著录项

公开/公告号CN108647322A

专利类型发明专利
公开/公告日2018-10-12

原文格式PDF
申请/专利权人四川师范大学;
展开▼

申请/专利号CN201810445807.4
发明设计人靳宇倡;安俊秀;文仁强;
展开▼

申请日2018-05-11
分类号G06F17/30(20060101);G06K9/62(20060101);
代理机构11308 北京元本知识产权代理事务所;
代理人秦力军
地址 610066 四川省成都市锦江区静安路5号
入库时间 2023-06-19 06:43:16

法律信息

法律状态公告日

法律状态信息

法律状态
2018-11-06

实质审查的生效 IPC(主分类):G06F17/30 申请日:20180511

实质审查的生效
2018-10-12

公开

公开

相似文献

专利
中文文献
外文文献

1. 基于词网识别大量Web文本信息相似度的方法 [P] . 中国专利： CN108647322B . 2021.12.17
2. 基于词网识别大量Web文本信息相似度的方法 [P] . 中国专利： CN108647322A . 2018-10-12
3. Similarity calculation device for calculating a correlation-based similarity of image recognition apparatus, a similarity calculation method, the recognition method, the verification program and a recording medium recording it [P] . 日本专利： JP4468756B2 . 2010-05-26

机译：用于计算图像识别装置的基于相关度的相似度的相似度计算装置，相似度计算方法，识别方法，验证程序以及记录该相似度的记录介质
4. Fingerprint identification method for car access control system, involves comparing input fingerprint data with reference fingerprints having highest similarity being sorted based on identified degree of similarity [P] . 德国专利： DE10030404A1 . 2002-01-03

机译：用于汽车门禁系统的指纹识别方法，包括将输入的指纹数据与基于识别的相似度排序的相似度最高的参考指纹进行比较
5. Method, system, and computer readable medium for comparing phonetic similarity of return words to resolve ambiguities during voice recognition [P] . 美国专利： US9318105B1 . 2016-04-19

机译：在语音识别期间比较返回词的语音相似度以解决歧义的方法，系统和计算机可读介质