首页> 中文学位 >USPTO专利发明人重名辨识方法研究
【6h】

USPTO专利发明人重名辨识方法研究

代理获取

目录

声明

致谢

摘要

1 绪论

1.1 研究背景

1.2 研究意义

1.3 研究内容

1.4 论文框架

2 重名辨识方法研究现状

2.1 重名辨识方法分类

2.2 基于规则的专利发明人重名辨识方法

2.2.1 基于规则和阈值的重名辨识方法

2.2.2 基于相似度打分表的重名辨识方法

2.3 基于机器学习的专利发明人重名辨识方法

2.3.1 基于无监督学习的重名辨识方法

2.3.2 基于半监督学习的重名辨识方法

2.3.3 基于监督学习的重名辨识方法

2.4 基于语义指纹的重名辨识方法

2.5 基于唯一标识的重名辨识方法

2.6 现有方法对比分析

2.7 本章小结

3 专利发明人重名辨识方法相关理论基础

3.1 哈希函数

3.1.1 Minhash哈希函数

3.1.2 Rabin哈希函数

3.1.3 SDBM哈希函数

3.1.4 MD5哈希函数

3.1.5 SHA-1哈希函数

3.1.6 哈希函数对比

3.2 指纹算法

3.2.2 Simhash语义指纹算法

3.2.3 两类指纹算法对比

3.3 主要文本相似度计算方法

3.3.1 基于向量空间模型的相似度计算方法

3.3.2 基于字符串匹配的相似度计算方法

3.3.3 文本相似度计算方法比较

3.4 主要聚类算法

3.4.1 K-means聚类

3.4.2 层次聚类

3.4.3 图聚类

3.4.4 DBSCAN算法

3.4.5 聚类算法对比

3.5 评价指标

3.6 本章小结

4 专利发明人重名辨识方法

4.1 总体架构

4.2 数据获取

4.3 数据规范化

4.4 特征提取

4.5 语义指纹生成

4.6 分块策略

4.7 参数估计

4.8 实验

4.9 本章小结

5 专利发明人重名辨识实验

5.1 数据处理

5.1.1 数据获取

5.1.2 数据规范化

5.1.3 指纹生成

5.1.4 分块

5.1.5 训练数据集构建

5.2 基于语义指纹和DBSCAN聚类的专利发明人重名辨识实验

5.2.1 参数估计

5.2.2 实验结果

5.2.3 结果对比

5.3 本章小结

6 总结与展望

6.1 结论

6.2 论文局限性

6.3 展望

参考文献

作者简介

学位论文数据集

展开▼

摘要

专利发明人重名辨识通过区分专利数据库中具有相同或相似姓名的发明人,将每个发明人与其专利对应起来,该研究有助于优化专利数据库、提升专利发明人评价和推荐准确性、促进竞争情报学科发展等。本研究通过对国内外现有的重名辨识方法进行研究分析,发现:规则方法重名辨识环境适应性较差;机器学习方法虽然能够有效辨识专利发明人,但是其时间成本较高。
  因此,本研究提出了基于语义指纹和DBSCAN聚类的专利发明人重名辨识方法。该方法基于专利的元数据特征和文本特征生成128位语义指纹,给每篇专利的每个发明人赋予一个指纹值,将字符串成对比较转换为二进制指纹值的成对比较,提高方法运行效率,实现在较短时间内有效完成发明人重名辨识的研究目的。
  本研究选择2015年USPTO专利发明人姓名消歧竞赛中的IS和E&S数据集进行实验。首先,IS和E&S数据集有标签、规模较大;其次,这两个数据集经过广泛地研究测试,已被作为标准的专利发明人重名辨识方法评测数据。
  本研究选取查准率、查全率和F1值评价指标评价本文方法的重名辨识有效性,选取方法运行时间评价本文方法的时间成本,而方法运行时间包含数据处理时间、参数估计时间和方法消歧时间。本研究在IS和E&S实验数据集上测得F1值分别为94.69%、96.54%,证明本文方法具有较好的重名辨识效果;本文在1200万条专利数据上测得方法运行时间约为4.54小时、方法消歧时间约为3.6分钟,这证明本文方法具有较低的时间成本;本文方法不仅可以在较低的机器配置环境下运行,而且需要的数据存储空间较小,这证明本文方法实用性较强。
  结论:基于语义指纹和DBSCAN聚类的方法不仅可以在较短时间内较为精确地重名辨识专利发明人,而且方法实用性较强。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号