声明
致谢
摘要
1 绪论
1.1 研究背景
1.2 研究意义
1.3 研究内容
1.4 论文框架
2 重名辨识方法研究现状
2.1 重名辨识方法分类
2.2 基于规则的专利发明人重名辨识方法
2.2.1 基于规则和阈值的重名辨识方法
2.2.2 基于相似度打分表的重名辨识方法
2.3 基于机器学习的专利发明人重名辨识方法
2.3.1 基于无监督学习的重名辨识方法
2.3.2 基于半监督学习的重名辨识方法
2.3.3 基于监督学习的重名辨识方法
2.4 基于语义指纹的重名辨识方法
2.5 基于唯一标识的重名辨识方法
2.6 现有方法对比分析
2.7 本章小结
3 专利发明人重名辨识方法相关理论基础
3.1 哈希函数
3.1.1 Minhash哈希函数
3.1.2 Rabin哈希函数
3.1.3 SDBM哈希函数
3.1.4 MD5哈希函数
3.1.5 SHA-1哈希函数
3.1.6 哈希函数对比
3.2 指纹算法
3.2.2 Simhash语义指纹算法
3.2.3 两类指纹算法对比
3.3 主要文本相似度计算方法
3.3.1 基于向量空间模型的相似度计算方法
3.3.2 基于字符串匹配的相似度计算方法
3.3.3 文本相似度计算方法比较
3.4 主要聚类算法
3.4.1 K-means聚类
3.4.2 层次聚类
3.4.3 图聚类
3.4.4 DBSCAN算法
3.4.5 聚类算法对比
3.5 评价指标
3.6 本章小结
4 专利发明人重名辨识方法
4.1 总体架构
4.2 数据获取
4.3 数据规范化
4.4 特征提取
4.5 语义指纹生成
4.6 分块策略
4.7 参数估计
4.8 实验
4.9 本章小结
5 专利发明人重名辨识实验
5.1 数据处理
5.1.1 数据获取
5.1.2 数据规范化
5.1.3 指纹生成
5.1.4 分块
5.1.5 训练数据集构建
5.2 基于语义指纹和DBSCAN聚类的专利发明人重名辨识实验
5.2.1 参数估计
5.2.2 实验结果
5.2.3 结果对比
5.3 本章小结
6 总结与展望
6.1 结论
6.2 论文局限性
6.3 展望
参考文献
作者简介
学位论文数据集