首页> 中文学位 >应用文本挖掘分析生物医药领域专利热点的方法研究
【6h】

应用文本挖掘分析生物医药领域专利热点的方法研究

代理获取

目录

文摘

英文文摘

论文说明:图表目录

声明

引 言

1 绪论

2. 专利分析的理论和方法

3 生物医药专利数据的处理及初步分析

4 应用文本挖掘进行生物医药专利分析

5 结论

参考文献

作者简介

致 谢

展开▼

摘要

专利的发明,制度的实施,专利的利用和保护,已经逐渐成为一个国家综合实力的重要特征。专利信息反映了最前沿的科学技术发展状况,具有信息完整,覆盖面广,可靠性强,信息量大等显著特点。因此对专利信息数据库中数据的统计分析也变得尤为重要。
   本文从生物医药领域的专利信息分析出发,从专利的基本概念开始,阐述了相关专利信息的组成及研究价值,通过调研文本挖掘应用于专利分析的各种方法,利用已有的分词工具把近二十年的USPTO的生物医药领域共15415条专利的标题进行分词,然后通过人工清洗,删除那些无关词、词频很高但是不具代表性的词、和大量的停用词等处理形成词库,利用DEIPHI语言编写软件,计算每个词在每条专利中的TF-IDF值,并通过设定TF-IDF值和每个词在专利中出现的词频数共得到样本数据890条专利和312个词,在Excel中通过VBA构建了一个多维度相似度矩阵并导入Spss Clementine软件中通过K-means算法进行聚类,将获得的5个聚类结果与IPC及USPC分类的结果进行横向比较,分析探讨对专利信息进行文本挖掘的应用方法以及专利聚类的成效。
   从试验结果看,本文采用的文本挖掘及进行自动聚类的分析方法,对于不同IPC或USPC类别专利的聚类效果有所不同。尽管聚类结果不是非常的理想且由于样本数据量的限制而可能缺乏广泛的代表性,但是利用此方法通过扩大文本挖掘的范围并根据聚类效果不断调整词库中那些效果不理想的专利类别的

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号