首页> 中文学位 >基于LDA模型的专利文本分类及演化研究
【6h】

基于LDA模型的专利文本分类及演化研究

代理获取

目录

声明

第一章 绪论

1.1 选题背景及研究意义

1.2 研究现状分析

1.3 研究内容及组织结构

第二章 LDA模型理论基础

2.1 概率主题模型简介

2.2 LDA模型的相关基础知识

2.3 本章小结

第三章 专利文本中的分类及演化算法研究

3.1 专利文本分类算法

3.2 专利文本演化分析方法

3.3 本章小结

第四章 LDA模型在专利文本分类中的应用

4.1 问题的提出

4.2 基于LDA模型的专利文本分类算法

4.3 实验及结果分析

4.4本章小结

第五章 基于LDA模型和分类号的专利技术演化研究

5.1 问题的提出

5.2 专利技术演化框架

5.3 实验及结果分析

5.4 本章总结

第六章 总结与展望

6.1 本文总结

6.2 未来展望

参考文献

致谢

攻读学位硕士期间的研究成果

展开▼

摘要

专利文献是技术情报的载体,它的文本中隐藏了大量的技术情报信息,是技术情报消息的最佳情报来源。随着新中国的快速发展,我国专利的申请数量已在逐年升高,至2016年已经连续第五年蝉联全球专利申请量之首。因此,对于这些海量专利文献的信息挖掘技术的研发,已成为国家和企业研究的共同热点。
  LDA模型是典型的概率主题模型,目前已广泛应用在自然语言处理、数据挖掘和人工智能等领域,用来分析文本的分类和演化问题。其中概率主题模型很少应用在专利文本的相关研究中,故本文在现有专利文本信息挖掘技术框架的基础上,采用 LDA模型对专利文本进行分类及演化研究,本文具体的研究内容如下:
  (1)首先概述几种传统的概率主题模型并对它们作简要的叙述,再对本文算法应用的 LDA模型进行详细的描述,介绍其的相关数学概率分布和参数推断算法,最后回顾专利文本中的一些典型的分类算法和演化分析方法。
  (2)针对传统专利文本自动分类方法中,使用向量空间模型文本表示方法存在的问题,提出一种基于LDA模型专利文本分类方法。该方法利用LDA主题模型对专利文本语料库建模,提取专利文本的文档-主题和主题-特征词矩阵,达到降维目的和提取文档间的语义联系,引入类的类-主题矩阵,为类进行主题语义拓展,使用主题相似度构造层次分类,小类采用KNN分类方法。实验结果:与基于向量空间文本表示模型的KNN专利文本分类方法对比,此方法能够获得更高的分类评估指数。
  (3)运用概率主题模型全面研究专利文献主题演化,发现专利技术发展趋势。LDA模型按时间窗口对专利文本建模,困惑度确定最优主题,按专利文本结构特性提取主题向量,采用JS散度度量主题之间的关联,引入IPC分类号计算技术主题强度,最后实现主题强度、主题内容和技术主题强度三方面的演化研究。实验结果表明该方法可以较好地分析专利技术随时间的演化规律及趋势。该方法能够深入挖掘专利文献的主题,帮助相关从业人员了解专利技术的演化过程及趋势。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号