基于LDA模型的专利文本分类及演化研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

专利文献是技术情报的载体，它的文本中隐藏了大量的技术情报信息，是技术情报消息的最佳情报来源。随着新中国的快速发展，我国专利的申请数量已在逐年升高，至2016年已经连续第五年蝉联全球专利申请量之首。因此，对于这些海量专利文献的信息挖掘技术的研发，已成为国家和企业研究的共同热点。
　　LDA模型是典型的概率主题模型，目前已广泛应用在自然语言处理、数据挖掘和人工智能等领域，用来分析文本的分类和演化问题。其中概率主题模型很少应用在专利文本的相关研究中，故本文在现有专利文本信息挖掘技术框架的基础上，采用 LDA模型对专利文本进行分类及演化研究，本文具体的研究内容如下：
　　（1）首先概述几种传统的概率主题模型并对它们作简要的叙述，再对本文算法应用的 LDA模型进行详细的描述，介绍其的相关数学概率分布和参数推断算法，最后回顾专利文本中的一些典型的分类算法和演化分析方法。
　　（2）针对传统专利文本自动分类方法中，使用向量空间模型文本表示方法存在的问题，提出一种基于LDA模型专利文本分类方法。该方法利用LDA主题模型对专利文本语料库建模，提取专利文本的文档-主题和主题-特征词矩阵，达到降维目的和提取文档间的语义联系，引入类的类-主题矩阵，为类进行主题语义拓展，使用主题相似度构造层次分类，小类采用KNN分类方法。实验结果：与基于向量空间文本表示模型的KNN专利文本分类方法对比，此方法能够获得更高的分类评估指数。
　　（3）运用概率主题模型全面研究专利文献主题演化，发现专利技术发展趋势。LDA模型按时间窗口对专利文本建模，困惑度确定最优主题，按专利文本结构特性提取主题向量，采用JS散度度量主题之间的关联，引入IPC分类号计算技术主题强度，最后实现主题强度、主题内容和技术主题强度三方面的演化研究。实验结果表明该方法可以较好地分析专利技术随时间的演化规律及趋势。该方法能够深入挖掘专利文献的主题，帮助相关从业人员了解专利技术的演化过程及趋势。

著录项

作者
勒孚刚;
展开▼
作者单位

江西理工大学;

展开▼
授予单位江西理工大学;
学科计算机科学与技术
授予学位硕士
导师姓名廖列法;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类专利;文字信息处理;
关键词
概率主题模型; 专利文献; 文本分类; 主题演化; LDA模型; 情报信息;

相似文献

中文文献
外文文献
专利

1. 基于LDA模型的钢铁材料专利技术主题演化研究 [J] . 李子彪 ,张莉 . 科技管理研究 . 2020,第024期
2. 基于LDA模型和分类号的专利技术演化研究 [J] . 廖列法 ,勒孚刚 . 现代情报 . 2017,第005期
3. 基于LDA模型特征选择的在线医疗社区文本分类及用户聚类研究 [J] . 吴江 ,侯绍新 ,靳萌萌 . 情报学报 . 2017,第011期
4. 基于WLabeled-LDA模型的文本分类研究 [J] . 卜天然 . 长春师范学院学报（自然科学版） . 2017,第002期
5. 基于WLabeled-LDA模型的文本分类研究 [J] . 卜天然 . 长春师范大学学报 . 2017,第004期
6. 基于Labeled-LDA模型的文本分类新算法 [C] . 李文波 ,中国科学院研究生院 ,孙乐 . 第三届全国信息检索与内容安全学术会议 . 2007
7. 基于词性与LDA主题模型的文本分类技术研究 [A] . 张勇 . 2016

基于LDA模型的专利文本分类及演化研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅