首页> 美国卫生研究院文献>Entropy >Patent Keyword Extraction Algorithm Based on Distributed Representation for Patent Classification
【2h】

Patent Keyword Extraction Algorithm Based on Distributed Representation for Patent Classification

机译:基于专利分类的分布式表示的专利关键词提取算法

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

Many text mining tasks such as text retrieval, text summarization, and text comparisons depend on the extraction of representative keywords from the main text. Most existing keyword extraction algorithms are based on discrete bag-of-words type of word representation of the text. In this paper, we propose a patent keyword extraction algorithm (PKEA) based on the distributed Skip-gram model for patent classification. We also develop a set of quantitative performance measures for keyword extraction evaluation based on information gain and cross-validation, based on Support Vector Machine (SVM) classification, which are valuable when human-annotated keywords are not available. We used a standard benchmark dataset and a homemade patent dataset to evaluate the performance of PKEA. Our patent dataset includes 2500 patents from five distinct technological fields related to autonomous cars (GPS systems, lidar systems, object recognition systems, radar systems, and vehicle control systems). We compared our method with Frequency, Term Frequency-Inverse Document Frequency (TF-IDF), TextRank and Rapid Automatic Keyword Extraction (RAKE). The experimental results show that our proposed algorithm provides a promising way to extract keywords from patent texts for patent classification.
机译:许多文本挖掘任务,如文本检索,文本摘要和文本比较依赖于来自主文本的代表性关键字的提取。大多数现有的关键字提取算法基于文本的独立袋式类型。在本文中,我们提出了一种基于用于专利分类的分布式跳过模型的专利关键词提取算法(PKEA)。基于支持向量机(SVM)分类,我们还基于信息增益和交叉验证制定了一套用于关键字提取评估的定量性能措施,这是当不可用的人为注释的关键字时是有价值的。我们使用标准基准数据集和自制专利数据集来评估PKEA的性能。我们的专利数据集包括来自五个与自动车(GPS系统,LIDAR系统,对象识别系统,雷达系统和车辆控制系统相关的五个不同技术领域的2500项专利。我们将我们的方法与频率,术语频率反转文档频率(TF-IDF),Textrank和快速自动关键字提取(Rake)进行了比较。实验结果表明,我们的算法提供了从专利文本中提取关键字的有希望的方法。

著录项

  • 期刊名称 Entropy
  • 作者单位
  • 年(卷),期 2018(20),2
  • 年度 2018
  • 页码 104
  • 总页数 19
  • 原文格式 PDF
  • 正文语种
  • 中图分类
  • 关键词

    机译:关键词提取;信息增益;专利分类;深度学习;
  • 入库时间 2022-08-21 12:20:27

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号