首页> 外国专利> Multi-document keyphrase extraction using partial mutual information

Multi-document keyphrase extraction using partial mutual information

机译:使用部分互信息提取多文档关键字

摘要

A keyphrase extraction system and method are provided. The system and method can be employed to create an automatic summary of a subset of document(s). The system can automatically extract a list of keyword(s) that can operate on multiple documents, and across many different domains. The system is unsupervised and requires no prior learning.;A term identifier identifies candidate terms (e.g., words and/or phrases) in the document subset which are used to form a document-term matrix. A probability computation component calculates probability values of: (1) the joint probability of a word (e.g., term) and a document, (2) the marginal probability of the word (e.g., term), and (3) the marginal probability of the document. Based on the probability values, a partial mutual information metric can be calculated for each candidate term. Based on the partial mutual information metric, one or more of the terms can be identified as summary keyphrases.
机译:提供了一种关键短语提取系统和方法。可以采用该系统和方法来创建文档的子集的自动摘要。系统可以自动提取可在多个文档上以及跨多个不同域操作的关键字列表。该系统是不受监督的,不需要事先学习。术语标识符标识文档子集中用于形成文档术语矩阵的候选术语(例如单词和/或短语)。概率计算组件计算以下概率值:(1)单词(例如,术语)和文档的联合概率;(2)单词(例如,术语)的边缘概率;以及(3)单词(例如,术语)的边缘概率文件。基于概率值,可以为每个候选项计算部分互信息量度。基于部分互信息量度,可以将一个或多个术语标识为摘要关键字。

著录项

  • 公开/公告号US7711737B2

    专利类型

  • 公开/公告日2010-05-04

    原文格式PDF

  • 申请/专利权人 ARUNGUNRAM C. SURENDRAN;

    申请/专利号US20050224195

  • 发明设计人 ARUNGUNRAM C. SURENDRAN;

    申请日2005-09-12

  • 分类号G06F17/30;

  • 国家 US

  • 入库时间 2022-08-21 18:47:58

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号