首页> 外文期刊>Pomiary Automatyka Kontrola >PKE: a novel Polish keywords extraction method
【24h】

PKE: a novel Polish keywords extraction method

机译:PKE:一种新颖的波兰语关键词提取方法

获取原文
获取原文并翻译 | 示例

摘要

Automatyczne streszczanie tekstów dotyczy redukcji całych dokumentów lub korpusów dokumentów do postaci reprezentatywnego zbioru słów, lub akapitu. Jedną z popularniejszych metod streszczania jest ekstrakcja słów kluczowych, której celem jest identyfikacja pojedynczych słów lub fraz etykietujących zadany dokument. Metody ekstrakcji słów kluczowych mogą być podzielone na zorientowane na pojedyncze dokumentu lub na korpusy. Dodatkowo metody ekstrakcji mogą być klasyfikowane według stosowanych podejść: lingwistyczne podejście, statystyczne lub oparte na uczeniu maszynowym. W tym artykule jest zaprezentowane nowe podejście do ekstrakcji słów kluczowych, nazwane PKE, które jest zorientowane na pojedyncze polsko języczne dokumenty. PKE jest metodą nie wykorzystującą zewnętrznych zasobów wiedzy jak np. Wikipedia. Metoda została zainspirowana metodami KEA [7] i RAKE [8]. RAKE jest algorytmem bez nadzoru, niezależnym od dziedziny i języka, który pozyskuje słowa kluczowe z pojedynczych dokumentów. KEA natomiast jest metodą z nadzorem, która wykorzystuje modele bayesowskie w celu obliczenia prawdopodobieństwa bycia słowem kluczowym. W porównaniu do powyższych metod, PKE używa Polskiego lematyzatora, filtrów części mowy, oraz różnorodnych metod ewaluacji (statystycznych miar, klasyfikatorów). Proponowany algorytm został przetestowany na zbiorze polskich abstraktów artykułów. Automatycznie proponowane słowa kluczowe zostały zweryfikowane względem słów wybranych przez autorów prac. Eksperymenty (tabela 1 i 2) pokazały, że PKE osiąga lepsze miary jakości (precyzja, kompletność, F1) niż RAKE i KEA.%In the paper a novel summarization approach, called the Polish Keywords Extractor (PKE), is presented. It is the single document oriented method that is capable of extracting keywords from Polish documents. PKE is a knowledge-poor method (not using any external knowledge resources as Wikipedia) inspired by RAKE and KEA. In comparison with the previous methods PKE uses Polish lemmatizer, Part-of-Speech filters, and various evaluation approaches (statistical measures, classifiers). This algorithm was tested on a set of abstracts of Polish academic papers. The experiments have shown that PKE achieves better quality measures (precision, recall, F-measure) than RAKE and KEA.
机译:自动文本求和是指将整个文档或文档正文缩减为一组具有代表性的单词或段落。最受欢迎的抽象方法之一是关键字提取,它旨在识别标记给定文档的单个单词或短语。关键字提取方法可以分为面向单文档的或面向语料库的。此外,提取方法可以根据使用的方法进行分类:语言方法,统计方法或基于机器学习。本文介绍了一种新的关键字提取方法,称为PKE,它是针对单个波兰语文档的。 PKE是一种不使用外部知识资源的方法,例如Wikipedia。该方法的灵感来自于KEA [7]和RAKE [8]。 RAKE是一种无人值守的算法,与字段和语言无关,可从单个文档中获取关键字。但是,KEA是一种监督方法,它使用贝叶斯模型来计算成为关键字的可能性。与上述方法相比,PKE使用波兰语lemmatizer,语音部分过滤器和各种评估方法(统计量度,分类器)。所提出的算法已在一组波兰文章摘要上进行了测试。自动建议的关键字已针对作者选择的单词进行了验证。实验(表1和2)显示,PKE比RAKE和KEA获得更好的质量度量(精度,完整性,F1)。%本文提出了一种新颖的汇总方法,称为波兰关键词提取器(PKE)。这是一种面向单一文档的方法,能够从波兰文档中提取关键字。 PKE是一种受RAKE和KEA启发的知识匮乏的方法(不使用任何外部知识资源,如Wikipedia)。与以前的方法相比,PKE使用了波兰语lemmatizer,词性过滤器和各种评估方法(统计量,分类器)。该算法在波兰学术论文摘要中进行了测试。实验表明,与RAKE和KEA相比,PKE可以实现更好的质量度量(精度,召回率,F度量)。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号