首页> 外文会议>International Workshop on Big Data and Information Security >Automatic open domain information extraction from Indonesian text
【24h】

Automatic open domain information extraction from Indonesian text

机译:来自印度尼西亚文本的自动开放域信息提取

获取原文

摘要

Availability of vast amount of digital documents that have surpassed human processing capability calls for an automatic information extraction method from any text document regardless of their domain. Unfortunately, open domain information extraction (open IE) systems are language-specific and there is no published system for Indonesian language. This paper introduces a system to extract entity relations from Indonesian text in triple format using an NLP pipeline, rule-based candidates generator, rule-based token expander and machine-learning-based triple selector. We cross-validate four candidates: logistic regression, SVM, MLP, Random Forest using our dataset to discover that Random Forest is the best classifier for the triple selector achieving 0.60 F1 score (0.62 precision and 0.58 recall). The low score is largely due to the simplistic candidate generation rules and the coverage of dataset.
机译:可用性大量的数字文档超过了人工处理能力,无论其域如何,都会从任何文本文档中呼叫自动信息提取方法。不幸的是,开放式域信息提取(开放IE)系统是特定于语言的,并且没有印度尼西亚语言的发布系统。本文介绍了一种系统,用于使用NLP管道,基于规则的候选生成器,规则的令牌扩展器和基于机器 - 基于基于机器学习的三重选择器的三重格式中的INDONESIAN文本中提取实体关系的系统。我们交叉验证四个候选者:Logistic回归,SVM,MLP,随机林使用我们的数据集发现随机森林是三重选择器实现0.60 F1分数的最佳分类器(0.62精度和0.58召回)。低分数主要是由于简单候选生成规则和数据集的覆盖范围。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号