首页> 外文会议>Workshop on Financial Narrative Processing;MultiLing Financial Summarisation Conference >UWB@FinTOC-2020 Shared Task: Financial Document Title Detection
【24h】

UWB@FinTOC-2020 Shared Task: Financial Document Title Detection

机译:UWB @ Fintoc-2020共享任务:财务文件标题检测

获取原文

摘要

This paper describes our system created for the Financial Document Structure Extraction Shared Task (FinTOC-2020): Title Detection. We rely on the Apache PDFBox library to extract text and all additional information e.g. font type and font size from the financial prospectuses. Our constrained system uses only the provided training data without any additional external resources. Our system is based on the Maximum Entropy classifier and various features including font type and font size. Our system achieves F1 score 81% and #1 place in the French track and F1 score 77% and #2 place among 5 participating teams in the English track.
机译:本文介绍了我们为财务文件结构提取共享任务(FINTOC-2020)创建的系统:标题检测。 我们依靠Apache Pdfbox库来提取文本和所有附加信息。 来自财务招股说明书的字体类型和字体大小。 我们的约束系统仅使用提供的培训数据而无需任何额外的外部资源。 我们的系统基于最大熵分类器和各种功能,包括字体类型和字体大小。 我们的系统在法国曲目中获得了81%和#1排名第81%,F1分数为77%和#2在英语轨道中的5个参与团队中。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号