【24h】

The Labeled Segmentation of Printed Books

机译:印刷书籍的标签细分

获取原文
获取外文期刊封面目录资料

摘要

We introduce the task of book structure labeling: segmenting and assigning a fixed category (such as Table of Contents, Preface, Index) to the document structure of printed books. We manually annotate the page-level structural categories for a large dataset totaling 294,816 pages in 1,055 books evenly sampled from 1750— 1922, and present empirical results comparing the performance of several classes of models. The best-performing model, a bidirectional LSTM with rich features, achieves an overall accuracy of 95.8 and a class-balanced macro F-score of 71.4.
机译:我们介绍了书籍结构标签的任务:对印刷书籍的文档结构进行细分并为其分配固定的类别(例如目录,前言,索引)。我们手动注释大型数据集的页面级结构类别,该数据集从1750年至1922年平均采样了1,055本书中的294,816页,并提供了比较几种模型性能的实证结果。性能最佳的模型是具有丰富功能的双向LSTM,其总体精度为95.8,类平衡宏F得分为71.4。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号