首页> 外文学位 >Document boundary determination using structural and lexical analysis.
【24h】

Document boundary determination using structural and lexical analysis.

机译:使用结构和词法分析确定文档边界。

获取原文
获取原文并翻译 | 示例

摘要

A method of sequentially presented document determination using parallel analyses from various facets of structural document understanding and information retrieval is proposed in this thesis. Specifically, the method presented here intends to serve as a trainable system when determining where one document ends and another begins. Content analysis methods include use of the Vector Space Model, as well as targeted analysis of content on the margins of document fragments. Structural analysis for this implementation has been limited to simple and ubiquitous entities, such as software-generated zones, simple format-specific lines, and the appearance of page numbers. Analysis focuses on change in similarity between comparisons, with the emphasis placed on the fact that the extremities of documents tend to contain significant structural and lexical changes that can be observed and quantified. We combine the various features using nonlinear approximation (neural network) and experimentally test the usefulness of the combinations.
机译:本文提出了一种从结构文件理解和信息检索各个方面进行并行分析的顺序确定文件确定方法。具体而言,在确定一个文档在何处结束而另一文档在何处开始时,此处介绍的方法旨在用作可训练的系统。内容分析方法包括使用向量空间模型,以及在文档片段的空白处进行有针对性的内容分析。此实现的结构分析仅限于简单且普遍存在的实体,例如软件生成的区域,简单的特定于格式的行以及页码的外观。分析着重于比较之间相似性的变化,重点在于以下事实:文档的末端往往包含可以观察和量化的重大结构和词汇变化。我们使用非线性逼近(神经网络)组合各种功能,并通过实验测试组合的有用性。

著录项

  • 作者

    Cartright, Marc-Allen.;

  • 作者单位

    University of Nevada, Las Vegas.;

  • 授予单位 University of Nevada, Las Vegas.;
  • 学科 Computer Science.
  • 学位 M.S.
  • 年度 2007
  • 页码 56 p.
  • 总页数 56
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类 自动化技术、计算机技术;
  • 关键词

  • 入库时间 2022-08-17 11:39:16

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号