首页> 外国专利> TEXT ANALYSIS USING LINGUISTIC AND NON-LINGUISTIC LISTS PROPERTIES

TEXT ANALYSIS USING LINGUISTIC AND NON-LINGUISTIC LISTS PROPERTIES

机译:使用语言和非语言列表属性进行文本分析

摘要

A system and method are described for extracting information from text, which can be done without prior knowledge that the text includes a list. The method applies analysis rules (S102) to a sentence extending on lines of text (S104) to identify a set of candidate list items in the sentence (S108). Each candidate list item is assigned a set of features including one or more non-linguistic features and a language feature (S108). The linguistic feature defines a syntactic function of an item of the candidate list item that is likely to be in dependency relationship with an item of a candidate list presenter identified in the same sentence (S108). When two or more candidate list items are found with compatible feature sets (S114, S120), a list is generated (S118) that binds them as list items of a common list presenter. Dependency relationships are retrieved between the list presenter and the list items (S122) and information based on the extracted dependency relationships is outputted (S124).
机译:描述了一种用于从文本中提取信息的系统和方法,该系统和方法可以在不事先知道文本包括列表的情况下进行。该方法将分析规则(S102)应用于在文本行上延伸的句子(S104),以识别该句子中的候选列表项的集合(S108)。为每个候选列表项分配一组特征,所述一组特征包括一个或多个非语言特征和语言特征(S108)。语言特征定义候选列表项目的项目的句法功能,该项目可能与在同一句子中识别出的候选列表呈现者的项目具有依存关系(S108)。当找到具有兼容特征集的两个或更多个候选列表项时(S114,S120),生成列表(S118),该列表将它们绑定为公共列表呈现者的列表项。在列表呈现者和列表项目之间检索依赖关系(S122),并且基于所提取的依赖关系输出信息(S124)。

著录项

  • 公开/公告号FR2975201A1

    专利类型

  • 公开/公告日2012-11-16

    原文格式PDF

  • 申请/专利权人 XEROX CORPORATION;

    申请/专利号FR20120054195

  • 发明设计人 SALAH AIT-MOKHTAR;

    申请日2012-05-09

  • 分类号G06F17/27;

  • 国家 FR

  • 入库时间 2022-08-21 16:21:12

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号