首页> 外国专利> Methods and Apparatus for User-Guided Inference of Regular Expressions for Information Extraction

Methods and Apparatus for User-Guided Inference of Regular Expressions for Information Extraction

机译:用户指导的正则表达式信息提取方法和装置

摘要

Methods and apparatus are provided for inferring regular expressions that parse and extract information from line-oriented data. A regular expression is generated that matches a line of text by: evaluating a plurality of characters of the line of text to identify one or more domains associated with each of the plurality of characters; assigning a run-length to each of the identified domains; populating a data structure having a data position corresponding to each of the characters with the identified domains and corresponding run-lengths; and generating the regular expression based on the data structure.
机译:提供了用于推断正则表达式的方法和装置,该正则表达式解析并从面向行的数据中提取信息。通过以下方式生成与文本行匹配的正则表达式:评估文本行中的多个字符,以标识与多个字符中的每个字符相关联的一个或多个域;为每个识别的域分配游程长度;用标识的域和对应的游程长度填充具有对应于每个字符的数据位置的数据结构;并根据数据结构生成正则表达式。

著录项

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号