首页> 外国专利> INFORMATION EXTRACTION METHOD FROM STRUCTURED DOCUMENT, INFORMATION EXTRACTION PROGRAM, AND STORAGE MEDIUM STORING INFORMATION EXTRACTION PROGRAM

INFORMATION EXTRACTION METHOD FROM STRUCTURED DOCUMENT, INFORMATION EXTRACTION PROGRAM, AND STORAGE MEDIUM STORING INFORMATION EXTRACTION PROGRAM

机译:结构化文档,信息提取程序和存储介质存储信息提取程序中的信息提取方法

摘要

PPROBLEM TO BE SOLVED: To accurately specify a part desired by a user to be altered in an HTML altered daily. PSOLUTION: A combination of a tag name corresponding to the root of a subtree, a name of a format attribute of the tag, and a value of the format attribute is set to an identifier of the tag and the identifier of the tag is set to the identifier of the subtree corresponding thereto. When there are a plurality of format attributes in the identifier of the tag, the identifier of the tag is normalized by aligning the format attributes in the order of the format attribute names, and the subtree having the identical identifier of the subtree with the initially obtained identifier of the subtree is specified as the specified part from a list of the identifiers of the subtrees existing in the document converted into the tree structure. PCOPYRIGHT: (C)2004,JPO
机译:

要解决的问题:在每天更改的HTML中准确指定用户希望更改的部分。

解决方案:将与子树的根相对应的标签名称,标签的格式属性的名称和格式属性的值的组合设置为标签的标识符和标签的标识符设置为与之相对应的子树的标识符。当标签的标识符中具有多个格式属性时,通过按照格式属性名称的顺序对齐格式属性来标准化标签的标识符,并且具有与初始获得的子树相同的标识符的子树从存在于转换为树结构的文档中的子树的标识符的列表中,将子树的标识符指定为指定部分。

版权:(C)2004,日本特许厅

著录项

  • 公开/公告号JP2004038263A

    专利类型

  • 公开/公告日2004-02-05

    原文格式PDF

  • 申请/专利权人 NIPPON TELEGR & TELEPH CORP NTT;

    申请/专利号JP20020190621

  • 发明设计人 MIYAMOTO MASARU;UCHIYAMA TADASHI;

    申请日2002-06-28

  • 分类号G06F17/21;G06F12/00;G06F17/30;

  • 国家 JP

  • 入库时间 2022-08-21 23:26:50

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号