首页> 外文会议> >Discovery of Maximally Frequent Tag Tree Patterns with Height-Constrained Variables from Semistructured Web Documents
【24h】

Discovery of Maximally Frequent Tag Tree Patterns with Height-Constrained Variables from Semistructured Web Documents

机译:从半结构化Web文档中发现具有高度限制变量的最大频繁标记树模式

获取原文

摘要

In order to realize Web information retrieval using characteristic tree structured patterns in semistructured Web documents, methods for discovering frequent patterns or common characteristics in semistructured documents become more and more important. We have studied methods for discovering maximally frequent tree structured patterns in semistructured Web documents. A tag tree pattern is an edge labeled tree with ordered children and structured variables. An edge label of a tag tree pattern is a tag or a keyword in Web documents, or a wildcard for any string. Each variable, which matches any subtree, represents a field of a Web document. A tag tree pattern is much more powerful than a usual tree structured pattern. In order to represent tree structured patterns with rich structural features, we introduce a new kind of variables, called height-constrained variables. An
机译:为了在半结构化Web文档中使用特征树结构化模式实现Web信息检索,发现半结构化文档中频繁出现的模式或共同特征的方法变得越来越重要。我们研究了在半结构化Web文档中发现最大频率的树状结构模式的方法。标记树模式是一个边缘标记的树,具有有序的子级和结构化变量。标记树模式的边缘标签是Web文档中的标记或关键字,或任何字符串的通配符。与任何子树匹配的每个变量代表一个Web文档的字段。标记树模式比通常的树结构模式要强大得多。为了表示具有丰富结构特征的树状结构模式,我们引入了一种新的变量,称为高度限制变量。一个

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号