...
首页> 外文期刊>電子情報通信学会論文誌 >Webページ分割のための決定木学習を用いたタイトルブロック抽出
【24h】

Webページ分割のための決定木学習を用いたタイトルブロック抽出

机译:使用决策树学习进行网页分割的标题块提取

获取原文
获取原文并翻译 | 示例

摘要

本研究で提案するWebページ分割手法では,Webページを細分化ブロックという単位まで分割した後に,Webコンテンツの見出しとなるようなブロック(タイトルブロック)に着目して細分化ブロックの結合を行うことにより,Webページを意味的にまとまりのある単位へと分割する.既存のWebページ分割手法の多くが,面積や子ノード数など,コンテンツ量に依存する情報を用いて結合を行っていた.その結果,同一Webサイト内の同じレイアウトのWebページから異なる分割結果が得られるという問題が存在した.提案手法ではコンテンツ量に非依存な結合を行うために,タイトルブロックとそれに続くタイトルブロック以外のブロック(一般ブロック)を結合していく.そのためには,計算機によるタイトルブロックの抽出が課題となる.計算機によるタイトルブロックの自動抽出を行うために,機械学習によって分類器を生成した.J4.8アルゴリズムによる決定木学習によって生成した分類器により,F値77.8%,89.3%でタイトルブロックと一般ブロックの柚出に成功した.得られたタイトルブロックを用いて細分化ブロックの結合を行った結果,ニュースサイトのニュース記事部分に着目した場合,96.1%の精度でコンテンツ量に依存しない同一の分割結果が得られることを確認した.
机译:在本研究提出的网页分割方法中,将网页分割为称为细分块的单元后,通过关注成为Web内容标题的块(标题块)将细分块组合在一起。 ,将网页划分为语义内聚的单元。现有的大多数Web网页分割方法都使用取决于内容量的信息,例如面积和子节点数。结果,存在一个问题,即可以从同一网站内具有相同布局的网页获得不同的划分结果。在所提出的方法中,标题块和除标题块之外的后续块(通用块)被组合以便执行与内容无关的组合。为此,计算机提取标题栏成为一个问题。机器学习生成了一个分类器,以便由计算机自动提取标题块.J4.8算法通过决策树学习生成的分类器给出了F值分别为77.8%和89.3%的标题块。并成功提取了常规块。作为使用获得的标题块组合细分块的结果,当关注新闻站点的新闻文章部分时,发现可以以96.1%的精度获得独立于内容量的相同划分结果。确认。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号