首页> 外文期刊>人工知能学会論文誌 >事例に基づくシリーズ型HTML文書の意味論理構造の自動認識-HTMLからXMLへの自動変換を目指して
【24h】

事例に基づくシリーズ型HTML文書の意味論理構造の自動認識-HTMLからXMLへの自動変換を目指して

机译:基于逻辑结构的案例研究,自动识别系列HTML文档 - 以HTML从HTML自动转换为XML

获取原文
获取原文并翻译 | 示例
           

摘要

本論文では新たに,アライメント技術を用いて複合意味ブロックの自動抽出と変換を試みる.事例と変換対象のテキストブロック列をアライメントし,列全体として類似度最大の対応関係を求める.事例との対応関係から変換対象文書の意味ブロックの抽出が可能となり,XML形式へ変換できる.評価実験の結果,現実のWEB サイトから収集した8個のシリーズ,47 件のHTML 文書に対して,約90%を越える高い変換精度が得られた.また比較実験の結果,人手による前処理を施した場合と比べても全く遜色無いことが確認された.シリーズ型HTML 文書を対象とした場合,事例が与えられれば,意味·論理構造はアライメントという比較的簡便な手法によってかなり高い精度の解析が可能となることが確認された.本論文の構成は以下の通りである.2 章で事例に基づく変換法と意味構造の認識の難しさを概説する.3 章でアライメントを利用した意味ブロックの抽出法を考察し,4 章でその評価実験を行う.5 章で関連研究を述べる.
机译:在本文中,我们将使用对齐技术进行新提取和转换复合语义块。替代和要转换的文本块列是对齐的,并且相似性的相似性被确定为整个列。根据与这种情况的对应,可以提取转换后的文档的语义块,并且可以转换为XML格式。由于评估实验,获得了从真实网站和47个HTML文档收集的8系列的高转换精度约为90%。此外,由于比较实验,证实与通过管理预处理的情况相比,它不便宜。当针对一系列HTML文档时,确认如果给出了案例,则可以认为含义和逻辑结构能够通过相对简单的对准方法分析相当高的准确性。本文的配置如下。第2章概述了基于案例的转换方法和语义结构的难度。在第3章中,我们考虑使用对齐方式的语义块的提取方法,并在第4章中进行评估实验。第5章描述了相关的研究。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号