首页> 外文会议>Focused Access to XML Documents >Probabilistic Methods for Structured Document Classification at INEX'07
【24h】

Probabilistic Methods for Structured Document Classification at INEX'07

机译:INEX'07的结构化文档分类的概率方法

获取原文
获取原文并翻译 | 示例

摘要

This paper exposes the results of our participation in the Document Mining track at INEX'07. We have focused on the task of classification of XML documents. Our approach to deal with structured document representations uses classification methods for plain text, applied to flattened versions of the documents, where some of their structural properties have been translated to plain text. We have explored several options to convert structured documents into flat documents, in combination with two probabilistic methods for text categorization. The main conclusion of our experiments is that taking advantage of document structure to improve classification results is a difficult task.
机译:本文展示了我们参与INEX'07文档挖掘活动的结果。我们专注于XML文档的分类任务。我们处理结构化文档表示形式的方法是对纯文本使用分类方法,该方法适用于文档的拼合版本,其中一些结构属性已转换为纯文本。我们结合两种用于文本分类的概率方法,探索了几种将结构化文档转换为平面文档的方法。我们的实验的主要结论是,利用文档结构来改善分类结果是一项艰巨的任务。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号