首页> 外文会议>Advances in focused retrieval >Semi-supervised Categorization of Wikipedia Collection by Label Expansion
【24h】

Semi-supervised Categorization of Wikipedia Collection by Label Expansion

机译:通过标签扩展对维基百科集合进行半监督分类

获取原文
获取原文并翻译 | 示例
获取外文期刊封面目录资料

摘要

We address the problem of categorizing a large set of linked documents with important content and structure aspects, for example, from Wikipedia collection proposed at the INEX XML Mining track. We cope with the case where there is a small number of labeled pages and a very large number of unlabeled ones. Due to the sparsity of the link based structure of Wikipedia, we apply the spectral and graph-based techniques developed in the semi-supervised machine learning. We use the content and structure views of Wikipedia collection to build a transductive categorizer for the unlabeled pages. We report evaluation results obtained with the label propagation function which ensures a good scalability on sparse graphs.
机译:我们处理将具有重要内容和结构方面的大量链接文档分类的问题,例如,在INEX XML Mining轨道上提出的Wikipedia集合中。我们可以应付标记的页面数量少而未标记的页面数量大的情况。由于维基百科基于链接的结构的稀疏性,我们应用了在半监督机器学习中开发的基于频谱和基于图的技术。我们使用Wikipedia集合的内容和结构视图为未标记的页面构建转导分类器。我们报告使用标签传播功能获得的评估结果,该功能可确保在稀疏图上具有良好的可伸缩性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号