首页> 外文会议>International conference on machine learning >Improving short-text classification using unlabeled background knowledge to assess document similarity
【24h】

Improving short-text classification using unlabeled background knowledge to assess document similarity

机译:使用未标记的背景知识改进短文本分类,以评估文档相似性

获取原文

摘要

We describe a method for improving the classification of short text strings using a combination of labeled training data plus a secondary corpus of unlabeled but related longer documents. We show that such unlabeled background knowledge can greatly decrease error rates, particularly if the number of examples or the size of the strings in the training set is small. This is particularly useful when labeling text is a labor-intensive job and when there is a large amount of information available about a particular problem on the World Wide Web. Our approach views the task as one of information integration using WHIRL, a tool that combines database functionalities with techniques from the information-retrieval literature.
机译:我们描述了一种利用标记的训练数据的组合加上简单的培训数据的组合来改进短文本字符串分类的方法,而是与未标记的次要语料库相关但相关的文档。我们表明,这种未标记的背景知识可以大大降低误差率,特别是如果训练集中的字符串的数量或尺寸很小。当标签文本是劳动密集型工作时,这尤其有用,并且当世界宽网络上有大量信息时,当有很多信息时。我们的方法将任务视为使用Whirl的信息集成之一,该工具将数据库功能与来自信息检索文献的技术相结合。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号