首页> 外文会议>43rd Annual Meeting of the Association for Computational Linguistics: Proceeding of the Conference >Cross language Text Categorization by acquiringMultilingual Domain Models from Comparable Corpora

Cross language Text Categorization by acquiringMultilingual Domain Models from Comparable Corpora




In a multilingual scenario, the classicalmonolingual text categorization problemcan be reformulated as a cross languageTC task, in which we have to cope withtwo or more languages (e.g. English andItalian). In this setting, the system istrained using labeled examples in a sourcelanguage (e.g. English), and it classifiesdocuments in a different target language(e.g. Italian).In this paper we propose a novel approachto solve the cross language textcategorization problem based on acquiringMultilingual Domain Models fromcomparable corpora in a totally unsupervisedway and without using any externalknowledge source (e.g. bilingual dictionaries).These Multilingual Domain Modelsare exploited to define a generalizedsimilarity function (I.e. a kernel function)among documents in different languages,which is used inside a Support Vector Machinesclassification framework. The resultsshow that our approach is a feasibleand cheap solution that largely outperformsa baseline.
机译:在多语言场景中,经典 单语文本分类问题 可以重新定义为一种跨语言 TC任务,我们必须应对 两种或更多种语言(例如英语和 义大利文)。在此设置中,系统是 在源中使用带标签的示例进行培训 语言(例如英语)进行分类 使用其他目标语言的文档 (例如意大利语)。 在本文中,我们提出了一种新颖的方法 解决跨语言文字 基于获取的分类问题 来自的多语言领域模型 完全无人监督的可比语料库 方式,无需使用任何外部 知识来源(例如双语词典)。 这些多语言领域模型 被用来定义一个广义的 相似度函数(即内核函数) 在不同语言的文档中, 在支持向量机内部使用 分类框架。结果 表明我们的方法是可行的 便宜的解决方案,其性能大大优于 基线。



  • 外文文献
  • 中文文献
  • 专利


京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号