【24h】

Effective use of WordNet semantics via kernel-based learning

机译:通过基于内核的学习有效使用WordNet语义

获取原文

摘要

Research on document similarity hasshown that complex representations arenot more accurate than the simple bag-ofwords.Term clustering, e.g. using latentsemantic indexing, word co-occurrencesor synonym relations using a word ontologyhave been shown not very effective.In particular, when to extend the similarityfunction external prior knowledge isused, e.g. WordNet, the retrieval systemdecreases its performance. The critical issueshere are methods and conditions tointegrate such knowledge.In this paper we propose kernel functionsto add prior knowledge to learningalgorithms for document classification.Such kernels use a term similaritymeasure based on the WordNet hierarchy.The kernel trick is used to implement suchspace in a balanced and statistically coherentway. Cross-validation results showthe benefit of the approach for the SupportVector Machines when few training data isavailable.
机译:关于文件相似性的研究有 表明复杂的表示是 没有比简单的词袋更准确的词了。 术语聚类,例如使用潜伏 语义索引,单词共现 或使用词本体的同义词关系 已经证明不是很有效。 特别是何时扩展相似性 功能外部先验知识是 用过的WordNet,检索系统 降低其性能。关键问题 这里是方法和条件 整合这些知识。 在本文中,我们提出了内核函数 在学习中增加先验知识 文档分类的算法。 这样的内核使用术语相似性 根据WordNet层次结构进行度量。 内核技巧用于实现这样的功能 平衡且统计上连贯的空间 道路。交叉验证结果显示 支持方法的好处 当训练数据很少时的向量机 可用的。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号