首页> 外文期刊>Neurocomputing >WordNet2Vec: Corpora agnostic word vectorization method
【24h】

WordNet2Vec: Corpora agnostic word vectorization method

机译:WordNet2Vec:语料库不可知词向量化方法

获取原文
获取原文并翻译 | 示例

摘要

The complex nature of big data resources requires new structuring methods, especially for textual content. WordNet is a good knowledge source for the comprehensive abstraction of natural language as it offers good implementation for many languages. Since WordNet embeds natural language in the form of a complex network, a transformation mechanism, WordNet2Vec, is proposed in this paper. This creates vectors for each word from WordNet. These vectors encapsulate a general position — the role of a given word related to all other words in the given natural language. Any list or set of such vectors contains knowledge about the context of its components within the whole language. This type of word representation can be easily applied to many analytic tasks such as classification or clustering. The usefulness of the WordNet2Vec method is demonstrated in sentiment analysis including the classification of an Amazon opinion text dataset with transfer learning.
机译:大数据资源的复杂本质要求新的结构化方法,尤其是对于文本内容。 WordNet是自然语言的全面抽象的很好的知识来源,因为它提供了许多语言的良好实现。由于WordNet以复杂的网络形式嵌入自然语言,因此提出了一种转换机制WordNet2Vec。这将为WordNet中的每个单词创建向量。这些向量概括了一个总体位置-给定单词与给定自然语言中所有其他单词相关的角色。此类向量的任何列表或集合都包含有关整个语言中其组成部分的上下文的知识。这种类型的单词表示形式可以轻松地应用于许多分析任务,例如分类或聚类。 WordNet2Vec方法的有用性在情感分析中得到了证明,包括使用迁移学习对亚马逊意见文本数据集进行分类。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号