首页> 外文会议>Natural language understanding and intelligent applications >NLPCC 2016 Shared Task Chinese Words Similarity Measure via Ensemble Learning Based on Multiple Resources

【24h】

NLPCC 2016 Shared Task Chinese Words Similarity Measure via Ensemble Learning Based on Multiple Resources

机译：基于多资源集成学习的NLPCC 2016共享任务汉语单词相似度度量

获取原文

获取原文并翻译 | 示例

页面导航

摘要
著录项
相似文献
相关主题

摘要

Many Chinese words similarity measure algorithms have been introduced since it's a fundamental issue in various tasks of natural language processing. Previous work focused mainly on using existing semantic knowledge bases or large-scale corpora. However, knowledge base and corpus have limitations for broad coverage and data update. Thus, ensemble learning is then used to improve performance by combing similarities. This paper describes a Chinese word similarity measure using ensemble learning of knowledge and corpus-based algorithms. To be specific, knowledge-based methods are based on TYCCL and Hownet. Two corpus-based methods compute similarities via retrieving on web search engines and deep learning on large-scale corpora (news and microblog). All similarities are combined through support vector regression to get final similarity. Evaluation suggests that TYCCL-based method behaves best according to testing dataset. However, if tuning parameters appropriately, ensemble learning could outperform all the other algorithms. Besides, deep learning on news corpora is better than other corpus-based methods.

机译：由于它是自然语言处理的各种任务中的基本问题，因此引入了许多中文单词相似性度量算法。先前的工作主要集中在使用现有的语义知识库或大规模语料库。但是，知识库和语料库在广泛覆盖和数据更新方面存在局限性。因此，集成学习然后用于通过组合相似性来提高性能。本文介绍了基于知识的整体学习和基于语料库的算法的中文单词相似性度量。具体而言，基于知识的方法基于TYCCL和Hownet。两种基于语料库的方法通过在Web搜索引擎上检索和在大型语料库（新闻和微博）上进行深度学习来计算相似度。通过支持向量回归将所有相似性组合在一起，以获得最终相似性。评估表明，基于TYCCL的方法根据测试数据集表现最佳。但是，如果适当地调整参数，则集成学习的性能可能会优于所有其他算法。此外，对新闻语料库的深度学习比其他基于语料库的方法更好。

著录项

来源
《Natural language understanding and intelligent applications 》|2016年|862-869|共8页
会议地点 Kunming(CN)
作者
Shutian Ma; Xiaoyong Zhang; Chengzhi Zhang;
展开▼
作者单位

Department of Information Management, Nanjing University of Science and Technology, Nanjing 210094, China;

Department of Information Management, Nanjing University of Science and Technology, Nanjing 210094, China;

Department of Information Management, Nanjing University of Science and Technology, Nanjing 210094, China,Jiangsu Key Laboratory of Data Engineering and Knowledge Service (Nanjing University), Nanjing 210093, China;

展开▼
会议组织
原文格式 PDF
正文语种 eng
中图分类
关键词
Chinese word similarity; TYCCL; Hownet; Deep learning; Support vector regression;

机译：中文单词相似度； TYCCL;知网深度学习；支持向量回归;

相似文献

外文文献
中文文献
专利

1. Measuring Semantic Similarity between Words Based on Multiple Relational Information [J] . Jianyong DUAN, Yuwei WU, Mingli WU, IEICE transactions on information and systems . 2020 ,第1期

机译：基于多重关系信息的词间语义相似度度量
2. A shape-based similarity measure for time series data with ensemble learning [J] . Tetsuya Nakamura, Keishi Taki, Hiroki Nomiya, Pattern Analysis and Applications . 2013 ,第4期

机译：集成学习的时间序列数据基于形状的相似性度量
3. A shape-based similarity measure for time series data with ensemble learning [J] . Tetsuya Nakamura, Keishi Taki, Hiroki Nomiya, Pattern Analysis and Applications . 2013 ,第4期

机译：集成学习的时间序列数据基于形状的相似性度量
4. NLPCC 2016 Shared Task Chinese Words Similarity Measure via Ensemble Learning Based on Multiple Resources [C] . Shutian Ma, Xiaoyong Zhang, Chengzhi Zhang International conference on computer processing of oriental languages . 2016

机译：NLPCC 2016共享任务中文单词通过基于多个资源的集合学习来相似性度量
5. Measuring task relatedness for selective multiple task learning in artificial neural networks. [D] . Alisch, Richard Warren. 2005

机译：在人工神经网络中测量任务相关性以进行选择性多任务学习。
6. The Beginning Spanish Lexicon: A Web-based interface to calculate phonological similarity among Spanish words in adults learning Spanish as a foreign language [O] . Michael S. Vitevitch, Melissa K. Stamer, Douglas Kieweg -1

机译：开始西班牙词典：基于网络的界面以计算成年人的西班牙语中的语音相似性以英语为外语
7. Overview of the NLPCC 2015 Shared Task: Chinese Word Segmentation and POS Tagging for Micro-blog Texts [O] . Qiu, Xipeng, Qian, Peng, Yin, Liusong, 2015

机译：NLpCC 2015共享任务概述：中文分词和微博文本的pOs标记

NLPCC 2016 Shared Task Chinese Words Similarity Measure via Ensemble Learning Based on Multiple Resources

摘要

著录项

相似文献

相关主题

期刊订阅