首页> 中文期刊> 《软件》 >利用word2vec对中文词进行聚类的研究

利用word2vec对中文词进行聚类的研究

     

摘要

文本聚类在数据挖掘和机器学习中发挥着重要的作用,该技术经过多年的发展,已产生了一系列的理论成果。本文在前人研究成果的基础上,探索了一种新的中文聚类方法。本文先提出了一种中文分词算法,用来将中文文本分割成独立的词语。再对处理后的语料使用Word2Vec工具集,应用深度神经网络算法,转化为对应的词向量。最后,将词向量之间的余弦距离定义为词之间的相似度,通过使用K-means聚类算法将获取的词向量进行聚类,最终可以返回语料库中同输入词语语意最接近的词。本文从网络上抓取了2012年的网络新闻数据,应用上述方法进行了实验,取得了不错的实验效果。%Text clustering plays an important role in data mining and machine learning. After years of development, clustering technology has produced a series of theorey. This paper explored a new method of Chinese clustering. By putting forword a new method to Chinese word segments, this paper can split Chinese text into word segments. With Word2Vec toolset, we can transfrom word segments into vectors. To deifne the cosine distance between two vectors, we can apply K-means algorithm on the vectors to cluster words. In this paper, we downloaded network news text on the Internet, and applied the methods above, which shows good result.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号