首页> 中文会议>第五届全国情报学博士生学术论坛暨2015中国信息资源管理论坛 >可比语料聚类中不同文本表示方法的比较研究

可比语料聚类中不同文本表示方法的比较研究

摘要

本文通过可比语料聚类实验以比较三种不同的文本表示方法,分别是空间向量模型(VSM),潜在语义索引(LSI),深度学习(DL).将可比语料中的源语言文本翻译为目标语言文本,然后和可比语料中的目标语言文本归为一个文本集合中.分别利用VSM,LSI和DL,三种方法来表示文本并进行聚类.实验结果显示:根据聚类得到测评数据中净相似度与可识别的类簇数量,用深度学习表示文本的方法比其他的几种表示方法聚类效果要好.三种方法的实验数据表明,新文本集合为英语的语料比新文本集合为汉语的聚类效果要好.基于LSI文本表示的方法随着文本表示维度的增加,识别出的类簇数量会逐渐减小并最终趋于稳定.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号