首页> 中文会议>第五届全国情报学博士生学术论坛暨2015中国信息资源管理论坛 >可比语料聚类中不同文本表示方法的比较研究

可比语料聚类中不同文本表示方法的比较研究

页面导航

摘要
著录项
相似文献
相关主题

摘要

本文通过可比语料聚类实验以比较三种不同的文本表示方法,分别是空间向量模型(VSM),潜在语义索引(LSI),深度学习(DL).将可比语料中的源语言文本翻译为目标语言文本,然后和可比语料中的目标语言文本归为一个文本集合中.分别利用VSM,LSI和DL,三种方法来表示文本并进行聚类.实验结果显示:根据聚类得到测评数据中净相似度与可识别的类簇数量,用深度学习表示文本的方法比其他的几种表示方法聚类效果要好.三种方法的实验数据表明,新文本集合为英语的语料比新文本集合为汉语的聚类效果要好.基于LSI文本表示的方法随着文本表示维度的增加,识别出的类簇数量会逐渐减小并最终趋于稳定.

著录项

来源
《第五届全国情报学博士生学术论坛暨2015中国信息资源管理论坛》|2015年|1-14|共14页
会议地点北京
作者
Shutian Ma; 马舒天; Chengzhi Zhang; 章成志;
展开▼
作者单位

中国人民大学信息资源管理学院;

展开▼
会议组织
正文语种
原文格式 PDF
中图分类 TP311.13;
关键词
可比语料聚类; 文本表示; 深度学习; 类簇数量;

相似文献

中文文献
外文文献
专利

1. 中英可比语料库中翻译等价对抽取方法研究 [J] . 孙广范 ,宋金平 ,袁琦 . 计算机工程与应用 . 2007,第032期
2. 淋巴瘤医案不同聚类分析方法比较研究 [J] . 朱垚 ,陆明 ,杨涛 . 南京中医药大学学报 . 2021,第001期
3. 用聚类分析方法对宁夏中宁县和平罗县枸杞中6种元素综合指标的比较研究 [J] . 常璇 ,胡奇林 . 宁夏大学学报（自然科学版） . 2006,第003期
4. 数据挖掘中聚类方法比较研究 [J] . 王鑫 ,王洪国 ,王珺 . 计算机技术与发展 . 2006,第010期
5. 数据挖掘中聚类方法比较研究 [J] . 牟廉明 . 内江师范学院学报 . 2003,第002期
6. 基于不同文本表示与聚类策略的双语文本聚类研究 [C] . Shutian Ma ,马舒天 ,Chengzhi Zhang . 2015年全国情报学博士生学术论坛 . -1
7. 可比语料中双语多词术语互译对抽取方法研究 [A] . 徐会芳 . 2013

可比语料聚类中不同文本表示方法的比较研究

摘要

著录项

相似文献

相关主题

期刊订阅