面向海量高维数据的文本主题发现

王和勇; 蓝金炯

首页> 中文期刊>情报杂志 >面向海量高维数据的文本主题发现

面向海量高维数据的文本主题发现

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

针对潜在语义分析( LSA： Latent Semantic Analysis)方法在海量高维数据中的制约，提出K均值聚类的LSA方法( KLSA)：通过利用K均值聚类对主题词进行预处理，将主题词降到相对低维空间后再使用LSA方法；选取新浪微博文本数据作为具体研究对象，通过实验证明了所提出的方法能够在确保模型分类效果条件下，很好地满足海量高维数据对LSA方法计算速度的敏感要求。%Considering the constraints of Latent Semantic Analysis ( LSA) method in massive high-dimensional data, this paper proposes an improved LSA method based on k-means algorithm, called KLSA. This method takes advantage of k-means algorithm to reduce those feature words to relatively low-dimensional space and then uses the LSA method. In order to ensure the validity of this idea, the paper chooses text data from Sina Weibo to conduct an experiment. It is proved that the proposed method can satisfy the requirements of compu-tational efficiency in massive high-dimensional data under the condition of ensuring the classification results.

著录项

来源
《情报杂志》|2015年第11期|162-167|共6页
作者
王和勇; 蓝金炯;
展开▼
作者单位

华南理工大学经济与贸易学院广州 510006;

华南理工大学经济与贸易学院广州 510006;

展开▼
原文格式 PDF
正文语种 chi
中图分类情报工作自动化、网络化;
关键词
海量数据; 高维数据; LSA; K均值聚类;

相似文献

中文文献
外文文献
专利

1. 面向高维数据的低冗余top-k异常点发现方法 [J] . 陈冠华 ,马秀莉 ,杨冬青 . 计算机研究与发展 . 2010,第005期
2. 面向海量低质手机轨迹数据的重要位置发现 [J] . 章志刚 ,金澈清 ,王晓玲 . 软件学报 . 2016,第007期
3. 融合锚词抽取的海量短文本主题层次挖掘 [J] . 吕品 ,计春雷 ,汪鑫 . 电子学报 . 2018,第005期
4. 一种基于海量高维数据的软子空间聚类改进算法 [J] . 容会 ,沈江炎 ,韩珂 . 云南民族大学学报（自然科学版） . 2018,第002期
5. 基于投影最近邻的海量高维数据查询算法 [J] . 李晓飞 ,赵成伟 ,韩松任 . 信息记录材料 . 2017,第012期
6. 面向高维数据的低冗余Top-k异常点发现方法 [C] . 陈冠华 ,马秀莉 ,杨冬青 . NDBC2009第26届中国数据库学术会议 . 2009
7. 面向海量数据的社区发现与关键用户挖掘算法研究 [A] . 王闯 . 2019

面向海量高维数据的文本主题发现

摘要

著录项

相似文献

相关主题

期刊订阅