首页> 中国专利> 一种基于Spark的高维稀疏文本数据聚类方法

一种基于Spark的高维稀疏文本数据聚类方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明请求保护一种基于Spark的高维稀疏文本数据聚类方法，包括步骤：用RDD读入数据集；并用RDD接口设计出分布式稀疏向量集；分布式稀疏向量集与其所在结点的完整数据集计算相似度，按编号抽象为相似矩阵。将存放的相似矩阵对称化，并求其归一化形式和Laplace矩阵形式。4、利用SVD分解步骤3中归一化Laplace矩阵，5、步骤4构建的新矩阵作为样本输入到K‑means模型进行训练。6、利用建立的模型对测试集进行聚类。本发明提高了传统谱聚类算法在大数据集下的运算性能。

著录项

公开/公告号CN106570173A

专利类型发明专利
公开/公告日2017-04-19

原文格式PDF
申请/专利权人重庆邮电大学;
展开▼

申请/专利号CN201610988558.4
发明设计人王进;黄超;莫倩雯;陈乔松;邓欣;欧阳卫华;胡峰;李智星;雷大江;
展开▼

申请日2016-11-09
分类号G06F17/30(20060101);
代理机构50102 重庆市恒信知识产权代理有限公司;
代理人刘小红
地址 400065 重庆市南岸区南山街道崇文路2号
入库时间 2023-06-19 01:56:43

法律信息

法律状态公告日

法律状态信息

法律状态
2017-05-17

实质审查的生效 IPC(主分类):G06F17/30 申请日:20161109

实质审查的生效
2017-04-19

公开

公开

相似文献

专利
中文文献
外文文献

1. 一种基于Spark的高维稀疏文本数据聚类方法 [P] . 中国专利： CN106570173B . 2020.09.29
2. 一种基于Spark的高维稀疏文本数据聚类方法 [P] . 中国专利： CN106570173A . 2017-04-19
3. DOCUMENT CLUSTERING METHOD FOR UNSTRUCTURED TEXT DATA, USING DEEP LEARNING [P] . 世界知识产权组织专利： WO2018092936A1 . 2018-05-24

机译：基于深度学习的非结构化文本数据文档聚类方法
4. A METHOD OF ESTIMATING THE NUMBER OF MODES FOR THE SPARSE COMPONENT ANALYSIS BASED MODAL IDENTIFICATION [P] . 美国专利： US2019376874A1 . 2019-12-12

机译：一种基于模态识别的稀疏分量估计模式数估计方法
5. A method and apparatus for removing artifact filtering based on sparsity for video encoding and decoding [P] . 日本专利： JP2012510202A . 2012-04-26

机译：一种基于稀疏性去除伪影滤波的视频编码和解码方法及装置