摘要:
处在大数据时代,一方面,我们的生活离不开数据,不论是衣食住行,还是其他各个领域,都在与数据打交道;另一方面,这些数据是推动这个信息社会进一步发展的巨大动力,数据的地位与日俱增,在合适的时机总会发生合适的事,数据挖掘就发展起来了.数据挖掘(Dating mining)是分析处理大数据的关键技术,是通过某种算法从大量的数据中找出有用的信息的整个过程,有用的信息也就是你当前需要的信息,比如一个网页中有数值数据、英文数据和中文数据,如果只是想要这个网页中的数值数据,那么数值数据对你而言就是有用的信息,而其他数据则是无用的.然而,随着大规模数据挖掘问题的出现,例如web文本数据、图像处理、网络通讯数据、高光谱遥感数据、购物篮数据、基因表达谱、程序文件数据、核磁共振图像、声音数据等数据,研究的对象变得很复杂,复杂的对象需要更多的特征去描述它,由此产生了大量的高维数据.其次,在一些情况下,由于成本等诸多因素的影响,实验的次数会受到限制,导致数据呈现小样本的特性,二者一结合,便成了高维小样本数据.