『壹』 怎么理解 cpa算法 维数约简

在科学研究中,我们常常要对数据进行处理,而这些数据通常位于一个高维空间中,例如当处理一个256*256 的图像序列时,我们需要将其拉成一个向量,这样,我们就得到了65536维的数据,如果直接对这些数据进行处理,会有以下问题:首先,会出现所谓的“维数灾难”问题,巨大的计算量将使我们无法忍受;其次,这些数据通常没有反映出数据的本质特征,如果直接对他们进行处理,不会得到理想的结果。所以,通常我们需要首先对数据进行维数约简,然后对约简后的数据进行处理。当然要保证约简后的数据特征能反映甚至更能揭示原数据的本质特征。

通常,我们进行数据维数约简主要是基于以下目的:

1、压缩数据以减少存储量

2、去除噪声的影响

3、从数据中提取特征以便进行分类

4、将数据投影到低维可视空间,以便于看清数据的分布

对付高维数据问题基本的方法就是维数约简,即将n
维数据约简成m(M<<N)维数据,并能保持原有数据集的完整性,在m
上进行数据挖掘不仅效率更高,且挖掘出来的结果与原有数据集所获得结果基本一致。分析现有的数据挖掘模型,用于数据维数约简的基本策略归纳起来有两种:一种是从有关变量中消除无关、弱相关和冗余的维,寻找一个变量子集来构建模型。换句话说就是在所有特征中选择最优代表性的特征,称为特征选择。另一种特征提取,即通过对原始特征进行某种操作获取有意义的投影。也就是把n
个原始变量变换为m 个变量,在m上进行后续操作。