在格物汇之前的文章中,我们辩论了特征提取的经典算法——主成分分析PCA与线性判别分析LDA的原理与应用于场景。PCA是一种无监督的降维方法,找寻的是让数据方差仅次于的一种同构;LDA是一种有监督的降维方法,找寻的是让数据分类效果最差的一种同构。但是它们依然有应用于的局限性,今天我们就一起来理解下。
PCA的局限性我们再行来总结一下PCA的降维原理:PCA企图通过转动寻找新的向量恩,符合这样的两条性质:1、最近重构性:样本点到新的同构的向量恩距离充足相似。2、仅次于可分性:样本点在新的向量基上方差仅次于。最后我们推论获得:我们只必须对协方差矩阵XX^T展开特征值分解成,获得的特征值和特征向量即是转换矩阵w的解和改主成分所说明的方差量。
这样的降维方法是线性的降维方法,即从低维空间到较低维空间的函数同构是线性的。然而在不少应用于场景中,线性同构有可能无法获得想的结果,例如如下的例子:S型曲线的本真二维结构是其较低维空间的原本形状,通过线性降维后获得的结果显著并不是我们所希望的。核方法我们讲解SVM的时候所讲解的核方法是一种可以展开升至维来分解一些非线性的同构。
这个方法我们可以某种程度用于在PCA降维分析中。假设我们有一个样本集:x1,x2?xn假设映射函数为,那么同构到高维以后,数据变为:类似于PCA的解法方法,XX^T经过高维同构后获得,故:我们把λ移动到等号左边获得:我们令其:做到一个非常简单的更换,获得:代入等式1,获得:我们在左右两边同时乘上获得:做到一下非常简单的转变:十分幸运地的是,我们设计出有了否还忘记我们在SVM的核函数中曾多次检验过,在较低维空间计算出来(<x1,x2>+1)^2获得的结果与低维空间上计算出来的结果相近,只是系数略有不同。
因此我们也可以在此应用于核方法来计算出来。我们在此定义核函数矩阵:代入上面等式2,之后可获得:即很显著,这又返回了特征值分解成的问题,所取K仅次于的d个特征值所对应的特征向量才可。小结我们通过将数据同构到高维以后,精妙的建构出有了目的是为了通过在较低维空间上应用于核函数,计算出来获得跟低维空间上差不多的效果。
PCA所做到的是对坐标轴线性变换,即转换后的新的基还是一条直线。而KPCA对坐标轴做到了非线性转换,数据所同构的新基就仍然是一条直线了,而是一条曲线或者曲面,如下图右图:通过上面这个图,大家应当理解了KPCA和PCA的区别了吧?好了,本期格物资的内容就到这里,我们下期妳。
本文来源:澳门威斯尼斯wns888入口-www.tzssjj.com