自编码器原理及介绍
引子
在我们做机器学习或者数据挖掘过程中,常常会遇见特征维度过多的情况,或者特征意义不明,我们希望能够将现有特征进行整合,形成具有代表性的更精简的特征,这便是我们通常所谓的降维。
传统降维方法
一种我们经常听到或使用的方法是:主成分分析法(PCA,Principal Component Analysis),这是一种无监督学习的方法。
通过现有的n维特征,将n维特征映射到k维上(k< n),这k维特征通常是全新的正交特征,称为主元,是重新构造出来的k维特征。
我们一般认为,信号具有较大的方差(包含信息),噪声具有较小的方差。所以我们认为的最好的k个特征应该尽可能的包含有用信号,亦即信号损失尽可能小。故在将n维特征转换为k维后,取的是前k个较大方差的特征方向。而新特征的选择,也就是选择那些方差损失最小的特征。PCA详细信息可参考下面的知乎贴:
在做主成分分析(pca)时,选取的主特征是原来数据的哪些特征呢?
谁能用通俗易懂的语言讲解一下什么是PCA主成分分析?
存在问题:它本质上是线性变化。因为新的k维特征矩阵=原始矩阵*特征向量矩阵,实际上对于每一个新特征,其实是原始特征的某种线性变换。因此,对于非线性的特征抽象或者降维,PCA将无能为力。
神经网络与自编码器
待续