477 字
2 分钟
升维与降维
升维与降维
1. 欠拟合与过拟合
2. 升维(特征扩展)
目的:解决欠拟合,让线性模型拟合非线性关系。
方法:添加多项式特征
from sklearn.preprocessing import PolynomialFeatures
poly = PolynomialFeatures(degree=2)X_poly = poly.fit_transform(X) # 自动生成高次特征注意:升维会增加过拟合风险,通常需配合正则化使用。
3. 降维
目的:减少特征数量,缓解过拟合、降低计算成本、消除冗余。
主成分分析 (PCA)1
将高维数据投影到方差最大的方向,保留最重要的信息。
from sklearn.decomposition import PCA
pca = PCA(n_components=2) # 降到2维X_reduced = pca.fit_transform(X)print("方差解释比:", pca.explained_variance_ratio_)| 方法 | 原理 | 适用场景 |
|---|---|---|
| PCA | 线性投影,最大化方差 | 数值型特征,去相关性 |
| t-SNE2 | 非线性,保留局部结构 | 可视化高维数据 |
| 特征选择 | 删除低重要性特征 | 有明确业务含义时 |
| [[01_回归与分类#5. LDA(线性判别分析) | 对比LDA]] |
升维会增加过拟合风险,通常需要配合正则化(惩罚项、Early Stopping 等)使用,详见 正则化与归一化。