回归/拟合方法列表


1️⃣ 线性回归类

方法 简介 优点 缺点
普通最小二乘线性回归 (OLS) 假设目标与特征是线性关系 简单、易理解、计算快;可解释性强 对非线性、异常值敏感;易过拟合或欠拟合
岭回归 (Ridge) 在OLS基础上加L2正则化,防止过拟合 减少多重共线性影响;稳定系数 无法做特征选择;仍假设线性关系
套索回归 (Lasso) 加L1正则化,可做特征选择 可以压缩不重要特征;简单模型 对高度相关特征可能随机选取
弹性网 (ElasticNet) L1+L2正则化 综合Ridge和Lasso优点 参数调节复杂

2️⃣ 非线性回归类

方法 简介 优点 缺点
多项式回归 线性模型加高次项 可以捕捉简单非线性 高次项容易过拟合;系数解释困难
支持向量回归 (SVR) 用核函数拟合非线性关系 对小样本和高维有效 对大数据慢;参数调节难
K近邻回归 (KNN Regression) 用相似样本预测 无需假设分布 对噪声敏感;高维数据表现差

3️⃣ 树模型类(非线性强、解释性好)

方法 简介 优点 缺点
决策树回归 用树结构分段预测 非线性强;易解释 易过拟合;不稳定
随机森林回归 (Random Forest) 多棵决策树平均 抗过拟合;鲁棒性强 模型较大;可解释性比单树差
梯度提升树 (GBDT, XGBoost, LightGBM, CatBoost) 顺序加树拟合残差 非线性强;高精度 调参复杂;训练慢
HistGradientBoosting GBDT的高效版本 大数据速度快 参数复杂;对小数据不一定优

4️⃣ 神经网络类

方法 简介 优点 缺点
多层感知机 (MLP) 全连接神经网络 可拟合高度非线性 数据量大;易过拟合;难解释
RNN/LSTM 处理时间序列 可捕捉序列依赖 训练复杂;参数多;需大量数据
1D-CNN 卷积处理时间序列 自动提取局部特征 需要调参;对非序列问题不优

5️⃣ 统计/贝叶斯回归类

方法 简介 优点 缺点
贝叶斯线性回归 给系数加先验分布 可量化不确定性 对非线性弱;计算复杂
岭/套索贝叶斯回归 正则化+贝叶斯 可处理共线性和不确定性 非线性弱;参数选择难

🔹 总结建议

  • 快速可解释 → 线性回归、Ridge/Lasso
  • 捕捉非线性 → 树模型(Random Forest / GBDT)
  • 时间序列依赖强 → LSTM / RNN
  • 小样本 → SVR、Bayesian Regression
  • 大数据 → HistGradientBoosting、LightGBM