AI 的底层算法/模型架构


一、神经网络基本架构

这些是最早的深度学习基石:

  • 感知机 (Perceptron):最简单的神经元模型,只能做线性分类。
  • 多层感知机 (MLP / Feedforward Neural Network):堆叠多层感知机,可以逼近任意函数。

二、卷积类模型(CNN)

擅长处理 图像、视频、语音 等有空间结构的数据。

  • LeNet (1990s):早期手写数字识别。
  • AlexNet (2012):让深度学习爆火,赢得 ImageNet。
  • VGG、GoogLeNet、ResNet:逐步解决网络更深、训练更难的问题。
  • ConvNeXt:现代 CNN,吸收 Transformer 思路。

三、循环类模型(RNN)

擅长处理 序列数据(文本、语音、时间序列)。

  • RNN (Recurrent Neural Network):能记住序列信息,但梯度容易消失/爆炸。
  • LSTM (Long Short-Term Memory):加了“门控机制”,解决长期依赖。
  • GRU (Gated Recurrent Unit):比 LSTM 更简洁,效果类似。

四、注意力机制与 Transformer

这是 现代 AI 的主流

  • Self-Attention (自注意力):计算序列中不同位置的依赖关系。
  • Transformer (2017):完全抛弃 RNN/CNN,只靠注意力,训练效率极高。
    • 衍生出 BERT(编码型)GPT(解码型)T5(编码-解码型) 等。

五、生成模型

用于 生成图像、文本、语音 等。

  • 自回归模型 (AR):如 GPT,逐步生成下一个词。
  • 自编码器 (Autoencoder):压缩+解码,学习数据表示。
  • 变分自编码器 (VAE):在概率空间里生成数据。
  • 生成对抗网络 (GAN):两个网络对抗(生成器 vs 判别器)。
  • 扩散模型 (Diffusion Models):逐步去噪生成,如 Stable Diffusion、Imagen

六、图神经网络(GNN)

擅长处理 图结构数据(社交网络、分子结构)。

  • GCN (Graph Convolutional Network)
  • GraphSAGE
  • GAT (Graph Attention Network)

七、强化学习(RL)

用于 决策与控制,特别是在游戏、机器人。

  • Q-learning / Deep Q-Network (DQN)
  • Policy Gradient (策略梯度)
  • Actor-Critic / PPO:ChatGPT 就用 PPO 来做人类反馈强化学习 (RLHF)。

简明总结

  • MLP → 基础
  • CNN → 图像
  • RNN / LSTM / GRU → 序列
  • Transformer → 现代主流(语言、图像、语音都能处理)
  • GAN / VAE / Diffusion → 生成模型
  • GNN → 图结构
  • 强化学习 → 决策