萨姆大数法则(Law of Large Numbers, LLN)


一、通俗解释

萨姆大数法则其实就是 “平均值会趋近于期望值”

  • 当你重复很多次独立的随机实验时,结果的平均值会越来越接近理论上的平均数。
  • 换句话说,小样本会有波动,大样本会稳定下来

例子

  • 掷硬币一次,结果可能是正面,也可能是反面。
  • 掷 10 次,可能正面 7 次,比例 70%,和 50% 有差距。
  • 掷 10000 次,正反面比例基本会接近 50%。

这说明随着样本量增加,实际结果会逐渐靠近理论概率。


二、数学形式

假设我们有一列独立同分布的随机变量 X1,X2,…,XnX_1, X_2, \dots, X_n,它们的期望是 μ=E[Xi]\mu = E[X_i]。
我们计算样本平均值:

Xˉn=X1+X2+⋯+Xnn\bar{X}_n = \frac{X_1 + X_2 + \cdots + X_n}{n}

大数法则告诉我们:

Xˉn→μ当 n→∞\bar{X}_n \to \mu \quad \text{当 } n \to \infty

也就是:样本平均值 Xˉn\bar{X}_n 会无限接近真实期望值 μ\mu。


三、两种大数法则

  1. 弱大数法则(Weak Law of Large Numbers, WLLN)
    • 说的是样本平均值在概率意义下收敛到期望。
    • 简单理解:样本平均值偏离期望的概率会随着样本数增加而变小。
  2. 强大数法则(Strong Law of Large Numbers, SLLN)
    • 更严格:样本平均值几乎必然(概率为 1)收敛到期望。
    • 这意味着,虽然可能存在极少数“极端路径”,但几乎所有情况下结果都会稳定到期望值。

四、意义与应用

  1. 统计学基础
    • 所有基于样本估计总体的统计方法(比如调查、抽样)都依赖大数法则。
  2. 赌博与概率直觉
    • 它解释了为什么赌场永远赢:短期玩家可能赢钱,但长期下来结果会靠近赌场设定的胜率优势。
  3. 保险行业
    • 保险公司依赖大量投保人来分散风险。单个事件不可预测,但总体赔付可以用概率期望来估算。
  4. 机器学习与大数据
    • 样本越多,模型估计的参数越接近真实分布。

五、形象比喻

  • 称米:你抓一小把米,重量可能轻或重;但如果你称一整袋米,总重量就很接近真实的“每粒米平均重量 × 总粒数”。
  • 考试成绩:一个学生考一次数学,分数可能发挥失常。但如果看他 100 次小测验的平均分,这个平均分就能较准确地反映他的真实水平。

六、总结

  • 核心思想:样本平均 ≈ 理论期望(在样本量足够大的时候)。
  • 两种形式:弱大数法则(概率收敛) vs. 强大数法则(几乎必然收敛)。
  • 应用广泛:统计、保险、金融、人工智能……几乎所有涉及数据的学科都依赖它。