Applied Stastic test notes

第二部分：概率论的基础 - 集合上的概率

基本定义
- 样本空间：一个随机试验所有可能结果的集合，记为 Ω。
- 事件：样本空间的一个子集，记为 A，代表我们关心的某种情况的发生。
- 实现：实际发生的一个结果，是样本空间中的一个元素 x。
概率空间
- 是研究概率的严格数学框架，为一个三元组 (Ω, F, P)。
  - Ω：样本空间。
  - F：事件域，是所有我们“可测量”的事件的集合。
  - P：概率测度，为每个事件分配一个概率值的函数。
概率公理
- 非负性：任何事件的概率都在0和1之间。0 ≤ P(A) ≤ 1
- 规范性：整个样本空间的概率为1。P(Ω) = 1
- 可列可加性：如果一系列事件两两互斥，那么它们至少一个发生的概率等于各自概率之和。P(A1 ∪ A2 ∪ ...) = P(A1) + P(A2) + ...
概率的基本性质
- 空集概率：P(∅) = 0
- 补集规则：P(Aᶜ) = 1 - P(A)
- 并集规则：P(A ∪ B) = P(A) + P(B) - P(A ∩ B)
- 单调性：如果事件A包含于事件B，则P(A) ≤ P(B)。

第三部分：贝叶斯定理 - 用证据更新信念

条件概率 Conditional Probability
- 定义：在事件B已经发生的条件下，事件A发生的概率。
  P(A|B) = P(A ∩ B) / P(B)，要求 P(B) > 0。
- 乘法公式：P(A ∩ B) = P(B) * P(A|B) = P(A) * P(B|A)
- 链式法则 ：P(A ∩ B ∩ C) = P(C) * P(B | C) * P(A | B ∩ C)
- 全概率公式：如果事件B₁, B₂, … 构成了样本空间的一个划分，那么：
  P(A) = Σ P(A|Bᵢ) * P(Bᵢ)
贝叶斯定理 Bayes’ Theorem 知道结果，计算原因的概率
- 公式：
  P(A|B) = [P(B|A) * P(A)] / P(B)
- 核心组成部分：
  - 后验概率 P(A|B)：在 B 的条件下 A 的概率
  - 似然度 P(B|A)：在 A 的条件下 B 的概率
  - 先验概率 P(A)：事件 A 的先验概率
  - 证据 P(B)：事件 B 的总概率
- 经典例子（医疗诊断）：
  - 即使一个疾病的检测方法非常准确（高灵敏度和高特异性），但如果疾病本身在人群中的发病率（先验概率）很低，那么一个阳性结果的人真正患病的概率（后验概率）可能远低于你的直觉。
    
    已知：
    $$
    P(D)=0.01（得病率）
    P(+|D)=0.99（真阳率）
    P(+|\bar D)=0.05（假阳率）
    $$
    求：P(D|+)
    $$
    P(D|+)=\frac{P(+|D)P(D)}{P(+)}=\frac{P(+|D)P(D)}{P(+|D)P(D)+P(+|\bar D)P(\bar D)}
    $$
    
    $$
    P(D|+)=\frac{0.99×0.01}{0.99×0.01+0.05×0.99}≈0.167
    $$
    
    结论：检测阳性 → 真得病概率仅约 16.7%

第四部分：独立性

两个事件的独立性
- 数学定义：P(A ∩ B) = P(A) * P(B)
- 等价条件（当 P(A), P(B) > 0）：P(A|B) = P(A) 且 P(B|A) = P(B)
- 例子：连续抛一枚公平硬币两次，第一次的结果和第二次的结果是独立的。
多个事件的独立性
- 两两独立：Pairwise independence 一组事件中，任意两个事件之间都是独立的。
- 相互独立：Mutual independence 一组事件中，任意数量的事件组合（任意两个、三个、四个…）都满足独立性的乘积规则。这是一个更强的条件。
- 关键区别：两两独立 ≠ 相互独立。
  - 反例：抛两枚公平硬币。
    - A: 第一次是正面 B: 第二次是正面 C: 两次结果相同。
    - 可以验证 A, B, C 是两两独立的，但三者在一起不是相互独立的，因为如果A和B都发生，则C必然发生。
事件独立性性质：补集也独立
已知：(A, B) 独立，即 (P(A \cap B) = P(A)P(B))
1. 证明：(A^c) 与 (B^c) 独立
证明过程：
1. (A^c \cap B^c = (A \cup B)^c)
  [
  P(A^c \cap B^c) = 1 - P(A \cup B)
  ]
2. (P(A \cup B) = P(A) + P(B) - P(A \cap B))
  [
  = P(A) + P(B) - P(A)P(B)
  ]
3. 代入：
  [
  P(A^c \cap B^c) = 1 - [P(A) + P(B) - P(A)P(B)]
  ]
  [
  = 1 - P(A) - P(B) + P(A)P(B)
  ]
4. 又：
  [
  P(A^c)P(B^c) = (1-P(A))(1-P(B))
  ]
  [
  = 1 - P(A) - P(B) + P(A)P(B)
  ]
5. 所以：
  [
  P(A^c \cap B^c) = P(A^c)P(B^c)
  ]
结论：若 (A,B) 独立，则 (A^c, B^c) 也独立。
1. 证明 (A) 与 (B^c) 独立
[
\begin{aligned}
P(A \cap B^c) &= P(A) - P(A \cap B) \quad \text{(因为 } A = (A \cap B) \cup (A \cap B^c) \text{ 且不交)} \
&= P(A) - P(A)P(B) \quad \text{(由独立性)} \
&= P(A)[1 - P(B)] \
&= P(A)P(B^c)
\end{aligned}
]

✅ 故 (A) 与 (B^c) 独立。
1. 证明 (A^c) 与 (B) 独立
由对称性，同理可得：

[
\begin{aligned}
P(A^c \cap B) &= P(B) - P(A \cap B) \
&= P(B) - P(A)P(B) \
&= P(B)[1 - P(A)] \
&= P(A^c)P(B)
\end{aligned}
]

✅ 故 (A^c) 与 (B) 独立。

独立性与条件概率的等价性证明
定理：若 (P(A) > 0)，则 (A) 和 (B) 独立 (\Leftrightarrow) (P(B|A) = P(B))

证明：

(⇒) 已知独立，证 (P(B|A) = P(B))

[
\begin{aligned}
P(B|A) &= \frac{P(B \cap A)}{P(A)} \quad \text{(条件概率定义)} \
&= \frac{P(A)P(B)}{P(A)} \quad \text{(由独立性 } P(A \cap B) = P(A)P(B)) \
&= P(B)
\end{aligned}
]

✅ 得证。

(⇐) 已知 (P(B|A) = P(B))，证独立
[
\begin{aligned}
P(B|A) = P(B) &\Rightarrow \frac{P(A \cap B)}{P(A)} = P(B) \
&\Rightarrow P(A \cap B) = P(A)P(B)
\end{aligned}
]

✅ 由独立性定义，得证。

结论：当 (P(A) > 0) 时，独立性等价于 (A) 的发生不影响 (B) 的概率。

零概率或全概率事件的独立性证明

定理：若 (P(A) = 0) 或 (P(A) = 1)，则 (A) 与任何事件 (B) 独立。

情况1：(P(A) = 0)
[
\begin{aligned}
&0 \le P(A \cap B) \le P(A) = 0 \quad \text{(概率单调性)} \
&\Rightarrow P(A \cap B) = 0 \
&\Rightarrow P(A \cap B) = 0 = 0 \cdot P(B) = P(A)P(B)
\end{aligned}
]

✅ 满足独立性定义。

情况2：(P(A) = 1)
[
\begin{aligned}
&P(A) = 1 \Rightarrow P(A^c) = 0 \
&\text{由情况1，} A^c \text{ 与 } B \text{ 独立} \
&\Rightarrow A^c \text{ 与 } B^c \text{ 独立} \quad \text{(补集独立性)} \
&\Rightarrow (A^c)^c = A \text{ 与 } (B^c)^c = B \text{ 独立} \quad \text{(再次用补集独立性)}
\end{aligned}
]

✅ 得证。

结论：概率为 0 或 1 的事件与任何事件独立。

01

第一部分：建模动机 - 我们为什么需要概率模型？**

从现实问题到数学模型
- 统计学的核心是将现实世界的问题（自然语言）转化为概率模型（数学语言）。
- 例子：
  - “网站B版本比A好吗？” → 将点击建模为伯努利试验，比较成功概率 ( p_A ) 和 ( p_B )。
  - “生产缺陷是随机且稀少的吗？” → 用泊松分布对缺陷计数进行建模，并检查拟合度。

随机变量的作用

随机变量就是用一个数字来表示一次随机实验的结果。

表格总结：

现实问题	随机变量 (RV)	概率分布
“掷一个公平的骰子？”	( X \in {1,…,6} )	均匀分布
“用户点击了吗？”	( X = 1 )（点击）或 ( 0 )（未点击）	伯努利分布
“一批产品中的缺陷数？”	( D \in {0, 1, 2, …} )	泊松分布
“设备失效时间？”	( T \geq 0 )	指数分布

引人入胜的例子
- 生日悖论：展示了概率的反直觉性，仅需23人，两人同生日的概率就超过50%。
- 蒙提霍尔问题：展示了条件概率的重要性，切换选择会将获胜概率从1/3提升到2/3。
- 缺陷计数与指数失效：展示了如何用泊松分布和指数分布对现实世界中的计数和等待时间进行建模。

第二部分：基础与随机变量

概率空间 Probability Space
- ( (\Omega, \mathcal{F}, \mathbb{P}) )（样本空间，事件域，概率测度）。
Basic properties for events A, B ∈ F
- Bounds: 0 ≤ P(A) ≤ 1, with P(∅) = 0 and P(Ω) = 1.
- Complement: P(A^c^) = 1 − P(A). 补集
- Monotonicity: A ⊆ B ⇒ P(A) ≤ P(B). 单调性
- Union/intersection: P(A ∪ B) = P(A) + P(B) − P(A ∩ B). 并运算
- Disjoint additivity: if A ∩ B = ∅, then P(A ∪ B) = P(A) + P(B); 互斥可加性
随机变量 random variables
- 定义：一个将样本空间 ( \Omega ) 中的结果映射到实数 ( \mathbb{R} ) 的可测函数。( X: \Omega \to \mathbb{R} )。
- 分布/律：随机变量 ( X ) 诱导出的概率分布 ( \mathbb{P}_X )。
- 为什么有用？
  - 便于计算：可以直接对随机变量进行代数运算（如 ( Y = 2X + 3 )）。
  - 便于组合：可以轻松描述多个随机过程。
  - 提供分析工具：期望、方差、矩生成函数等都基于随机变量。
离散型随机变量 Discrete random variables
- 特点：取值在一个可数的集合中（如整数）。
- 概率质量函数 (PMF probability mass function)：( P_X(x) = \mathbb{P}(X = x) )。像一个概率表格，给出每个可能值的概率。
- 累积分布函数 (CDF cumulative distribution function)：( F_X(x) = \mathbb{P}(X \leq x) )。是一个右连续的非递减阶梯函数。CDF 是随机变量取值不大于某个数的概率，也就是“累计概率”
- CDF的适用性：仅当变量有自然顺序时才有意义（如缺陷数量0,1,2…）。对于名义变量（如颜色），CDF是无意义的。
连续型随机变量 Continuous random variables
- 特点：取值在一个区间内，取某个特定值的概率为0。
- 概率密度函数 (PDF probability density function)：( f_X(x) )。高度不代表概率，概率是PDF曲线下的面积。( \mathbb{P}(a < X \leq b)=\int_a^b f_X(x)dx )。
- 累积分布函数 (CDF cumulative distribution function)：( F_X(x) = \mathbb{P}(X \leq x) = \int_{-\infty}^x f_X(t)dt )。( \mathbb{P}(a < X \leq b)=F_X(b)-F_X(a) = \int_a^b f_X(x)dx )
- 关系：( f_X(x) = F_X’(x) ) 概率密度函数是累积分布函数的导数，PDF是CDF的导数（几乎处处成立）。
- 分位数：( q_p ) 是满足 ( F_X(q_p) \geq p ) 的值。例如，中位数是 ( q_{0.5} )。
关键分布总结

离散：
- 伯努利(p)：单次试验，成功概率p。
- 二项式(n, p)：n次独立伯努利试验的成功次数。
- 泊松(λ)：稀有事件在固定区间内的发生次数。
连续：
- 均匀(a, b)：在区间[a, b]上等可能。
- 指数(λ)：独立事件发生的时间间隔，具有无记忆性。
- 正态(μ, σ²)：著名的”钟形曲线”，在统计学中至关重要。

分布公式及推导

好的，这是几个核心概率分布的PDF、CDF、期望E[X]、方差Var(X) 的公式及其关键推导步骤。

1. 伯努利分布 - Bernoulli(p)

描述：单次试验，成功为1，失败为0。
参数：( p ) (成功概率), ( 0 \leq p \leq 1 )
支撑 support：( X \in {0, 1} )

项目	公式
PMF	( P(X=k) = p^k (1-p)^{1-k} \quad \text{for } k=0,1 )
CDF	( F(k) = \begin{cases} 0 & \text{if } k < 0 \ 1-p & \text{if } 0 \leq k < 1 \ 1 & \text{if } k \geq 1 \end{cases} )
期望 E[X]	( p )
方差 Var(X)	( p(1-p) )

推导：

E[X]:
( \mathbb{E}[X] = \sum_k k \cdot P(X=k) = 0 \cdot (1-p) + 1 \cdot p = p )
E[X²]:
( \mathbb{E}[X^2] = \sum_k k^2 \cdot P(X=k) = 0^2 \cdot (1-p) + 1^2 \cdot p = p ) (因为 ( X^2 = X ))
Var(X):
( \operatorname{Var}(X) = \mathbb{E}[X^2] - (\mathbb{E}[X])^2 = p - p^2 = p(1-p) )

2. 二项分布 - Binomial(n, p)

描述：( n ) 次独立伯努利试验的成功次数。
参数：( n ) (试验次数), ( p ) (成功概率)
支撑：( X \in {0, 1, …, n} )

项目	公式
PMF	( P(X=k) = \binom{n}{k} p^k (1-p)^{n-k} )
CDF	( F(k) = \sum_{i=0}^{\lfloor k \rfloor} \binom{n}{i} p^i (1-p)^{n-i} ) (无闭形式)
期望 E[X]	( np )
方差 Var(X)	( np(1-p) )

推导：

E[X]:
- 定义 ( X = \sum_{i=1}^n X_i )，其中 ( X_i \sim \text{Bernoulli}(p) )。
- 由期望的线性性：( \mathbb{E}[X] = \mathbb{E}[\sum_{i=1}^n X_i] = \sum_{i=1}^n \mathbb{E}[X_i] = \sum_{i=1}^n p = np )
Var(X):
- 由于 ( X_i ) 独立：( \operatorname{Var}(X) = \operatorname{Var}(\sum_{i=1}^n X_i) = \sum_{i=1}^n \operatorname{Var}(X_i) = \sum_{i=1}^n p(1-p) = np(1-p) )

3. 泊松分布 - Poisson(λ)

描述：单位时间/空间内稀有事件的发生次数。
参数：( \lambda > 0 ) (平均发生率)
支撑：( X \in {0, 1, 2, …} )

项目	公式
PMF	( P(X=k) = \frac{e^{-\lambda} \lambda^k}{k!} )
CDF	( F(k) = e^{-\lambda} \sum_{i=0}^{\lfloor k \rfloor} \frac{\lambda^i}{i!} ) (无闭形式)
期望 E[X]	( \lambda )
方差 Var(X)	( \lambda )

推导：

E[X]:
( \mathbb{E}[X] = \sum_{k=0}^{\infty} k \cdot \frac{e^{-\lambda} \lambda^k}{k!} = \sum_{k=1}^{\infty} \frac{e^{-\lambda} \lambda^k}{(k-1)!} = \lambda e^{-\lambda} \sum_{k=1}^{\infty} \frac{\lambda^{k-1}}{(k-1)!} = \lambda e^{-\lambda} e^{\lambda} = \lambda )
E[X(X-1)]:
( \mathbb{E}[X(X-1)] = \sum_{k=0}^{\infty} k(k-1) \frac{e^{-\lambda} \lambda^k}{k!} = \sum_{k=2}^{\infty} \frac{e^{-\lambda} \lambda^k}{(k-2)!} = \lambda^2 e^{-\lambda} \sum_{k=2}^{\infty} \frac{\lambda^{k-2}}{(k-2)!} = \lambda^2 )
E[X²]:
( \mathbb{E}[X^2] = \mathbb{E}[X(X-1)] + \mathbb{E}[X] = \lambda^2 + \lambda )
Var(X):
( \operatorname{Var}(X) = \mathbb{E}[X^2] - (\mathbb{E}[X])^2 = (\lambda^2 + \lambda) - \lambda^2 = \lambda )

4. 均匀分布 - Uniform(a, b)

描述：在区间 ([a, b]) 上等可能。
参数：( a, b ) (区间边界), ( a < b )
支撑：( X \in [a, b] )

项目	公式
PDF	( f(x) = \begin{cases} \frac{1}{b-a} & \text{for } a \leq x \leq b \ 0 & \text{otherwise} \end{cases} )
CDF	( F(x) = \begin{cases} 0 & \text{for } x < a \ \frac{x-a}{b-a} & \text{for } a \leq x \leq b \ 1 & \text{for } x > b \end{cases} )
期望 E[X]	( \frac{a+b}{2} )
方差 Var(X)	( \frac{(b-a)^2}{12} )

推导：

E[X]:
( \mathbb{E}[X] = \int_a^b x \cdot \frac{1}{b-a} , dx = \frac{1}{b-a} \cdot \left[ \frac{x^2}{2} \right]_a^b = \frac{1}{b-a} \cdot \frac{b^2 - a^2}{2} = \frac{(b-a)(b+a)}{2(b-a)} = \frac{a+b}{2} )
E[X²]:
( \mathbb{E}[X^2] = \int_a^b x^2 \cdot \frac{1}{b-a} , dx = \frac{1}{b-a} \cdot \left[ \frac{x^3}{3} \right]_a^b = \frac{1}{b-a} \cdot \frac{b^3 - a^3}{3} )
利用恒等式 ( b^3 - a^3 = (b-a)(a^2 + ab + b^2) )，所以 ( \mathbb{E}[X^2] = \frac{a^2 + ab + b^2}{3} )
Var(X):
( \operatorname{Var}(X) = \mathbb{E}[X^2] - (\mathbb{E}[X])^2 = \frac{a^2 + ab + b^2}{3} - \left( \frac{a+b}{2} \right)^2 )
( = \frac{4(a^2 + ab + b^2) - 3(a^2 + 2ab + b^2)}{12} = \frac{a^2 - 2ab + b^2}{12} = \frac{(b-a)^2}{12} )

5. 指数分布 - Exponential(λ)

描述：独立事件发生的时间间隔，具有无记忆性。
参数：( \lambda > 0 ) (速率参数)
支撑：( X \in [0, \infty) )

项目	公式
PDF	( f(x) = \lambda e^{-\lambda x} \quad \text{for } x \geq 0 )
CDF	( F(x) = 1 - e^{-\lambda x} \quad \text{for } x \geq 0 )
期望 E[X]	( \frac{1}{\lambda} )
方差 Var(X)	( \frac{1}{\lambda^2} )

推导：

E[X]:
( \mathbb{E}[X] = \int_0^{\infty} x \cdot \lambda e^{-\lambda x} , dx )
使用分部积分法：令 ( u = x, dv = \lambda e^{-\lambda x}dx )，则 ( du = dx, v = -e^{-\lambda x} )
( \mathbb{E}[X] = \left[ -x e^{-\lambda x} \right]_0^{\infty} + \int_0^{\infty} e^{-\lambda x} , dx = 0 + \left[ -\frac{1}{\lambda} e^{-\lambda x} \right]_0^{\infty} = \frac{1}{\lambda} )
E[X²]:
( \mathbb{E}[X^2] = \int_0^{\infty} x^2 \cdot \lambda e^{-\lambda x} , dx )
再次分部积分：令 ( u = x^2, dv = \lambda e^{-\lambda x}dx )，则 ( du = 2x dx, v = -e^{-\lambda x} )
( \mathbb{E}[X^2] = \left[ -x^2 e^{-\lambda x} \right]_0^{\infty} + \int_0^{\infty} 2x e^{-\lambda x} , dx = 0 + \frac{2}{\lambda} \mathbb{E}[X] = \frac{2}{\lambda} \cdot \frac{1}{\lambda} = \frac{2}{\lambda^2} )
Var(X):
( \operatorname{Var}(X) = \mathbb{E}[X^2] - (\mathbb{E}[X])^2 = \frac{2}{\lambda^2} - \left( \frac{1}{\lambda} \right)^2 = \frac{1}{\lambda^2} )

6. 正态分布 - Normal(μ, σ²)

描述：经典的”钟形曲线”，由中心极限定理保证。
参数：( \mu ) (均值), ( \sigma^2 > 0 ) (方差)
支撑：( X \in (-\infty, \infty) )

项目	公式
PDF	( f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} )
CDF	( F(x) = \Phi\left( \frac{x-\mu}{\sigma} \right) ) (无初等闭形式)
期望 E[X]	( \mu )
方差 Var(X)	( \sigma^2 )

推导：

思路：通过标准化变量 ( Z = \frac{X-\mu}{\sigma} \sim \mathcal{N}(0,1) ) 来推导。
E[Z]:
( \mathbb{E}[Z] = \int_{-\infty}^{\infty} z \cdot \frac{1}{\sqrt{2\pi}} e^{-z^2/2} , dz )。被积函数 ( z e^{-z^2/2} ) 是奇函数，在对称区间上积分为0。所以 ( \mathbb{E}[Z] = 0 )。
Var(Z):
( \operatorname{Var}(Z) = \mathbb{E}[Z^2] = \int_{-\infty}^{\infty} z^2 \cdot \frac{1}{\sqrt{2\pi}} e^{-z^2/2} , dz )
使用分部积分：令 ( u = z, dv = z e^{-z^2/2} dz )，则 ( du = dz, v = -e^{-z^2/2} )
( \mathbb{E}[Z^2] = \frac{1}{\sqrt{2\pi}} \left( \left[ -z e^{-z^2/2} \right]{-\infty}^{\infty} + \int{-\infty}^{\infty} e^{-z^2/2} , dz \right) = 0 + \frac{1}{\sqrt{2\pi}} \cdot \sqrt{2\pi} = 1 )
所以 ( \operatorname{Var}(Z) = 1 )。
回到 X:
- ( X = \mu + \sigma Z )
- ( \mathbb{E}[X] = \mathbb{E}[\mu + \sigma Z] = \mu + \sigma \mathbb{E}[Z] = \mu )
- ( \operatorname{Var}(X) = \operatorname{Var}(\mu + \sigma Z) = \sigma^2 \operatorname{Var}(Z) = \sigma^2 )

第三部分：统计量与收敛

统计量
- 定义：样本 ( (X_1, …, X_n) ) 的一个可测函数 ( T )。它是一个数据的摘要。
- 例子：样本均值 ( \bar{X} )、样本方差 ( S^2 )、最大值等。
- 描述性统计 vs 推断性统计：
  - 描述性：总结已有数据的特征（如均值、方差、直方图）。回答”数据看起来什么样？”
  - 推断性：通过概率模型从样本推断总体，并量化不确定性（如置信区间、假设检验）。回答”关于总体我们能说什么？”
期望与方差 Expectation 方差Variance
- 期望 (均值)：随机变量的加权平均值，表示分布的中心。
  - 离散 (\mathbb{E}[X] = \sum_{i} x_i \cdot P(X = x_i))
  - 连续 (\mathbb{E}[X] = \int_{-\infty}^{\infty} x \cdot f(x) dx)
  - 性质：线性 ( \mathbb{E}[aX + b] = a\mathbb{E}[X] + b )。
  对于离散随机变量：( \mathbb{E}[X] = \sum_{i} x_i p(x_i) )，其中 ( p(x_i) ) 是概率质量函数。
  
  证明：
  
  [
  \begin{aligned}
  \mathbb{E}[aX + b] &= \sum_{i} (aX_i + b) p(x_i) \
  &= \sum_{i} [aX_i p(x_i) + b p(x_i)] \
  &= a \sum_{i} X_i p(x_i) + b \sum_{i} p(x_i) \
  &= a \mathbb{E}[X] + b \cdot 1 \
  &= a\mathbb{E}[X] + b
  \end{aligned}
  ]
  对于连续随机变量：( \mathbb{E}[X] = \int_{-\infty}^{\infty} x f(x) dx )
  
  证明：
  
  [
  \begin{aligned}
  \mathbb{E}[aX + b] &= \int_{-\infty}^{\infty} (aX + b) f(x) dx \
  &= \int_{-\infty}^{\infty} [aX f(x) + b f(x)] dx \
  &= a \int_{-\infty}^{\infty} X f(x) dx + b \int_{-\infty}^{\infty} f(x) dx \
  &= a \mathbb{E}[X] + b \cdot 1 \
  &= a\mathbb{E}[X] + b
  \end{aligned}
  ]
- 方差：衡量随机变量围绕其均值的离散程度。
  - ( \text{Var}(X) = \mathbb{E}[(X - \mathbb{E}[X])^2] = \mathbb{E}[X^2] - (\mathbb{E}[X])^2 )。
  - 性质：( \text{Var}(aX + b) = a^2\text{Var}(X) )。
  (a) (\quad \text{Var}(X + b) = \text{Var}(X))
  
  证明：
  [
  \begin{aligned}
  \text{Var}(X + b) &= \mathbb{E}[(X + b - \mathbb{E}[X + b])^2] \
  &= \mathbb{E}[(X + b - \mathbb{E}[X] - b)^2] \
  &= \mathbb{E}[(X - \mathbb{E}[X])^2] \
  &= \text{Var}(X)
  \end{aligned}
  ]
  
  (b) (\quad \text{Var}(aX) = a^2 \text{Var}(X))
  
  证明：
  [
  \begin{aligned}
  \text{Var}(aX) &= \mathbb{E}[(aX - \mathbb{E}[aX])^2] \
  &= \mathbb{E}[(aX - a\mathbb{E}[X])^2] \
  &= \mathbb{E}[a^2(X - \mathbb{E}[X])^2] \
  &= a^2 \mathbb{E}[(X - \mathbb{E}[X])^2] \
  &= a^2 \text{Var}(X)
  \end{aligned}
  ]
- 函数g(X) 的期望：
  - 离散型：(E[g(X)] = \sum_{x} g(x) , P(X=x))
  - 连续型：(E[g(X)] = \int_{-\infty}^{\infty} g(x) , f_X(x), dx)
高阶矩：高阶矩就是随机变量的 n 阶期望，用来刻画随机变量的分布特征（比如波动、偏度、峰度等）。
- 高阶矩：(μ_n=E[(X-a)^n])
- 原点矩：(μ_n’=E[X^n]) (a=0)
  - 一阶原点矩：(\mu’_1 = E[X]) → 均值
  - 二阶原点矩：(\mu’_2 = E[X^2]) → 描述数值整体大小
  - 高阶原点矩：(\mu’_3 = E[X^3], \mu’_4 = E[X^4], \dots) → 描述分布形态
- 中心矩（Central moment） (\mu_n = E[(X - E[X])^n])
  - 衡量随机变量的波动和形态特征
  - 二阶中心矩：(\mu_2 = E[(X - E[X])^2] = \text{Var}(X))
  - 三阶中心矩：(\mu_3 = E[(X - E[X])^3]) → 偏度 Skewness
  - 四阶中心矩：(\mu_4 = E[(X - E[X])^4]) → 峰度 Kurtosis
- 偏度：衡量分布的不对称性。
  - 正偏（右偏）：右边尾巴更长。
  - 负偏（左偏）：左边尾巴更长。
- 峰度：衡量分布的尾部厚度和尖锐程度。
  - 与正态分布（峰度=3）比较。超额峰度 = 峰度 - 3。
  - 正超额峰度意味着比正态分布更厚的尾巴（更容易出现极端值）。
分位数

分位数计算：线性插值法（R语言默认，Type 7）
计算公式
令：
[
h = (n-1)p + 1
]
其中：
- (n) = 样本量
- (p) = 分位概率 ((0 < p < 1))
- (h) = 线性插值位置
分解：
[
k = \lfloor h \rfloor, \quad f = h - k
]

分位数：
[
Q(p) = (1-f) \cdot x_{(k)} + f \cdot x_{(k+1)}
]

等价形式：
[
Q(p) = x_{(k)} + (h-k)(x_{(k+1)} - x_{(k)})
]

计算示例
数据：({2, 4, 6, 8, 10})，求 (Q(0.25))

步骤：
1. (n = 5, p = 0.25)
2. (h = (5-1) \times 0.25 + 1 = 2)
3. (k = \lfloor 2 \rfloor = 2), (f = 2 - 2 = 0)
4. (Q(0.25) = (1-0) \cdot x_{(2)} + 0 \cdot x_{(3)} = 4)
特例说明
- 当 (h) 为整数时，(f = 0)，(Q(p) = x_{(h)})
- 当 (h) 非整数时，在 (x_{(k)}) 和 (x_{(k+1)}) 间线性插值
QQ图
- 目的：比较两个分布是否相同（或数据是否来自某个理论分布，如正态分布）。
- 原理：将一个分布的分位数对另一个分布的分位数作图。
- 解读：
  - 点大致在 y=x 直线上 → 分布相同。
  - 出现系统性弯曲 → 分布不同（可能在位置、尺度或尾部形状上存在差异）。
- 重要性：是检查数据是否符合理论分布（如正态性假设）的强大视觉工具。
矩生成函数和特征函数
- 矩生成函数 (MGF Moment Generating Function)：( M_X(t) = \mathbb{E}[e^{tX}] )。如果存在，它能唯一确定分布，并且可以通过求导轻松计算各阶矩。但可能不存在（对于重尾分布）。
  - 离散型随机变量：(M_X(t) = \sum_i e^{t x_i} , p_i)
  - 连续型随机变量：(M_X(t) = \int_{-\infty}^{\infty} e^{t x} f_X(x) , dx)
- 特征函数 (CF Characteristic Function)：( \varphi_X(t) = \mathbb{E}[e^{itX}] )。永远存在，并且也能唯一确定分布。是证明中心极限定理等极限理论的核心工具。
随机变量的收敛
- 几乎必然收敛：对于几乎所有的试验结果，随机变量序列 ( X_n ) 都最终收敛于 ( X )。最强的模式。
- 依概率收敛：( X_n ) 偏离 ( X ) 很远的概率趋于零。个体路径可能仍然振荡。
- 依分布收敛：( X_n ) 的分布函数 ( F_{X_n} ) 收敛于 ( X ) 的分布函数 ( F_X )。只关心分布的形状，不关心变量本身是否接近。
- 层次关系：几乎必然收敛 ⇒ 依概率收敛 ⇒ 依分布收敛。

第四部分：极限定理 - 统计学的理论支柱

大数定律 Law of Large Numbers
- 要解决的问题：为什么当我们收集更多数据时，样本平均值会稳定下来？
- 非正式表述：当独立观测次数越来越多时，样本平均值会收敛到总体均值。
- 正式表述 (弱大数定律)：对于独立同分布随机变量 ( X_1, X_2, … )，其均值为 ( \mu )，则样本均值 ( \overline{X}_n \xrightarrow{\mathbb{P}} \mu )。
- 意义：
  - 为用样本估计总体提供了理论保证。
  - 解释了为什么民意调查在样本量足够大时是有效的。
  - 是蒙特卡洛方法的基础。
中心极限定理 Central Limit Theorem
- 要解决的问题：LLN告诉我们样本均值会收敛，但围绕均值的波动是什么样子的？
- 非正式表述：随着样本量 ( n ) 增大，会趋近于标准正态分布。
- 正式表述：对于独立同分布随机变量 ( X_1, X_2, … )，其均值为 ( \mu )，方差为 ( \sigma^2 )，则：
  [ \sqrt{n} \frac{\overline{X}_n - \mu}{\sigma} \xrightarrow{d} \mathcal{N}(0, 1) ]
- 核心洞察：
  - LLN是目的地（收敛到μ）。
  - CLT是路径（以 ( 1/\sqrt{n} ) 的速度，呈高斯形状收敛）。
- 意义：
  - 证明了在样本量较大时，( \overline{X}_n \sim \mathcal{N}(\mu, \sigma^2/n) ) 这一近似是合理的。
  - 是构建置信区间和进行假设检验（如t检验）的理论基础。
证明推导

一、大数定律

1. 弱大数定律

定理（辛钦弱大数定律）：
设 (X_1, X_2, \dots) 独立同分布，(\mathbb{E}[X_1] = \mu) 存在，则
[
\bar{X}n = \frac{1}{n} \sum{i=1}^n X_i \xrightarrow{P} \mu \quad (n \to \infty)
]

证明（用切比雪夫不等式，假设方差 (\sigma^2) 存在）：
1. (\mathbb{E}[\bar{X}_n] = \mu)，(\mathrm{Var}(\bar{X}_n) = \frac{\sigma^2}{n})。
2. 由切比雪夫不等式：
  [
  P\left( |\bar{X}_n - \mu| \ge \varepsilon \right) \le \frac{\mathrm{Var}(\bar{X}_n)}{\varepsilon^2} = \frac{\sigma^2}{n \varepsilon^2}
  ]
3. 当 (n \to \infty)，右边 (\to 0)，所以
  [
  \lim_{n\to\infty} P(|\bar{X}_n - \mu| \ge \varepsilon) = 0
  ]
  即 (\bar{X}_n \xrightarrow{P} \mu)。
2. 强大数定律

定理（科尔莫戈罗夫强大数定律）：
设 (X_1, X_2, \dots) 独立同分布，(\mathbb{E}[X_1] = \mu) 存在，则
[
\bar{X}n \xrightarrow{\text{a.s.}} \mu
]
即
[
P\left( \lim{n\to\infty} \bar{X}_n = \mu \right) = 1
]

证明思路（较复杂，简述）：
1. 可先假设四阶矩存在，用博雷尔-坎特利引理。
2. 一般情形用截断法：定义 $Y_k = X_k I_{|X_k| \le k}$，证明 (\sum \frac{\mathrm{Var}(Y_k)}{k^2} < \infty)，然后用科尔莫戈罗夫强大数定律得 (\frac{1}{n} \sum (Y_k - \mathbb{E} Y_k) \to 0) a.s.。
3. 再证明截断部分 (\frac{1}{n} \sum (X_k - Y_k) \to 0) a.s.。
4. 最终得到 (\frac{1}{n} \sum X_k \to \mu) a.s.。
二、中心极限定理

定理（林德伯格-莱维中心极限定理）

设 (X_1, X_2, \dots) 独立同分布，(\mathbb{E}[X_1] = \mu)，(\mathrm{Var}(X_1) = \sigma^2 < \infty)，则
[
\frac{\bar{X}n - \mu}{\sigma / \sqrt{n}} \xrightarrow{d} N(0,1)
]
即
[
\lim{n\to\infty} P\left( \frac{\bar{X}_n - \mu}{\sigma / \sqrt{n}} \le z \right) = \Phi(z)
]

证明（用特征函数法）
1. 令 (Y_i = \frac{X_i - \mu}{\sigma})，则 (\mathbb{E}[Y_i] = 0)，(\mathrm{Var}(Y_i) = 1)。
2. 考虑
  [
  Z_n = \frac{\bar{X}n - \mu}{\sigma / \sqrt{n}} = \frac{1}{\sqrt{n}} \sum{i=1}^n Y_i
  ]
3. 记 (\phi(t) = \mathbb{E}[e^{itY_1}]) 是 (Y_1) 的特征函数。
  由泰勒展开：
  [
  \phi(t) = 1 + it\mathbb{E}[Y_1] - \frac{t^2}{2} \mathbb{E}[Y_1^2] + o(t^2) = 1 - \frac{t^2}{2} + o(t^2)
  ]
4. (Z_n) 的特征函数为：
  [
  \phi_{Z_n}(t) = \left[ \phi\left( \frac{t}{\sqrt{n}} \right) \right]^n
  ]
5. 代入展开式：
  [
  \phi\left( \frac{t}{\sqrt{n}} \right) = 1 - \frac{t^2}{2n} + o\left( \frac{1}{n} \right)
  ]
6. 于是
  [
  \phi_{Z_n}(t) = \left[ 1 - \frac{t^2}{2n} + o\left( \frac{1}{n} \right) \right]^n \to e^{-t^2/2} \quad (n \to \infty)
  ]
7. (e^{-t^2/2}) 是标准正态分布的特征函数，由Lévy连续性定理，得到
  [
  Z_n \xrightarrow{d} N(0,1)
  ]

1. Law of Large Numbers (LLN)

a) Weak Law of Large Numbers (WLLN)

Theorem (Khinchin’s WLLN):
Let (X_1, X_2, \dots) be independent and identically distributed (i.i.d.) random variables with (\mathbb{E}[X_1] = \mu). Then, the sample mean converges in probability to the population mean:
[
\bar{X}n = \frac{1}{n} \sum{i=1}^n X_i \xrightarrow{P} \mu \quad \text{as } n \to \infty
]

Proof (using Chebyshev’s inequality, assuming (\mathrm{Var}(X_1) = \sigma^2 < \infty)):

The expectation of the sample mean is (\mathbb{E}[\bar{X}_n] = \mu).
The variance is (\mathrm{Var}(\bar{X}_n) = \frac{\sigma^2}{n}).
Applying Chebyshev’s inequality:
[
P\left( |\bar{X}_n - \mu| \ge \varepsilon \right) \le \frac{\mathrm{Var}(\bar{X}_n)}{\varepsilon^2} = \frac{\sigma^2}{n \varepsilon^2}
]
For any fixed (\varepsilon > 0), the right-hand side tends to 0 as (n \to \infty):
[
\lim_{n\to\infty} P(|\bar{X}_n - \mu| \ge \varepsilon) = 0
]
This is the definition of convergence in probability: (\bar{X}_n \xrightarrow{P} \mu).

b) Strong Law of Large Numbers (SLLN)

Theorem (Kolmogorov’s SLLN):
Let (X_1, X_2, \dots) be i.i.d. random variables with (\mathbb{E}[X_1] = \mu). Then, the sample mean converges almost surely to the population mean:
[
\bar{X}n \xrightarrow{\text{a.s.}} \mu
]
This means:
[
P\left( \lim{n\to\infty} \bar{X}_n = \mu \right) = 1
]

Proof Sketch:

The full proof is technically involved, but the main steps are:

Truncation: Define truncated variables $Y_k = X_k I_{\{|X_k| \le k\}}$ to handle cases where moments might not exist.
Variance Summability: Show that the sum of the variances of the normalized truncated variables converges: (\sum_{k=1}^{\infty} \frac{\mathrm{Var}(Y_k)}{k^2} < \infty).
Apply Kolmogorov’s SLLN for independent non-identically distributed variables: This step uses the result from step 2 to conclude that (\frac{1}{n}\sum_{k=1}^n (Y_k - \mathbb{E}[Y_k]) \to 0) almost surely.
Handle the Truncated Part: Show that the difference between the original sum and the truncated sum is negligible, i.e., (\frac{1}{n}\sum_{k=1}^n (X_k - Y_k) \to 0) almost surely.
Final Convergence: Combine the results to conclude that (\frac{1}{n}\sum_{k=1}^n X_k \to \mu) almost surely.

2. Central Limit Theorem (CLT)

Theorem (Lindeberg-Lévy CLT)

Let (X_1, X_2, \dots) be i.i.d. random variables with (\mathbb{E}[X_1] = \mu) and (\mathrm{Var}(X_1) = \sigma^2 < \infty). Then, the standardized sample mean converges in distribution to the standard normal distribution:
[
\frac{\bar{X}n - \mu}{\sigma / \sqrt{n}} \xrightarrow{d} N(0,1)
]
Equivalently:
[
\lim{n\to\infty} P\left( \frac{\bar{X}_n - \mu}{\sigma / \sqrt{n}} \le z \right) = \Phi(z)
]
where (\Phi(z)) is the CDF of the standard normal distribution.

Proof (using Characteristic Functions)

Standardization: Let (Y_i = \frac{X_i - \mu}{\sigma}). Then (\mathbb{E}[Y_i] = 0) and (\mathrm{Var}(Y_i) = 1).
The quantity of interest is:
[
Z_n = \frac{\bar{X}n - \mu}{\sigma / \sqrt{n}} = \frac{1}{\sqrt{n}} \sum{i=1}^n Y_i
]
Characteristic Function: Let (\phi(t) = \mathbb{E}[e^{itY_1}]) be the characteristic function (CF) of (Y_1).
A Taylor expansion of (\phi(t)) around 0 gives:
[
\phi(t) = \mathbb{E}[1 + itY_1 + \frac{(it)^2}{2!}Y_1^2 + o(t^2)] = 1 + it\mathbb{E}[Y_1] - \frac{t^2}{2}\mathbb{E}[Y_1^2] + o(t^2)
]
Substituting the moments: (\mathbb{E}[Y_1]=0), (\mathbb{E}[Y_1^2]=1):
[
\phi(t) = 1 - \frac{t^2}{2} + o(t^2) \quad \text{as } t \to 0
]
CF of (Z_n): Since the (Y_i) are i.i.d., the CF of (Z_n) is:
[
\phi_{Z_n}(t) = \left[ \phi\left( \frac{t}{\sqrt{n}} \right) \right]^n
]
Limit of the CF: Substitute the Taylor expansion into the CF of (Z_n):
[
\phi_{Z_n}(t) = \left[ 1 - \frac{t^2}{2n} + o\left( \frac{1}{n} \right) \right]^n
]
Taking the limit as (n \to \infty):
[
\lim_{n\to\infty} \phi_{Z_n}(t) = e^{-t^2/2}
]
Lévy’s Continuity Theorem: The function (e^{-t^2/2}) is the characteristic function of the standard normal distribution (N(0,1)). By Lévy’s Continuity Theorem, since the CFs of (Z_n) converge to the CF of (N(0,1)), we have:
[
Z_n \xrightarrow{d} N(0,1)
]

02

似然函数、最大似然估计

最大似然估计解题步骤

第一步：写出似然函数

根据题目确定分布类型， $f(x|\theta)$ 是概率质量函数PMF或概率密度函数PDF
写出样本的联合概率（似然函数）：
[
L(\theta) = \prod_{i=1}^n f(x_i|\theta)
]

第二步：取对数似然函数

[
\ell(\theta) = \ln L(\theta) = \sum_{i=1}^n \ln f(x_i|\theta)
]
注意：如果分布有指示函数（如均匀分布），先处理定义域再取对数。

第三步：对参数求导并令导数为零

单参数：
[
\frac{\partial \ell(\theta)}{\partial \theta} = 0
]
多参数：对每个参数求偏导并令为0：
[
\frac{\partial \ell}{\partial \theta_1} = 0, \quad \frac{\partial \ell}{\partial \theta_2} = 0, \dots
]

第四步：解方程得到候选估计量

解第三步的方程，得到：
[
\hat{\theta} = g(X_1, \dots, X_n)
]

第五步：验证最大值条件

检查二阶导或海森矩阵：

单参数：$\frac{\partial^2 \ell}{\partial \theta^2} < 0$ ，二阶导小于0说明是最大值（函数开口向下）
多参数：海森矩阵负定

第六步：写出最终MLE

[
\hat{\theta}_{MLE} = \text{第三步得到的表达式}
]

问题：求某分布的MLE

似然函数：$L(\theta) = \prod_{i=1}^n f(x_i|\theta) = \cdots$
对数似然：$\ell(\theta) = \ln L(\theta) = \cdots$
求导：$\frac{d\ell}{d\theta} = \cdots = 0$
解得：$\hat{\theta} = \cdots$
验证：$\frac{d^2\ell}{d\theta^2} = \cdots < 0$
因此，$\hat{\theta}_{MLE} = \cdots$

不同分布的似然估计

好的，在每个分布后加上具体的计算例子。

离散分布

1. 伯努利分布 (Bernoulli)

模型: ( X_i \sim \text{Bernoulli}(p) )， ( P(X=x) = p^x (1-p)^{1-x} )
似然函数:
[
L(p) = \prod_{i=1}^n p^{x_i} (1-p)^{1-x_i} = p^{\sum x_i} (1-p)^{n - \sum x_i}
]
对数似然:
[
\ell(p) = (\sum x_i) \log p + (n - \sum x_i) \log(1-p)
]
求导:
[
\frac{d\ell}{dp} = \frac{\sum x_i}{p} - \frac{n - \sum x_i}{1-p} = 0
]
MLE:
[
\hat{p} = \frac{1}{n} \sum_{i=1}^n x_i = \bar{x}
]

例子: 抛硬币5次，观测到 {1,0,1,1,0}（1=正面），求 (\hat{p})。
[
\hat{p} = \frac{1+0+1+1+0}{5} = \frac{3}{5} = 0.6
]

2. 二项分布 (Binomial)

模型: ( X \sim \text{Binomial}(n, p) )， ( P(X=k) = \binom{n}{k} p^k (1-p)^{n-k} )
似然函数:
[
L(p) = \binom{n}{k} p^k (1-p)^{n-k}
]
对数似然:
[
\ell(p) = \log\binom{n}{k} + k \log p + (n-k) \log(1-p)
]
求导:
[
\frac{d\ell}{dp} = \frac{k}{p} - \frac{n-k}{1-p} = 0
]
MLE:
[
\hat{p} = \frac{k}{n}
]

例子: 给定一个来自二项分布 Binomial(5,p) 的样本 {3,4,2,5}，计算 (\hat{p}).

总成功次数 = (3+4+2+5 = 14)
总试验次数 = (4 \times 5 = 20)
[
\hat{p} = \frac{14}{20} = 0.7
]

3. 泊松分布 (Poisson)

模型: ( X_i \sim \text{Poisson}(\lambda) )， ( P(X=k) = \frac{e^{-\lambda} \lambda^k}{k!} )
似然函数:
[
L(\lambda) = \prod_{i=1}^n \frac{e^{-\lambda} \lambda^{x_i}}{x_i!} = \frac{e^{-n\lambda} \lambda^{\sum x_i}}{\prod x_i!}
]
对数似然:
[
\ell(\lambda) = -n\lambda + (\sum x_i) \log \lambda - \sum \log(x_i!)
]
求导:
[
\frac{d\ell}{d\lambda} = -n + \frac{\sum x_i}{\lambda} = 0
]
MLE:
[
\hat{\lambda} = \frac{1}{n} \sum_{i=1}^n x_i = \bar{x}
]

例子: 某商店每小时顾客数观测为 {2,0,3,1,4}，求 (\hat{\lambda})。
[
\hat{\lambda} = \frac{2+0+3+1+4}{5} = \frac{10}{5} = 2
]

连续分布

4. 均匀分布 (Uniform)

模型: ( X_i \sim U(a, b) )， ( f(x) = \frac{1}{b-a}, \quad a \le x \le b )
似然函数:
[
L(a, b) = \prod_{i=1}^n \frac{1}{b-a} \cdot I(a \le x_i \le b) = \frac{1}{(b-a)^n} \cdot I(a \le x_{(1)}) \cdot I(x_{(n)} \le b)
]
$I(a \le X_{(1)}) =
\begin{cases}
1, & \text{若 } a \le \min(X_i) \
0, & \text{否则}
\end{cases} $

$I(X_{(n)} \le b) =
\begin{cases}
1, & \text{若 } \max(X_i) \le b \
0, & \text{否则}
\end{cases}$
MLE:
[
\hat{a} = x_{(1)}, \quad \hat{b} = x_{(n)}
]

例子: 从 (U(a,b)) 观测到样本 {1.2, 3.5, 2.1, 4.8, 2.9}，求 MLE。
[
\hat{a} = \min{1.2, 3.5, 2.1, 4.8, 2.9} = 1.2, \quad \hat{b} = \max{1.2, 3.5, 2.1, 4.8, 2.9} = 4.8
]

5. 指数分布 (Exponential)

模型: ( X_i \sim \text{Exp}(\lambda) )， ( f(x) = \lambda e^{-\lambda x}, \quad x \ge 0 )
似然函数:
[
L(\lambda) = \prod_{i=1}^n \lambda e^{-\lambda x_i} = \lambda^n e^{-\lambda \sum x_i}
]
对数似然:
[
\ell(\lambda) = n \log \lambda - \lambda \sum x_i
]
求导:
[
\frac{d\ell}{d\lambda} = \frac{n}{\lambda} - \sum x_i = 0
]
MLE:
[
\hat{\lambda} = \frac{n}{\sum x_i} = \frac{1}{\bar{x}}
]

例子: 设备寿命（小时）观测为 {120, 85, 210, 150, 90}，求 (\hat{\lambda})。
[
\bar{x} = \frac{120+85+210+150+90}{5} = 131, \quad \hat{\lambda} = \frac{1}{131} \approx 0.00763
]

6. 正态分布 (Normal)

模型: ( X_i \sim N(\mu, \sigma^2) )
似然函数:
[
L(\mu, \sigma^2) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x_i-\mu)^2}{2\sigma^2}} = (2\pi\sigma^2)^{-n/2} e^{-\frac{\sum (x_i-\mu)^2}{2\sigma^2}}
]
对数似然:
[
\ell(\mu, \sigma^2) = -\frac{n}{2} \log(2\pi) - \frac{n}{2} \log(\sigma^2) - \frac{1}{2\sigma^2} \sum (x_i - \mu)^2
]
MLE:
[
\hat{\mu} = \bar{x}, \quad \hat{\sigma}^2 = \frac{1}{n} \sum (x_i - \bar{x})^2
]

例子: 测量长度得到 {10.1, 9.8, 10.2, 9.9, 10.1} cm，求 MLE。
[
\hat{\mu} = \frac{10.1+9.8+10.2+9.9+10.1}{5} = 10.02
]
[
\hat{\sigma}^2 = \frac{(0.08)^2 + (-0.22)^2 + (0.18)^2 + (-0.12)^2 + (0.08)^2}{5} = \frac{0.108}{5} = 0.0216
]

附录

偏度、峰度公式及推导

好的，我们来对这六个核心分布的偏度（Skewness）和峰度（Kurtosis）进行完整的推导。

首先，统一定义：

( \mu = \mathbb{E}[X] )
( \sigma^2 = \operatorname{Var}(X) )
( \mu_k = \mathbb{E}[(X-\mu)^k] ) 为k阶中心矩
偏度： ( \gamma_1 = \frac{\mu_3}{\sigma^3} )
峰度： ( \beta_2 = \frac{\mu_4}{\sigma^4} )
超额峰度： ( \gamma_2 = \beta_2 - 3 )

1. 伯努利分布 - Bernoulli(p)

PMF: ( P(X=1)=p ), ( P(X=0)=1-p )

已知：
( \mu = p ), ( \sigma^2 = p(1-p) )

推导：
我们计算中心矩。

三阶中心矩 ( \mu_3 ):
[
\begin{aligned}
\mu_3 &= \mathbb{E}[(X-p)^3] = (1-p)^3 \cdot p + (0-p)^3 \cdot (1-p) \
&= p(1-p)^3 + (-p)^3(1-p) \
&= p(1-p) \left[ (1-p)^2 - p^2 \right] \
&= p(1-p) \left[ 1 - 2p + p^2 - p^2 \right] \
&= p(1-p)(1-2p)
\end{aligned}
]
偏度:
[
\boxed{\gamma_1 = \frac{\mu_3}{\sigma^3} = \frac{p(1-p)(1-2p)}{[p(1-p)]^{3/2}} = \frac{1-2p}{\sqrt{p(1-p)}}}
]
四阶中心矩 ( \mu_4 ):
[
\begin{aligned}
\mu_4 &= \mathbb{E}[(X-p)^4] = (1-p)^4 \cdot p + (0-p)^4 \cdot (1-p) \
&= p(1-p)^4 + p^4(1-p) \
&= p(1-p) \left[ (1-p)^3 + p^3 \right] \
&= p(1-p) \left[ 1 - 3p + 3p^2 - p^3 + p^3 \right] \
&= p(1-p)(1 - 3p + 3p^2)
\end{aligned}
]
峰度:
[
\boxed{\beta_2 = \frac{\mu_4}{\sigma^4} = \frac{p(1-p)(1 - 3p + 3p^2)}{[p(1-p)]^2} = \frac{1 - 3p + 3p^2}{p(1-p)}}
]
超额峰度:
[
\boxed{\gamma_2 = \beta_2 - 3 = \frac{1 - 3p + 3p^2}{p(1-p)} - 3 = \frac{1 - 6p + 6p^2}{p(1-p)}}
]

2. 二项分布 - Binomial(n, p)

PMF: ( P(X=k) = \binom{n}{k} p^k (1-p)^{n-k} )

已知：
( \mu = np ), ( \sigma^2 = np(1-p) )

推导：
二项分布是n个独立同分布的Bernoulli(p)变量之和。利用可加性：
若 ( Y = \sum_{i=1}^n X_i )，且 ( X_i ) i.i.d.，则：

( \text{Skew}(Y) = \frac{\text{Skew}(X_i)}{\sqrt{n}} )
( \text{Kurt}(Y) = 3 + \frac{\text{Kurt}(X_i) - 3}{n} )

由Bernoulli分布结果：
( \gamma_1^{(X)} = \frac{1-2p}{\sqrt{p(1-p)}} ), ( \gamma_2^{(X)} = \frac{1 - 6p + 6p^2}{p(1-p)} )

偏度:
[
\boxed{\gamma_1 = \frac{\gamma_1^{(X)}}{\sqrt{n}} = \frac{1-2p}{\sqrt{np(1-p)}}}
]
超额峰度:
[
\gamma_2 = \frac{\gamma_2^{(X)}}{n} = \frac{1 - 6p + 6p^2}{n p(1-p)}
]
峰度:
[
\boxed{\beta_2 = 3 + \gamma_2 = 3 + \frac{1 - 6p + 6p^2}{n p(1-p)}}
]
[
\boxed{\gamma_2 = \frac{1 - 6p + 6p^2}{n p(1-p)}}
]

3. 泊松分布 - Poisson(λ)

PMF: ( P(X=k) = e^{-\lambda} \frac{\lambda^k}{k!} )

已知：
( \mu = \lambda ), ( \sigma^2 = \lambda )

推导：
使用阶乘矩 ( \mathbb{E}[X(X-1)\cdots(X-k+1)] = \lambda^k ) 来求原始矩。

( \mathbb{E}[X] = \lambda )
( \mathbb{E}[X(X-1)] = \lambda^2 \Rightarrow \mathbb{E}[X^2] = \lambda^2 + \lambda )
( \mathbb{E}[X(X-1)(X-2)] = \lambda^3 \Rightarrow \mathbb{E}[X^3] = \lambda^3 + 3\lambda^2 + \lambda )
( \mathbb{E}[X(X-1)(X-2)(X-3)] = \lambda^4 \Rightarrow \mathbb{E}[X^4] = \lambda^4 + 6\lambda^3 + 7\lambda^2 + \lambda )

现在计算中心矩：

( \mu_3 = \mathbb{E}[(X-\lambda)^3] = \mathbb{E}[X^3] - 3\lambda\mathbb{E}[X^2] + 3\lambda^2\mathbb{E}[X] - \lambda^3 )
代入：
[
\begin{aligned}
\mu_3 &= (\lambda^3 + 3\lambda^2 + \lambda) - 3\lambda(\lambda^2 + \lambda) + 3\lambda^2(\lambda) - \lambda^3 \
&= \lambda^3 + 3\lambda^2 + \lambda - 3\lambda^3 - 3\lambda^2 + 3\lambda^3 - \lambda^3 \
&= \lambda
\end{aligned}
]
偏度:
[
\boxed{\gamma_1 = \frac{\mu_3}{\sigma^3} = \frac{\lambda}{\lambda^{3/2}} = \frac{1}{\sqrt{\lambda}}}
]
( \mu_4 = \mathbb{E}[(X-\lambda)^4] = \mathbb{E}[X^4] - 4\lambda\mathbb{E}[X^3] + 6\lambda^2\mathbb{E}[X^2] - 4\lambda^3\mathbb{E}[X] + \lambda^4 )
代入：
[
\begin{aligned}
\mathbb{E}[X^4] &= \lambda^4 + 6\lambda^3 + 7\lambda^2 + \lambda \
\mathbb{E}[X^3] &= \lambda^3 + 3\lambda^2 + \lambda \
\mathbb{E}[X^2] &= \lambda^2 + \lambda \
\mathbb{E}[X] &= \lambda
\end{aligned}
]
[
\begin{aligned}
\mu_4 &= (\lambda^4 + 6\lambda^3 + 7\lambda^2 + \lambda) - 4\lambda(\lambda^3 + 3\lambda^2 + \lambda) \
&\quad + 6\lambda^2(\lambda^2 + \lambda) - 4\lambda^3(\lambda) + \lambda^4 \
&= \lambda^4 + 6\lambda^3 + 7\lambda^2 + \lambda - 4\lambda^4 - 12\lambda^3 - 4\lambda^2 \
&\quad + 6\lambda^4 + 6\lambda^3 - 4\lambda^4 + \lambda^4 \
&= (1-4+6-4+1)\lambda^4 + (6-12+6)\lambda^3 + (7-4)\lambda^2 + \lambda \
&= 0\cdot\lambda^4 + 0\cdot\lambda^3 + 3\lambda^2 + \lambda \
&= 3\lambda^2 + \lambda
\end{aligned}
]
峰度:
[
\boxed{\beta_2 = \frac{\mu_4}{\sigma^4} = \frac{3\lambda^2 + \lambda}{\lambda^2} = 3 + \frac{1}{\lambda}}
]
超额峰度:
[
\boxed{\gamma_2 = \beta_2 - 3 = \frac{1}{\lambda}}
]

4. 均匀分布 - Uniform(a, b)

PDF: ( f(x) = \frac{1}{b-a} ), ( x \in [a, b] )

已知：
( \mu = \frac{a+b}{2} ), ( \sigma^2 = \frac{(b-a)^2}{12} )

推导：
为简化，考虑标准均匀分布 ( U \sim U(0,1) )，再推广（因偏度/峰度是标准化矩，与线性变换无关）。

设 ( U \sim U(0,1) )，则 ( \mu = \frac{1}{2} ), ( \sigma^2 = \frac{1}{12} )。

三阶中心矩 ( \mu_3 ):
[
\mu_3 = \int_0^1 \left(u-\frac{1}{2}\right)^3 du = \left[ \frac{(u-1/2)^4}{4} \right]_0^1 = \frac{(1/2)^4 - (-1/2)^4}{4} = 0
]
偏度:
[
\boxed{\gamma_1 = \frac{\mu_3}{\sigma^3} = 0}
]
四阶中心矩 ( \mu_4 ):
[
\mu_4 = \int_0^1 \left(u-\frac{1}{2}\right)^4 du = \left[ \frac{(u-1/2)^5}{5} \right]_0^1 = \frac{(1/2)^5 - (-1/2)^5}{5} = \frac{1/32 + 1/32}{5} = \frac{1}{80}
]
峰度:
[
\beta_2 = \frac{\mu_4}{\sigma^4} = \frac{1/80}{(1/12)^2} = \frac{1/80}{1/144} = \frac{144}{80} = \frac{9}{5}
]
[
\boxed{\beta_2 = \frac{9}{5}}
]
超额峰度:
[
\boxed{\gamma_2 = \frac{9}{5} - 3 = -\frac{6}{5}}
]

5. 指数分布 - Exponential(λ)

PDF: ( f(x) = \lambda e^{-\lambda x} ), ( x \geq 0 )

已知：
( \mu = \frac{1}{\lambda} ), ( \sigma^2 = \frac{1}{\lambda^2} )

推导：
利用矩母函数 ( M_X(t) = \frac{\lambda}{\lambda - t} = (1 - t/\lambda)^{-1} ) for ( t < \lambda )。

原始矩 ( \mathbb{E}[X^n] = M_X^{(n)}(0) )。更方便：( M_X(t) = (1 - t/\lambda)^{-1} )

计算对数矩母函数：( K_X(t) = \ln M_X(t) = -\ln(1 - t/\lambda) )

累积量 ( \kappa_n = K_X^{(n)}(0) ):

( K’_X(t) = \frac{1/\lambda}{1 - t/\lambda} \Rightarrow \kappa_1 = \mu = 1/\lambda )
( K’’_X(t) = \frac{1/\lambda^2}{(1 - t/\lambda)^2} \Rightarrow \kappa_2 = \sigma^2 = 1/\lambda^2 )
( K^{(3)}_X(t) = \frac{2/\lambda^3}{(1 - t/\lambda)^3} \Rightarrow \kappa_3 = 2/\lambda^3 )
( K^{(4)}_X(t) = \frac{6/\lambda^4}{(1 - t/\lambda)^4} \Rightarrow \kappa_4 = 6/\lambda^4 )

对于任何分布：

( \gamma_1 = \frac{\kappa_3}{\kappa_2^{3/2}} )
( \gamma_2 = \frac{\kappa_4}{\kappa_2^2} )
偏度:
[
\boxed{\gamma_1 = \frac{2/\lambda^3}{(1/\lambda^2)^{3/2}} = \frac{2/\lambda^3}{1/\lambda^3} = 2}
]
超额峰度:
[
\boxed{\gamma_2 = \frac{6/\lambda^4}{(1/\lambda^2)^2} = \frac{6/\lambda^4}{1/\lambda^4} = 6}
]
峰度:
[
\boxed{\beta_2 = \gamma_2 + 3 = 9}
]

6. 正态分布 - Normal(μ, σ²)

PDF: ( f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} )

已知：
( \mu ), ( \sigma^2 )

推导：
考虑标准正态 ( Z \sim N(0,1) )，其奇数次中心矩为0（对称性）。

( \mu_3 = \mathbb{E}[Z^3] = 0 )
偏度:
[
\boxed{\gamma_1 = 0}
]

计算 ( \mu_4 = \mathbb{E}[Z^4] ):
[
\begin{aligned}
\mathbb{E}[Z^4] &= \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} z^4 e^{-z^2/2} dz \
&\text{令 } u = z^3, dv = z e^{-z^2/2} dz \Rightarrow du = 3z^2 dz, v = -e^{-z^2/2} \
&= \frac{1}{\sqrt{2\pi}} \left( \left[ -z^3 e^{-z^2/2} \right]{-\infty}^{\infty} + \int{-\infty}^{\infty} 3z^2 e^{-z^2/2} dz \right) \
&= 0 + 3 \mathbb{E}[Z^2] = 3 \times 1 = 3
\end{aligned}
]

峰度:
[
\boxed{\beta_2 = \frac{\mathbb{E}[Z^4]}{1^2} = 3}
]
超额峰度:
[
\boxed{\gamma_2 = 3 - 3 = 0}
]

总结表

分布	偏度 ( \gamma_1 )	峰度 ( \beta_2 )	超额峰度 ( \gamma_2 )
Bernoulli(p)	( \dfrac{1-2p}{\sqrt{p(1-p)}} )	( \dfrac{1 - 3p + 3p^2}{p(1-p)} )	( \dfrac{1 - 6p + 6p^2}{p(1-p)} )
Binomial(n,p)	( \dfrac{1-2p}{\sqrt{np(1-p)}} )	( 3 + \dfrac{1 - 6p(1-p)}{np(1-p)} )	( \dfrac{1 - 6p(1-p)}{np(1-p)} )
Poisson(λ)	( \dfrac{1}{\sqrt{\lambda}} )	( 3 + \dfrac{1}{\lambda} )	( \dfrac{1}{\lambda} )
Uniform(a,b)	( 0 )	( \dfrac{9}{5} )	( -\dfrac{6}{5} )
Exponential(λ)	( 2 )	( 9 )	( 6 )
Normal(μ,σ²)	( 0 )	( 3 )	( 0 )

积分表

常用积分公式表

1. 基本积分公式

[
\begin{aligned}
&\int k , dx = kx + C \
&\int x^n , dx = \frac{x^{n+1}}{n+1} + C \quad (n \ne -1) \
&\int \frac{1}{x} , dx = \ln|x| + C \
&\int e^x , dx = e^x + C \
&\int a^x , dx = \frac{a^x}{\ln a} + C \quad (a>0, a \ne 1)
\end{aligned}
]

2. 三角函数积分

[
\begin{aligned}
&\int \sin x , dx = -\cos x + C \
&\int \cos x , dx = \sin x + C \
&\int \tan x , dx = -\ln|\cos x| + C \
&\int \cot x , dx = \ln|\sin x| + C \
&\int \sec^2 x , dx = \tan x + C \
&\int \csc^2 x , dx = -\cot x + C \
&\int \sec x \tan x , dx = \sec x + C \
&\int \csc x \cot x , dx = -\csc x + C
\end{aligned}
]

3. 反三角函数积分

[
\begin{aligned}
&\int \frac{1}{\sqrt{1-x^2}} , dx = \arcsin x + C \
&\int -\frac{1}{\sqrt{1-x^2}} , dx = \arccos x + C \
&\int \frac{1}{1+x^2} , dx = \arctan x + C
\end{aligned}
]

4. 常用积分技巧公式

分部积分法：
[
\int u , dv = uv - \int v , du
]

换元积分法：
[
\int f(g(x))g’(x) , dx = \int f(u) , du \quad (u = g(x))
]

常见换元结果：
[
\begin{aligned}
&\int \frac{1}{\sqrt{a^2 - x^2}} , dx = \arcsin\frac{x}{a} + C \
&\int \frac{1}{a^2 + x^2} , dx = \frac{1}{a} \arctan\frac{x}{a} + C \
&\int \frac{1}{x^2 - a^2} , dx = \frac{1}{2a} \ln\left|\frac{x-a}{x+a}\right| + C
\end{aligned}
]

5. 三角代换公式

被积函数含	代换	恒等式
(\sqrt{a^2 - x^2})	(x = a\sin\theta)	(1-\sin^2\theta = \cos^2\theta)
(\sqrt{a^2 + x^2})	(x = a\tan\theta)	(1+\tan^2\theta = \sec^2\theta)
(\sqrt{x^2 - a^2})	(x = a\sec\theta)	(\sec^2\theta - 1 = \tan^2\theta)

6. 有理函数积分（部分分式）

$$
&\int \frac{1}{ax+b} , dx = \frac{1}{a} \ln|ax+b| + C \
&\int \frac{1}{(ax+b)^2} , dx = -\frac{1}{a(ax+b)} + C \
&\int \frac{x}{ax+b} , dx = \frac{x}{a} - \frac{b}{a^2} \ln|ax+b| + C
$$

Applied Stastic test notes

第二部分：概率论的基础 - 集合上的概率

第三部分：贝叶斯定理 - 用证据更新信念

第四部分：独立性

事件独立性性质：补集也独立

独立性与条件概率的等价性证明

01

第一部分：建模动机 - 我们为什么需要概率模型？**

第二部分：基础与随机变量

1. 伯努利分布 - Bernoulli(p)

2. 二项分布 - Binomial(n, p)

3. 泊松分布 - Poisson(λ)

4. 均匀分布 - Uniform(a, b)

5. 指数分布 - Exponential(λ)

6. 正态分布 - Normal(μ, σ²)

第三部分：统计量与收敛

分位数计算：线性插值法（R语言默认，Type 7）

计算公式

计算示例

特例说明

第四部分：极限定理 - 统计学的理论支柱

1. Law of Large Numbers (LLN)

a) Weak Law of Large Numbers (WLLN)

b) Strong Law of Large Numbers (SLLN)

2. Central Limit Theorem (CLT)

Theorem (Lindeberg-Lévy CLT)

Proof (using Characteristic Functions)

02

最大似然估计解题步骤

第一步：写出似然函数

第二步：取对数似然函数

第三步：对参数求导并令导数为零

第四步：解方程得到候选估计量

第五步：验证最大值条件

第六步：写出最终MLE

不同分布的似然估计

离散分布

1. 伯努利分布 (Bernoulli)

2. 二项分布 (Binomial)

3. 泊松分布 (Poisson)

连续分布

4. 均匀分布 (Uniform)

5. 指数分布 (Exponential)

6. 正态分布 (Normal)

附录

偏度、峰度公式及推导

1. 伯努利分布 - Bernoulli(p)

2. 二项分布 - Binomial(n, p)

3. 泊松分布 - Poisson(λ)

4. 均匀分布 - Uniform(a, b)

5. 指数分布 - Exponential(λ)

6. 正态分布 - Normal(μ, σ²)

总结表

积分表

常用积分公式表

1. 基本积分公式

2. 三角函数积分

3. 反三角函数积分

4. 常用积分技巧公式

5. 三角代换公式

6. 有理函数积分（部分分式）