Batch Normalization

Posted on 2024-03-09 Edited on 2025-10-28 In Computer Science Views: 71

Sources:

Adjrej Karpathy's video Building makemore Part 4: Becoming a Backprop Ninja.
Paper: Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift
PyTorch: BatchNorm1d

Batch Normalization

Given samples ${x_{i}}$ over a mini-batch: $B = {x_{1 \dots N}}$ , the batch normalization is $y_{i} = f (x_{i}, B)_{γ, β} = γ {\hat{x}}_{i} + β = γ \frac{x_{i} - μ}{\sqrt{σ^{2} + ϵ}} + β .$ where:

$y_{i}$ is the output of the batch normalization layer.
${\hat{x}}_{i}$ is the normalized input $x_{i}$
$ϵ$ is a small constant added for avoiding division by 0 error.
$γ$ and $β$ are parameters learned during training for each feature, representing the scale and shift to be applied after normalization, respectively.

The detailed process is

\begin{aligned} μ_{B} \leftarrow \frac{1}{m} \sum_{i = 1}^{m} x_{i} // mini-batch mean \\ σ_{B}^{2} \leftarrow \frac{1}{m - 1} \sum_{i = 1}^{m} {(x_{i} - μ_{B})}^{2} // mini-batch variance \\ {\hat{x}}_{i} \leftarrow \frac{x_{i} - μ_{B}}{\sqrt{σ_{B}^{2} + ϵ}} // normalize \\ y_{i} \leftarrow γ {\hat{x}}_{i} + β \equiv {BN}_{γ, β} (x_{i}) // scale and shift \end{aligned}

Derivation of batch norm

We have: $\frac{\partial L}{\partial x_{i}} = \sum_{j = 1}^{N} \frac{\partial L}{\partial y_{j}} \frac{\partial y_{j}}{\partial x_{i}} .$ $\frac{\partial L}{\partial y_{j}}$ is the upstream gradient, so it's already given here.

Since $y_{j} = γ {\hat{x}}_{j} + β$ . $y_{j}$ is a function of ${\hat{x}}_{j}$ . We have $\frac{\partial y_{j}}{\partial x_{i}} = \frac{\partial y_{j}}{\partial {\hat{x}}_{j}} \frac{\partial {\hat{x}}_{j}}{\partial x_{i}},$ and $\frac{\partial y_{j}}{\partial {\hat{x}}_{j}} = γ .$ So $\frac{\partial y_{j}}{\partial x_{i}} = γ \frac{\partial {\hat{x}}_{j}}{\partial x_{i}} .$ This means we only need to calculate $\frac{\partial {\hat{x}}_{j}}{\partial x_{i}}$ .

Recall that ${\hat{x}}_{i} = \frac{x_{i} - μ}{\sqrt{σ^{2} + ϵ}}$ , we obtain: $\begin{aligned} \frac{\partial {\hat{x}}_{j}}{\partial x_{i}} & = \frac{\partial}{\partial x_{i}} (\frac{x_{j} - μ}{\sqrt{σ^{2} + ε}}) \\ = (δ_{i j} - \frac{\partial μ}{\partial x_{i}}) {(σ^{2} + ε)}^{- \frac{1}{2}} + (x_{j} - μ) (- \frac{1}{2}) {(σ^{2} + ε)}^{- \frac{3}{2}} \frac{\partial σ^{2}}{\partial x_{i}} . \end{aligned}$ where $δ_{i j}$ is the Kronecker delta function: $δ_{i j} = {\begin{cases} 0 & if i \neq j \\ 1 & if i = j . \end{cases}$

Therefore, we compute the derivation $\frac{\partial μ}{\partial x_{i}}$ , $\frac{\partial σ^{2}}{\partial x_{i}}$ .

For the former: $$

\begin{aligned} \frac{\partial μ}{\partial x_{i}} & = \frac{\partial}{\partial x_{i}} (\frac{1}{N} (x_{1} + x_{2} + \dots + x_{i} + \dots + x_{N})) \\ = \frac{1}{N} (0 + \dots + 1 + \dots + 0) = \frac{1}{N} \end{aligned}

For the latter: $$

\begin{aligned} \frac{\partial σ^{2}}{\partial x_{i}} & = \frac{\partial}{\partial x_{i}} (\frac{1}{N - 1} \sum_{k = 1}^{N} {(x_{k} - μ)}^{2}) \\ = \frac{1}{N - 1} \cdot \frac{\partial}{\partial x_{i}} ({(x_{1} - μ)}^{2} + \dots + {(x_{i} - μ)}^{2} + \dots) \\ = \frac{1}{N - 1} [2 (x_{1} - μ) \frac{\partial (- μ)}{\partial x_{i}} + 2 (x_{2} - μ) \frac{\partial (- μ)}{\partial x_{i}} + \dots + 2 (x_{i} - μ) \frac{\partial (x_{i} - μ)}{\partial x_{i}} + \dots] \\ = \frac{1}{N - 1} [2 (x_{1} - μ) \cdot \frac{- 1}{N} + 2 (x_{2} - μ) \cdot \frac{- 1}{N} + \dots + 2 (x_{i} - μ) \cdot (1 - \frac{1}{N}) + \dots] \\ = \frac{1}{N - 1} \cdot 2 [\underset{0}{\underset{⏟}{\sum_{k = 1}^{N} (x_{k} - μ}}) \cdot (\frac{- 1}{N}) + x_{i} - μ] \\ = \frac{1}{N - 1} \cdot 2 \cdot (x_{i} - μ) \\ = \frac{2}{N - 1} \cdot (x_{i} - μ) \end{aligned}

The transition from 3rd line to 4th line is because $\frac{\partial μ}{\partial x_{i}} = \frac{1}{N}$ .

So we have: $$

\begin{aligned} \frac{\partial {\hat{x}}_{j}}{\partial x_{i}} & = (δ_{i j} - \frac{1}{N}) {(σ^{2} + ε)}^{- \frac{1}{2}} + (x_{j} - μ) (- \frac{1}{2}) {(σ^{2} + ε)}^{- \frac{3}{2}} \frac{2}{N - 1} (x_{i} - μ) \\ = (δ_{i j} - \frac{1}{N}) {(σ^{2} + ε)}^{- \frac{1}{2}} - \frac{1}{N - 1} {(σ^{2} + ε)}^{- \frac{1}{2}} \cdot \frac{x_{i} - μ}{\sqrt{σ^{2} + ε}} \cdot \frac{x_{j} - μ}{\sqrt{σ^{2} + ε}} \\ = {(σ^{2} + ε)}^{- \frac{1}{2}} [δ_{i j} - \frac{1}{N} - \frac{1}{N - 1} ({\hat{x}}_{i} \cdot {\hat{x}}_{j})] \\ = \frac{{(σ^{2} + ε)}^{- \frac{1}{2}}}{N} [N \cdot δ_{i j} - 1 - \frac{N}{N - 1} ({\hat{x}}_{i} {\hat{x}}_{j})] . \end{aligned}

As a result: $\begin{aligned} \frac{\partial L}{\partial x_{i}} & = \sum_{j = 1}^{N} \frac{\partial L}{\partial y_{j}} \frac{\partial y_{j}}{\partial x_{i}} = \sum_{j = 1}^{N} \frac{\partial L}{\partial y_{j}} \frac{\partial y_{j}}{\partial {\hat{x}}_{j}} \frac{\partial {\hat{x}}_{j}}{\partial x_{i}} \\ = \sum_{j = 1}^{N} \frac{\partial L}{\partial y_{j}} \cdot γ \cdot \frac{{(σ^{2} + ε)}^{- \frac{1}{2}}}{N} [N \cdot δ_{i j} - 1 - \frac{N}{N - 1} ({\hat{x}}_{i} \cdot {\hat{x}}_{j})] \\ = \frac{γ {(σ^{2} + ε)}^{- \frac{1}{2}}}{N} \sum_{j = 1}^{N} \frac{\partial L}{\partial y_{j}} [N \cdot δ_{i j} - 1 - \frac{N}{N - 1} ({\hat{x}}_{i} \cdot {\hat{x}}_{j})] \\ = \frac{γ {(σ^{2} + ε)}^{- \frac{1}{2}}}{N} [(N \sum_{j = 1}^{N} \frac{\partial L}{\partial y_{j}} δ_{i j}) - (\sum_{j = 1}^{N} \frac{\partial L}{\partial y_{j}}) - (\frac{N}{N - 1} x_{i} \sum_{j = 1}^{N} \frac{\partial L}{\partial y_{j}} {\hat{x}}_{j})] \\ = \frac{γ {(σ^{2} + ε)}^{- \frac{1}{2}}}{N} (N \frac{\partial L}{\partial y_{i}} - \sum_{j = 1}^{N} \frac{\partial L}{\partial y_{j}} - \frac{N}{N - 1} {\hat{x}}_{i} \sum_{j = 1}^{N} \frac{\partial L}{\partial y_{j}} {\hat{x}}_{j}) . \end{aligned}$