大数の法則の証明と意味【確率論】

「大数の強法則」および「大数の弱法則」を説明し，大数の弱法則を証明します．そのためにチェビチェフの不等式も証明します．また，大数の法則と中心極限定理の関係を述べます．

【スマホでの数式表示について】

当サイトをスマートフォンなど画面幅が狭いデバイスで閲覧すると，数式が画面幅に収まりきらず，正確に表示されない場合があります．その際は画面を回転させ横長表示にするか，ブラウザの表示設定を「PCサイト」にした上でご利用ください．

大数の法則とは何か（概要）

大数の強法則と大数の弱法則

大数の法則(The law of large numbers)と呼ばれるものは2種類ある．ひとつは大数の強法則(The strong law of large numbers)であり，もうひとつは大数の弱法則(The weak law of large numbers)である．

期待値 $\mu$ のiid確率変数 $X_1,...,Xn$ について，その相加平均を $\overline{X}_n$ とする．大数の強法則および大数の弱法則は，どちらも

$\begin{equation*} \overline{X}_n \to \mu \qquad \text{when} \qquad n\to \infty \end{equation*}$

を主張する命題である．

強法則と弱法則との違いは，「それぞれの命題の前件（iid確率変数に付与される前提条件）の違い」および「 $\overline{X}_n \to \mu$ はどのように収束するのかという〈収束の種類〉の違い」にある．

大数の法則の意味：統計学的解釈

大数の法則は確率論の命題だが，これを統計学（推計統計）の文脈に置けば，次のように解釈できる：すなわち， $n$ 個のiid確率変数を $n$ 個の標本とみなし，それらの期待値を母平均（標本を取り出した母集団の平均）とする．取り出す標本の個数 $n$ を大きくしていけば，標本平均 $\overline{X}_n$ は母平均に近づいてゆく（すなわち，標本平均の母平均 $\mu$ への収束： $\overline{X}_n \to \mu$ ）．

巷間，「サンプル数を増やせば増やすほど，平均値は〈正しい値〉に近づく」というような言い方がなされるが，これを確率論において精確に述べたものが大数の法則である．

大数の法則，中心極限定理，正規分布の関係

大数の法則と混同されがちな命題として，中心極限定理(central limit theorem) がある．中心極限定理は大雑把に言って「 $\overline{X}_n$ の分布は $n\to \infty$ の下で正規分布に近づく」というものである．中心極限定理は正規分布に関わるが，大数の法則は正規分布と特別な関わりはない．

また，大数の法則と中心極限定理の両者とも，それらの定理の前提として，元のiid確率変数が（正規分布を含め）特定の分布関数に従うことは要求していない．

他方，大数の法則と中心極限定理は，確率変数の収束の種類の違いという観点で整理することもできる．iid確率変数の相加平均 $\overline{X}_n$ を標準化(standardize) した確率変数を $Z_n$ としよう．このとき，それぞれの定理の概略は，次のようなものといえる：

大数の強法則： $Z_n$ の概収束(almost sure convergence)に関する定理
大数の弱法則： $Z_n$ の確率収束(convergence in probability)に関する定理
中心極限定理： $Z_n$ の分布収束(convergence in )に関する定理

これらは，確率論における各種の収束を表す記号（ $a.s.$ ， $p$ ， $d$ ）を用いれば，

大数の強法則： $Z_n \overset{a.s.}{\longrightarrow} 0$ に関する定理
大数の弱法則： $Z_n \overset{p}{\longrightarrow} 0$ に関する定理
中心極限定理： $Z_n \overset{d}{\longrightarrow} Z \sim {\rm Norm}(0,1)$ に関する定理

のように書くこともできる．

大数の強法則

大数の強法則(The strong law of large numbers)

$X_1,...,X_n$

を，期待値 $\mu$

の互いに独立で同一の分布に従う確率変数（iid確率変数）であるとする．これらの相加平均

(1) $\begin{equation*} \overline{X}_n := \frac{1}{n} \sum_{i=1}^n X_i \end{equation*}$

に関して，

(2) $\begin{equation*} \Pr \left( \lim_{n \to \infty} \overline{X}_n = \mu \right) =1 \end{equation*}$

が成り立つ．

大数の強法則は，

　 $\overline{X}_n$ は，ほとんど確実に(almost surely) 期待値 $\mu$ に収束(convergence)する

あるいは

　 $\overline{X}_n$ は，期待値 $\mu$ に概収束(almost sure convergence)する

のように言い換えることができ，これは，概収束を表す記号（ $a.s.$ ）を用いて，

(3) $\begin{equation*} \overline{X}_n \overset{a.s.}{\longrightarrow} \mu \qquad \text{when} \qquad n\to \infty \end{equation*}$

と書くことができる．

大数の弱法則

大数の弱法則(The weak law of large numbers)

$X_1,...,X_n$

を，期待値 $\mu$

，分散 $\sigma^2\;(\sigma^2<\infty)$

の，互いに独立で同一の分布に従う確率変数（iid確率変数）であるとする．これらの相加平均

$\begin{equation*} \overline{X}_n := \frac{1}{n} \sum_{i=1}^n X_i \end{equation*}$

に関して，

(4) $\begin{equation*} \lim_{n \to \infty} \Pr \left( | \overline{X}_n - \mu |\ge \varepsilon \right) =0 \qquad \text{for all } \varepsilon > 0 \end{equation*}$

が成り立つ．

大数の弱法則は，

　 $\overline{X}_n$ は，期待値 $\mu$ に確率収束(convergence in probability)する

と言い換えることができ，これは，確率収束を表す記号（ $p$ ）を用いて，

(5) $\begin{equation*} \overline{X}_n \overset{p}{\longrightarrow} \mu \qquad \text{when} \qquad n\to \infty \end{equation*}$

と書くことができる．

大数の弱法則の証明

大数の弱法則を証明する．大数の弱法則は，iid確率変数の相加平均に対して，次節で詳細と証明を述べるチェビシェフの不等式(Chebyshev’s inequality) を用いることにより，導出される．

$X_1,...,X_n$ を，期待値 $\mu$ ，分散 $\sigma^2\;(\sigma^2<\infty)$ の，互いに独立で同一の分布に従う確率変数（iid確率変数）であるとする．これらの相加平均を

(6) $\begin{equation*} \overline{X}_n := \frac{1}{n} \sum_{i=1}^n X_i \end{equation*}$

とする． $\overline{X}_n$ の期待値および分散は，それぞれ次のように計算できる．

期待値 $E\left[\; \overline{X}_n \; \right]$ は，期待値の線形性に注意しながら，

(7) $\begin{eqnarray*} E\left[\; \overline{X}_n \; \right]&=&E\left[ \frac{1}{n} \sum_{i=1}^n X_i \right] \\ &=&\frac{1}{n} \; E\left[ \sum_{i=1}^n X_i \right] \\ &=&\frac{1}{n} \; \sum_{i=1}^n E\left[ X_i \right] \\ &=&\frac{1}{n} \; \sum_{i=1}^n \mu \\ &=&\frac{1}{n} n \mu \\ &=& \mu \end{eqnarray*}$

のように計算できる．

分散 $E\left[\; \overline{X}_n \; \right]$ は，期待値の線形性より，

(8) $\begin{eqnarray*} V\left[\; \overline{X}_n \; \right]&=&E\left[\; \left( \overline{X}_n -\mu \right)^2 \; \right]\\ &=&E\left[\; \left( \frac{1}{n} \sum_{i=1}^n X_i -\mu \right)^2 \; \right]\\ &=&E\left[\; \frac{1}{n^2} \left( \sum_{i=1}^n X_i - n \mu \right)^2 \; \right]\\ &=&\frac{1}{n^2} \; E\left[\; \left( \sum_{i=1}^n X_i - n \mu \right)^2 \; \right]\\ &=&\frac{1}{n^2} \; E\left[\; \left\{ \sum_{i=1}^n ( X_i - \mu ) \right\}^2 \; \right]\\ &=&\frac{1}{n^2} \; E\left[\; \left( \sum_{i=1}^n Y_i \right)^2 \; \right] \end{eqnarray*}$

である．ただし

(9) $\begin{equation*} Y_i := X_i - \mu \qquad(i=1,...,n) \end{equation*}$

とした． $\left( \sum_{i=1}^n Y_i \right)^2$ を展開して式(8)の計算を続けると，

(10) $\begin{eqnarray*} V\left[\; \overline{X}_n \; \right] &=&\frac{1}{n^2} \; E\left[\; \left( \sum_{i=1}^n Y_i \right)^2 \; \right]\\ &=&\frac{1}{n^2} \; E\left[\; \sum_{i=1}^n Y_i^2 + \sum_{i,i\not= j} \sum_{j=1}^n Y_i Y_j \; \right]\\ &=&\frac{1}{n^2} \; E\left[\; \sum_{i=1}^n Y_i^2 \; \right] + \frac{1}{n^2} \; E\left[\; \sum_{i,i\not= j} \sum_{j=1}^n Y_i Y_j \; \right]\\ &=&\frac{1}{n^2} \;\sum_{i=1}^n E\left[\; Y_i^2 \; \right] + \frac{1}{n^2} \; \sum_{i,i\not= j} \sum_{j=1}^n E\left[\; Y_i Y_j \; \right]\\ \end{eqnarray*}$

を得る．ここに，最後の右辺第2項に現れる $E\left[\; Y_i Y_j \; \right]$ は，

(11) $\begin{eqnarray*} E\left[\; Y_i Y_j \; \right] &=&E\left[\; \left( X_i -\mu \right) \left( X_j - \mu \right) \; \right] \\ &=& {\rm Cov}\left(\; X_i, \; X_j \; \right) \\ &=& 0 \end{eqnarray*}$

すなわち， $X_i$ と $X_j$ の共分散(covariance)であり，iid確率変数の仮定より， $X_i$ と $X_j$ は独立であるから，無相関（ ${\rm Cov} \left(\; X_i, \; X_j \; \right) = 0$ ）である．よって

(12) $\begin{eqnarray*} V\left[\; \overline{X}_n \; \right] &=&\frac{1}{n^2} \;\sum_{i=1}^n E\left[\; Y_i^2 \; \right] + \frac{1}{n^2} \; \sum_{i,i\not= j} \sum_{j=1}^n E\left[\; Y_i Y_j \; \right]\\ &=&\frac{1}{n^2} \;\sum_{i=1}^n E\left[\; Y_i^2 \; \right]\\ &=&\frac{1}{n^2} \;\sum_{i=1}^n E\left[\; ( X_i - \mu )^2 \; \right]\\ &=&\frac{1}{n^2} \;\sum_{i=1}^n V\left[\; X_i \; \right]\\ &=&\frac{1}{n^2} \;\sum_{i=1}^n \sigma^2 \\ &=&\frac{1}{n^2} \; n \sigma^2 \\ &=&\frac{\sigma^2}{n} \end{eqnarray*}$

となる．

相加平均 $\overline{X}_n$ についてのチェビチェフの不等式は

(13) $\begin{equation*} \Pr \left( \left| \overline{X}_n - E\left[\; \overline{X}_n \; \right] \right| \ge \varepsilon \right) \le \frac{V\left[\; \overline{X}_n \; \right]}{\varepsilon^2} \qquad \text{for all } \varepsilon > 0 \end{equation*}$

と書ける．ここに式(7)および式(12))の結果を代入して，

(14) $\begin{equation*} 0 \le \Pr \left( \left| \overline{X}_n - \mu \right| \ge \varepsilon \right) \le \frac{\sigma^2}{n \varepsilon^2} \end{equation*}$

を得る．ただし，左辺は確率が非負であることによる．

最後に，式(15)で $n\to \infty$ とすれば，

(15) $\begin{equation*} \lim_{n \to \infty} \frac{\sigma^2}{n \varepsilon^2} = 0 \end{equation*}$

なので，大数の弱法則

(16) $\begin{equation*} \lim_{n \to \infty} \Pr \left( \left| \overline{X}_n - \mu \right| \ge \varepsilon \right) = 0 \end{equation*}$

を得る．

さらに，確率測度の定義によって，一般に

(17) $\begin{equation*} \Pr \left( A \ge a ) + \Pr \left( A < a )= 1 \end{equation*}$

すなわち

(18) $\begin{equation*} \Pr \left( A < a )= 1 - \Pr \left( A \ge a ) \end{equation*}$

であるから， $A:=\left| \overline{X}_n - \mu \right|$ ， $a:=\varepsilon$ とすれば，

(19) $\begin{eqnarray*} \Pr \left( \left| \overline{X}_n - \mu \right| < \varepsilon \right) &=& 1 -\Pr \left( \left| \overline{X}_n - \mu \right| \ge \varepsilon \right) \\ \therefore \lim_{n \to \infty} \Pr \left( \left| \overline{X}_n - \mu \right| < \varepsilon \right) &=& 1 -\lim_{n \to \infty}\Pr \left( \left| \overline{X}_n - \mu \right| \ge \varepsilon \right) \end{eqnarray*}$

である．ここに式(16)を用いれば，

(20) $\begin{equation*} \lim_{n \to \infty} \Pr \left( \left| \overline{X}_n - \mu \right| < \varepsilon \right) = 1 \end{equation*}$

を得る．

[大数の弱法則　証明終わり]

チェビシェフの不等式 *

大数の弱法則を証明する際，次のチェビシェフの不等式(Chebyshev’s inequality)を用いる．

チェビシェフの不等式(Chebyshev's inequality)

$X$

を，期待値 $\mu\;(\mu<\infty)$

，分散 $\sigma^2\;(\sigma^2\not= 0,\; \sigma^2<\infty)$

の確率変数とする．このとき，次の不等式が成り立つ．

(21) $\begin{equation*} \Pr \left( | X - \mu |\ge \varepsilon \right) \le \frac{\sigma^2}{\varepsilon^2} \qquad \text{for all } \varepsilon > 0 \end{equation*}$

式(21)をチェビシェフの不等式という．

チェビシェフの不等式の証明

チェビシェフの不等式を証明する．

Step.1 確率変数から指示関数を誘導する

確率変数 $X$ の期待値および分散が，

(22) $\begin{eqnarray*} E[X]&=&\mu \qquad (\mu<\infty)\\ V[X]&=&\sigma^2 \qquad (\sigma^2\not= 0,\; \sigma^2<\infty) \end{eqnarray*}$

であるとする．この確率変数 $X$ に関する事象(events) ${\rm A}$ を

(23) $\begin{equation*} {\rm A} := \left\{ |X-\mu | \ge \varepsilon \right\} \qquad(\varepsilon > 0) \end{equation*}$

とする．これは，右辺の絶対値を外すと

(24) $\begin{eqnarray*} {\rm A} &=& \left\{ |X-\mu | \ge \varepsilon \right\}\\ &=& \left\{ X-\mu \le - \varepsilon, \quad \varepsilon \le X-\mu \right\}\\ &=& \left\{ X \le \mu - \varepsilon, \quad \mu + \varepsilon \le X \right\}\\ &=& \left\{ X \le \mu - \varepsilon \right\} \cup \left\{ \mu + \varepsilon \le X \right\}\\ &=& {\rm A}_1 \cup {\rm A}_2 \end{eqnarray*}$

のようになる（ただし ${\rm A}_1:=\left\{ X \le \mu - \varepsilon \right\}$ ， ${\rm A}_2 := \left\{ \mu + \varepsilon \le X \right\}$ ， $A_1 \cap A_2 = \emptyset$ ）．すなわち，事象 ${\rm A}$ とは，確率変数 $X$ の実現値 $x$ が $x \le \mu - \varepsilon$ または $\mu + \varepsilon \le x$ となるような場合の集合である．実現値 $x$ の数直線で表せば， $X$ が下図の橙色部分の値を取る場合の集合が事象 ${\rm A}$ である．

なお，事象 ${\rm A}$ の余事象を ${\rm A}^{\rm c}$ で表すことにすると，

(25) $\begin{eqnarray*} {\rm A^c} &=& \left\{ |X-\mu | < \varepsilon \right\}\\ &=& \left\{ - \varepsilon < X-\mu < \varepsilon \right\}\\ &=& \left\{ \mu- \varepsilon < X < \mu + \varepsilon \right\} \end{eqnarray*}$

である．

さらに，事象 ${\rm A}$ が起こる場合に 1 ， ${\rm A}$ が起こらない場合（すなわち {\rm A^c} が起こる場合）に 0 を取る確率変数を

(26) $\begin{equation*} 1_{\rm A} = \left\{ \begin{array}{ll} 0 & (X\in {\rm A^c},\; \text{ i.e. } {\rm A} \text{ occurs} ) \\ 1 & (X\in {\rm A}, \; \text{ i.e. } {\rm A} \text{ does not occur} ) \end{array} \right \end{equation*}$

と書くことにする．このように定義される $1_{\rm A}$ は， $X$ によって値が決まる指示関数(indicator function)であり， $1_{\rm A}$ もひとつの確率変数となる．式(23)に伴う $1_{\rm A}$ を，確率変数 $X$ を引数に取る関数として，引数を明示し

(27) $\begin{equation*} 1_{\rm A}=1_{(-\infty, \mu-\varepsilon] \cup [\mu+\varepsilon, \infty) }(X) \end{equation*}$

のように書いても良い．ここに，右辺の添字は $x$ の取り得る区間である．

式(23)に伴う $1_{\rm A}$ は，式(24)より，次式のように分解できる．

(28) $\begin{eqnarray*} 1_{\rm A} &=& 1_{{\rm A}_1} +1_{{\rm A}_2}\\ &=& 1_{(-\infty, \mu-\varepsilon] }(X) +1_{[\mu+\varepsilon, \infty) }(X) \end{eqnarray*}$

また，式(25)より，

(29) $\begin{equation*} 1_{\rm A^c} = 1_{(\mu-\varepsilon, \mu+\varepsilon)}(X) \end{equation*}$

である．これらより，

(30) $\begin{equation*} 1_{\rm A} + 1_{\rm A^c} = 1_{(-\infty, \infty)}(X) = 1 \end{equation*}$

である．

Step.2 指示関数を用いて偏差の評価式を導出する

一般に，確率変数 $X$ の分散 $V[X]$ は

(31) $\begin{equation*} V[X]:= E \left[(X-\mu)^2 \right] \end{equation*}$

と定義されるが，これを指示関数(26)，(29)を用いて変形する．

一般の確率変数 $Z_1$ ， $Z_2$ に対して，確率変数の和の期待値には $E[Z_1+Z_2]=E[Z_1]+E[Z_2]$ が成り立つことに注意すると，式(31)および式(30)より，

(32) $\begin{eqnarray*} &&V[X] \\ &=& E \left[(X-\mu)^2 \right]\\ &=& E \left[(X-\mu)^2\cdot 1 \right]\\ &=& E \left[(X-\mu)^2\cdot (1_{\rm A} + 1_{\rm A^c}) \right]\\ &=& E \left[(X-\mu)^2\cdot 1_{\rm A} \right] + E \left[(X-\mu)^2\cdot 1_{\rm A^c} \right] \end{eqnarray*}$

となる．

上式(32)の最後式第1項

(33) $\begin{equation*} E \left[(X-\mu)^2\cdot 1_{\rm A} \right] \end{equation*}$

および最後式第2項

(34) $\begin{equation*} E \left[(X-\mu)^2\cdot 1_{\rm A^c} \right] \end{equation*}$

の下限について考えよう．

まず，式(33)の下限を求める．式(23)より，事象 ${\rm A}$ が起こるとは

(35) $\begin{equation*} |X-\mu | \ge \varepsilon \qquad(\varepsilon > 0) \end{equation*}$

が成り立つことである．両辺を2乗すれば

(36) $\begin{equation*} (X-\mu )^2 \ge \varepsilon ^2 \end{equation*}$

を得る．また，事象 ${\rm A}$ が起こるとき， $1_{\rm A}=1$ であるから，式(36)の両辺に $1_{\rm A}$ を掛けて，

(37) $\begin{equation*} (X-\mu )^2 \cdot 1_{\rm A} \ge \varepsilon ^2 \cdot 1_{\rm A} \end{equation*}$

を得る．式(37)は両辺とも確率変数 $X$ の関数であることに注意して，それらの期待値を取ると，式(33)の下限

(38) $\begin{equation*} E \left[(X-\mu )^2 \cdot 1_{\rm A}\right] \ge E \left[\varepsilon ^2 \cdot 1_{\rm A}\right] \end{equation*}$

を得る．

次に，式(34)の下限を求める．事象 ${\rm A}$ が起こるときは，事象 ${\rm A^c}$ が起こらないときであり， $1_{\rm A^c}=0$ であるから，

(39) $\begin{eqnarray*} &&(X-\mu )^2 \cdot 1_{\rm A^c} = 0 \\ &&\qquad \text{when the event A occurs} \end{eqnarray*}$

であり，逆に事象 ${\rm A}$ が起こらないときは，事象 ${\rm A^c}$ が起こるときであり， $1_{\rm A^c}=1$ であるから，

(40) $\begin{eqnarray*} &&(X-\mu )^2 \cdot 1_{\rm A^c} = (X-\mu )^2 > 0 \\ &&\qquad \text{when the event A does not occur} \end{eqnarray*}$

である．式(39)と式(40)を合わせて，

(41) $\begin{equation*} (X-\mu )^2 \cdot 1_{\rm A^c} \ge 0 \end{equation*}$

を得る．式(41)の期待値を取ると，式(34)の下限

(42) $\begin{equation*} E \left[(X-\mu)^2\cdot 1_{\rm A^c} \right] \ge 0 \end{equation*}$

を得る．

式(32)に，式(38)および式(42)を用いると，

(43) $\begin{eqnarray*} &&V[X] \\ &=& E \left[(X-\mu)^2\cdot 1_{\rm A} \right] + E \left[(X-\mu)^2\cdot 1_{\rm A^c} \right]\\ &\ge& E \left[\varepsilon ^2 \cdot 1_{\rm A}\right]\\ &\ge& \varepsilon ^2 \cdot E \left[ 1_{\rm A}\right] \end{eqnarray*}$

を得る．

ところで， $1_{\rm A}$ の定義式(26)を用いて，式(43)に現れる $E \left[ 1_{\rm A}\right]$ の計算式を書き下すことができる．一般に，離散確率変数 $Z$ の期待値 $E[Z]$ は

(44) $\begin{equation*} E[Z] = \sum_k k \cdot \Pr(Z=k) \end{equation*}$

で計算できるから， $E \left[ 1_{\rm A}\right]$ については，

(45) $\begin{eqnarray*} &&E \left[ 1_{\rm A}\right] \\ &=& \sum_{k=0}^{1} k \cdot \Pr(1_{\rm A}=k)\\ &=& 0 \cdot \Pr(1_{\rm A}=0) + 1 \cdot \Pr(1_{\rm A}=1)\\ &=& \Pr(1_{\rm A}=1)\\ &=& \Pr(\text{ the event A occurs })\\ &=& \Pr\left( |X-\mu | \ge \varepsilon \right) \end{eqnarray*}$

となる．ただし，最後の変形は ${\rm A}$ の定義式(23)を用いた．

式(43)に式(45)を代入すると

(46) $\begin{eqnarray*} V[X] &\ge& \varepsilon ^2 \cdot E \left[ 1_{\rm A}\right]\\ &=& \varepsilon ^2 \cdot \Pr\left( |X-\mu | \ge \varepsilon \right) \end{eqnarray*}$