大数の法則の証明と意味【確率論】

「大数の強法則」および「大数の弱法則」を説明し,大数の弱法則を証明します.そのためにチェビチェフの不等式も証明します.また,大数の法則と中心極限定理の関係を述べます.

【スマホでの数式表示について】

当サイトをスマートフォンなど画面幅が狭いデバイスで閲覧すると,数式が画面幅に収まりきらず,正確に表示されない場合があります.その際は画面を回転させ横長表示にするか,ブラウザの表示設定を「PCサイト」にした上でご利用ください.

大数の法則とは何か(概要)

大数の強法則と大数の弱法則

大数の法則(The law of large numbers)と呼ばれるものは2種類ある.ひとつは大数の強法則(The strong law of large numbers)であり,もうひとつは大数の弱法則(The weak law of large numbers)である.

期待値 \mu のiid確率変数 X_1,...,Xn について,その相加平均を \overline{X}_n とする.大数の強法則および大数の弱法則は,どちらも

    \begin{equation*} \overline{X}_n \to \mu \qquad \text{when} \qquad n\to \infty \end{equation*}

を主張する命題である.

強法則と弱法則との違いは,「それぞれの命題の前件(iid確率変数に付与される前提条件)の違い」および「\overline{X}_n \to \mu はどのように収束するのかという〈収束の種類〉の違い」にある.

大数の法則の意味:統計学的解釈

大数の法則は確率論の命題だが,これを統計学(推計統計)の文脈に置けば,次のように解釈できる:すなわち,n 個のiid確率変数を n 個の標本とみなし,それらの期待値を母平均(標本を取り出した母集団の平均)とする.取り出す標本の個数 n を大きくしていけば,標本平均 \overline{X}_n は母平均に近づいてゆく(すなわち,標本平均の母平均 \mu への収束: \overline{X}_n \to \mu ).

巷間,「サンプル数を増やせば増やすほど,平均値は〈正しい値〉に近づく」というような言い方がなされるが,これを確率論において精確に述べたものが大数の法則である.

大数の法則,中心極限定理,正規分布の関係

大数の法則と混同されがちな命題として,中心極限定理(central limit theorem) がある.中心極限定理は大雑把に言って「 \overline{X}_n の分布は n\to \infty の下で正規分布に近づく」というものである.中心極限定理は正規分布に関わるが,大数の法則は正規分布と特別な関わりはない.

また,大数の法則と中心極限定理の両者とも,それらの定理の前提として,元のiid確率変数が(正規分布を含め)特定の分布関数に従うことは要求していない.

他方,大数の法則と中心極限定理は,確率変数の収束の種類の違いという観点で整理することもできる.iid確率変数の相加平均 \overline{X}_n標準化(standardize) した確率変数を Z_n としよう.このとき,それぞれの定理の概略は,次のようなものといえる:

  • 大数の強法則: Z_n の概収束(almost sure convergence)に関する定理
  • 大数の弱法則: Z_n の確率収束(convergence in probability)に関する定理
  • 中心極限定理: Z_n の分布収束(convergence in )に関する定理

これらは,確率論における各種の収束を表す記号(a.s.pd)を用いれば,

  • 大数の強法則: Z_n \overset{a.s.}{\longrightarrow} 0 に関する定理
  • 大数の弱法則: Z_n \overset{p}{\longrightarrow} 0 に関する定理
  • 中心極限定理: Z_n \overset{d}{\longrightarrow} Z \sim {\rm Norm}(0,1) に関する定理

のように書くこともできる.

大数の強法則

大数の強法則(The strong law of large numbers)
X_1,...,X_n を,期待値 \mu の互いに独立で同一の分布に従う確率変数(iid確率変数)であるとする.これらの相加平均

(1)   \begin{equation*} \overline{X}_n := \frac{1}{n} \sum_{i=1}^n X_i \end{equation*}

に関して,

(2)   \begin{equation*} \Pr \left( \lim_{n \to \infty} \overline{X}_n = \mu \right) =1 \end{equation*}

が成り立つ.

大数の強法則は,

  •  \overline{X}_n は,ほとんど確実に(almost surely) 期待値 \mu に収束(convergence)する

あるいは

  •  \overline{X}_n は,期待値 \mu概収束(almost sure convergence)する

のように言い換えることができ,これは,概収束を表す記号(a.s.)を用いて,

(3)   \begin{equation*} \overline{X}_n \overset{a.s.}{\longrightarrow} \mu \qquad \text{when} \qquad n\to \infty \end{equation*}

と書くことができる.

大数の弱法則

大数の弱法則(The weak law of large numbers)
X_1,...,X_n を,期待値 \mu,分散 \sigma^2\;(\sigma^2<\infty) の,互いに独立で同一の分布に従う確率変数(iid確率変数)であるとする.これらの相加平均

    \begin{equation*}  \overline{X}_n := \frac{1}{n} \sum_{i=1}^n X_i  \end{equation*}

に関して,

(4)   \begin{equation*}  \lim_{n \to \infty} \Pr \left( | \overline{X}_n - \mu |\ge \varepsilon \right) =0 \qquad \text{for all } \varepsilon > 0 \end{equation*}

が成り立つ.

大数の弱法則は,

  •  \overline{X}_n は,期待値 \mu確率収束(convergence in probability)する

と言い換えることができ,これは,確率収束を表す記号( p )を用いて,

(5)   \begin{equation*} \overline{X}_n \overset{p}{\longrightarrow} \mu \qquad \text{when} \qquad n\to \infty \end{equation*}

と書くことができる.

大数の弱法則の証明

大数の弱法則を証明する.大数の弱法則は,iid確率変数の相加平均に対して,次節で詳細と証明を述べる チェビシェフの不等式(Chebyshev’s inequality) を用いることにより,導出される.

X_1,...,X_n を,期待値 \mu,分散 \sigma^2\;(\sigma^2<\infty) の,互いに独立で同一の分布に従う確率変数(iid確率変数)であるとする.これらの相加平均を

(6)   \begin{equation*}  \overline{X}_n := \frac{1}{n} \sum_{i=1}^n X_i  \end{equation*}

とする. \overline{X}_n の期待値および分散は,それぞれ次のように計算できる.

期待値 E\left[\; \overline{X}_n \; \right] は,期待値の線形性 に注意しながら,

(7)   \begin{eqnarray*} E\left[\; \overline{X}_n \; \right]&=&E\left[ \frac{1}{n} \sum_{i=1}^n X_i  \right] \\ &=&\frac{1}{n} \; E\left[ \sum_{i=1}^n X_i  \right] \\ &=&\frac{1}{n} \; \sum_{i=1}^n E\left[ X_i  \right] \\ &=&\frac{1}{n} \; \sum_{i=1}^n \mu \\ &=&\frac{1}{n} n \mu \\ &=& \mu \end{eqnarray*}

のように計算できる.

分散 E\left[\; \overline{X}_n \; \right] は,期待値の線形性 より,

(8)   \begin{eqnarray*} V\left[\; \overline{X}_n \; \right]&=&E\left[\; \left( \overline{X}_n -\mu \right)^2 \; \right]\\ &=&E\left[\; \left( \frac{1}{n} \sum_{i=1}^n X_i -\mu \right)^2 \; \right]\\ &=&E\left[\; \frac{1}{n^2} \left(  \sum_{i=1}^n X_i - n \mu \right)^2 \; \right]\\ &=&\frac{1}{n^2} \; E\left[\;  \left(  \sum_{i=1}^n X_i - n \mu \right)^2 \; \right]\\ &=&\frac{1}{n^2} \; E\left[\;  \left\{  \sum_{i=1}^n ( X_i - \mu ) \right\}^2 \; \right]\\ &=&\frac{1}{n^2} \; E\left[\;  \left(  \sum_{i=1}^n  Y_i  \right)^2 \; \right] \end{eqnarray*}

である.ただし

(9)   \begin{equation*} Y_i := X_i - \mu \qquad(i=1,...,n) \end{equation*}

とした.\left(  \sum_{i=1}^n  Y_i  \right)^2 を展開して式(8)の計算を続けると,

(10)   \begin{eqnarray*} V\left[\; \overline{X}_n \; \right] &=&\frac{1}{n^2} \; E\left[\;  \left(  \sum_{i=1}^n  Y_i  \right)^2 \; \right]\\ &=&\frac{1}{n^2} \; E\left[\;   \sum_{i=1}^n  Y_i^2 + \sum_{i,i\not= j} \sum_{j=1}^n  Y_i Y_j  \; \right]\\ &=&\frac{1}{n^2} \; E\left[\;   \sum_{i=1}^n  Y_i^2  \; \right]  + \frac{1}{n^2} \; E\left[\;   \sum_{i,i\not= j} \sum_{j=1}^n  Y_i Y_j  \; \right]\\ &=&\frac{1}{n^2} \;\sum_{i=1}^n  E\left[\;    Y_i^2  \; \right]  + \frac{1}{n^2} \; \sum_{i,i\not= j} \sum_{j=1}^n  E\left[\;    Y_i Y_j  \; \right]\\ \end{eqnarray*}

を得る.ここに,最後の右辺第2項に現れる E\left[\;    Y_i Y_j  \; \right] は,

(11)   \begin{eqnarray*} E\left[\;  Y_i Y_j  \; \right]  &=&E\left[\; \left( X_i -\mu \right)  \left( X_j - \mu \right) \; \right] \\ &=& {\rm Cov}\left(\;  X_i, \; X_j  \; \right) \\ &=& 0 \end{eqnarray*}

すなわち,X_iX_j の共分散(covariance)であり,iid確率変数の仮定より,X_iX_j は独立であるから,無相関( {\rm Cov} \left(\;  X_i, \; X_j  \; \right) = 0 )である.よって

(12)   \begin{eqnarray*} V\left[\; \overline{X}_n \; \right] &=&\frac{1}{n^2} \;\sum_{i=1}^n  E\left[\;    Y_i^2  \; \right]  + \frac{1}{n^2} \; \sum_{i,i\not= j} \sum_{j=1}^n  E\left[\;    Y_i Y_j  \; \right]\\ &=&\frac{1}{n^2} \;\sum_{i=1}^n  E\left[\;    Y_i^2  \; \right]\\ &=&\frac{1}{n^2} \;\sum_{i=1}^n  E\left[\;    ( X_i - \mu )^2  \; \right]\\ &=&\frac{1}{n^2} \;\sum_{i=1}^n  V\left[\;  X_i   \; \right]\\ &=&\frac{1}{n^2} \;\sum_{i=1}^n  \sigma^2 \\ &=&\frac{1}{n^2} \; n  \sigma^2 \\ &=&\frac{\sigma^2}{n}  \end{eqnarray*}

となる.

相加平均 \overline{X}_n についての チェビチェフの不等式

(13)   \begin{equation*}  \Pr \left( \left| \overline{X}_n - E\left[\; \overline{X}_n \; \right] \right| \ge \varepsilon \right) \le \frac{V\left[\; \overline{X}_n \; \right]}{\varepsilon^2} \qquad \text{for all } \varepsilon > 0 \end{equation*}

と書ける.ここに式(7)および式(12))の結果を代入して,

(14)   \begin{equation*}  0 \le \Pr \left( \left| \overline{X}_n - \mu \right| \ge \varepsilon \right) \le \frac{\sigma^2}{n \varepsilon^2} \end{equation*}

を得る.ただし,左辺は確率が非負であることによる.

最後に,式(15)で n\to \infty とすれば,

(15)   \begin{equation*}  \lim_{n \to \infty} \frac{\sigma^2}{n \varepsilon^2} = 0 \end{equation*}

なので,大数の弱法則

(16)   \begin{equation*}  \lim_{n \to \infty} \Pr \left( \left| \overline{X}_n - \mu \right| \ge \varepsilon \right) = 0 \end{equation*}

を得る.

さらに,確率測度の定義によって,一般に

(17)   \begin{equation*}  \Pr \left( A \ge a ) + \Pr \left( A < a )= 1 \end{equation*}

すなわち

(18)   \begin{equation*}  \Pr \left( A < a )= 1 - \Pr \left( A \ge a ) \end{equation*}

であるから,A:=\left| \overline{X}_n - \mu \right|a:=\varepsilon とすれば,

(19)   \begin{eqnarray*}  \Pr \left( \left| \overline{X}_n - \mu \right| < \varepsilon \right) &=& 1 -\Pr \left( \left| \overline{X}_n - \mu \right| \ge \varepsilon \right) \\ \therefore \lim_{n \to \infty} \Pr \left( \left| \overline{X}_n - \mu \right| < \varepsilon \right) &=& 1 -\lim_{n \to \infty}\Pr \left( \left| \overline{X}_n - \mu \right| \ge \varepsilon \right) \end{eqnarray*}

である.ここに式(16)を用いれば,

(20)   \begin{equation*}  \lim_{n \to \infty} \Pr \left( \left| \overline{X}_n - \mu \right| < \varepsilon \right) = 1 \end{equation*}

を得る.

[大数の弱法則 証明終わり]

チェビシェフの不等式 *

大数の弱法則を証明する際,次のチェビシェフの不等式(Chebyshev’s inequality)を用いる.

チェビシェフの不等式(Chebyshev's inequality)
X を,期待値 \mu\;(\mu<\infty),分散 \sigma^2\;(\sigma^2\not= 0,\; \sigma^2<\infty) の確率変数とする.このとき,次の不等式が成り立つ.

(21)   \begin{equation*}  \Pr \left( | X - \mu |\ge \varepsilon \right) \le \frac{\sigma^2}{\varepsilon^2} \qquad \text{for all } \varepsilon > 0 \end{equation*}

式(21)をチェビシェフの不等式という.

チェビシェフの不等式の証明

チェビシェフの不等式を証明する.

Step.1 確率変数から指示関数を誘導する

確率変数 X の期待値および分散が,

(22)   \begin{eqnarray*} E[X]&=&\mu \qquad (\mu<\infty)\\ V[X]&=&\sigma^2 \qquad (\sigma^2\not= 0,\; \sigma^2<\infty) \end{eqnarray*}

であるとする.この確率変数 X に関する事象(events) {\rm A}

(23)   \begin{equation*} {\rm A} := \left\{ |X-\mu | \ge \varepsilon  \right\} \qquad(\varepsilon > 0) \end{equation*}

とする.これは,右辺の絶対値を外すと

(24)   \begin{eqnarray*} {\rm A} &=& \left\{ |X-\mu | \ge \varepsilon  \right\}\\ &=& \left\{ X-\mu \le - \varepsilon, \quad  \varepsilon \le X-\mu   \right\}\\ &=& \left\{ X \le \mu - \varepsilon, \quad  \mu +  \varepsilon \le X   \right\}\\ &=& \left\{ X \le \mu - \varepsilon \right\} \cup \left\{ \mu +  \varepsilon \le X   \right\}\\ &=& {\rm A}_1 \cup {\rm A}_2 \end{eqnarray*}

のようになる(ただし {\rm A}_1:=\left\{ X \le \mu - \varepsilon \right\}{\rm A}_2 := \left\{ \mu +  \varepsilon \le X   \right\}A_1 \cap A_2 = \emptyset ).すなわち,事象 {\rm A}とは,確率変数 X の実現値 xx \le \mu - \varepsilon または \mu +  \varepsilon \le x となるような場合の集合である.実現値 x の数直線で表せば, X が下図の橙色部分の値を取る場合の集合が事象 {\rm A} である.

なお,事象 {\rm A} の余事象を {\rm A}^{\rm c} で表すことにすると,

(25)   \begin{eqnarray*} {\rm A^c} &=& \left\{ |X-\mu | < \varepsilon  \right\}\\ &=& \left\{  - \varepsilon < X-\mu  < \varepsilon \right\}\\ &=& \left\{ \mu- \varepsilon < X  < \mu + \varepsilon \right\} \end{eqnarray*}

である.

さらに,事象 {\rm A} が起こる場合に 1 ,{\rm A} が起こらない場合(すなわち {\rm A^c} が起こる場合)に 0 を取る確率変数を

(26)   \begin{equation*} 1_{\rm A} = \left\{ \begin{array}{ll} 0 & (X\in {\rm A^c},\; \text{ i.e. } {\rm A} \text{ occurs} ) \\ 1 & (X\in {\rm A}, \; \text{ i.e. } {\rm A} \text{ does not occur} )  \end{array} \right \end{equation*}

と書くことにする.このように定義される 1_{\rm A} は,X によって値が決まる指示関数(indicator function)であり, 1_{\rm A} もひとつの確率変数となる.式(23)に伴う 1_{\rm A} を,確率変数 X を引数に取る関数として,引数を明示し

(27)   \begin{equation*}  1_{\rm A}=1_{(-\infty, \mu-\varepsilon] \cup [\mu+\varepsilon, \infty) }(X) \end{equation*}

のように書いても良い.ここに,右辺の添字は x の取り得る区間である.

式(23)に伴う 1_{\rm A} は,式(24)より,次式のように分解できる.

(28)   \begin{eqnarray*} 1_{\rm A} &=& 1_{{\rm A}_1} +1_{{\rm A}_2}\\ &=& 1_{(-\infty, \mu-\varepsilon] }(X) +1_{[\mu+\varepsilon, \infty) }(X) \end{eqnarray*}

また,式(25)より,

(29)   \begin{equation*} 1_{\rm A^c} = 1_{(\mu-\varepsilon, \mu+\varepsilon)}(X) \end{equation*}

である.これらより,

(30)   \begin{equation*} 1_{\rm A} + 1_{\rm A^c} = 1_{(-\infty, \infty)}(X) = 1 \end{equation*}

である.

Step.2 指示関数を用いて偏差の評価式を導出する

一般に,確率変数 X の分散 V[X]

(31)   \begin{equation*} V[X]:= E \left[(X-\mu)^2 \right] \end{equation*}

と定義されるが,これを指示関数(26),(29)を用いて変形する.

一般の確率変数 Z_1Z_2 に対して,確率変数の和の期待値 には E[Z_1+Z_2]=E[Z_1]+E[Z_2] が成り立つことに注意すると,式(31)および式(30)より,

(32)   \begin{eqnarray*} &&V[X] \\ &=& E \left[(X-\mu)^2 \right]\\ &=& E \left[(X-\mu)^2\cdot 1 \right]\\ &=& E \left[(X-\mu)^2\cdot (1_{\rm A} + 1_{\rm A^c}) \right]\\ &=& E \left[(X-\mu)^2\cdot 1_{\rm A} \right] + E \left[(X-\mu)^2\cdot 1_{\rm A^c} \right] \end{eqnarray*}

となる.

上式(32)の最後式第1項

(33)   \begin{equation*} E \left[(X-\mu)^2\cdot 1_{\rm A} \right] \end{equation*}

および最後式第2項

(34)   \begin{equation*} E \left[(X-\mu)^2\cdot 1_{\rm A^c} \right] \end{equation*}

の下限について考えよう.

まず,式(33)の下限を求める.式(23)より,事象 {\rm A} が起こるとは

(35)   \begin{equation*} |X-\mu | \ge \varepsilon \qquad(\varepsilon > 0) \end{equation*}

が成り立つことである.両辺を2乗すれば

(36)   \begin{equation*} (X-\mu )^2 \ge \varepsilon ^2 \end{equation*}

を得る.また,事象 {\rm A} が起こるとき, 1_{\rm A}=1 であるから,式(36)の両辺に 1_{\rm A} を掛けて,

(37)   \begin{equation*} (X-\mu )^2 \cdot 1_{\rm A} \ge \varepsilon ^2 \cdot 1_{\rm A} \end{equation*}

を得る.式(37)は両辺とも確率変数 X の関数であることに注意して,それらの期待値を取ると,式(33)の下限

(38)   \begin{equation*} E \left[(X-\mu )^2 \cdot 1_{\rm A}\right] \ge E \left[\varepsilon ^2 \cdot 1_{\rm A}\right] \end{equation*}

を得る.

次に,式(34)の下限を求める.事象 {\rm A} が起こるときは,事象 {\rm A^c} が起こらないときであり,1_{\rm A^c}=0 であるから,

(39)   \begin{eqnarray*} &&(X-\mu )^2 \cdot 1_{\rm A^c} = 0 \\ &&\qquad \text{when the event A occurs} \end{eqnarray*}

であり,逆に事象 {\rm A} が起こらないときは,事象 {\rm A^c} が起こるときであり,1_{\rm A^c}=1 であるから,

(40)   \begin{eqnarray*} &&(X-\mu )^2 \cdot 1_{\rm A^c} = (X-\mu )^2 > 0 \\ &&\qquad \text{when the event A does not occur} \end{eqnarray*}

である.式(39)と式(40)を合わせて,

(41)   \begin{equation*} (X-\mu )^2 \cdot 1_{\rm A^c} \ge 0 \end{equation*}

を得る.式(41)の期待値を取ると,式(34)の下限

(42)   \begin{equation*} E \left[(X-\mu)^2\cdot 1_{\rm A^c} \right] \ge 0 \end{equation*}

を得る.

式(32)に,式(38)および式(42)を用いると,

(43)   \begin{eqnarray*} &&V[X] \\ &=& E \left[(X-\mu)^2\cdot 1_{\rm A} \right] + E \left[(X-\mu)^2\cdot 1_{\rm A^c} \right]\\ &\ge& E \left[\varepsilon ^2 \cdot 1_{\rm A}\right]\\ &\ge& \varepsilon ^2 \cdot E \left[ 1_{\rm A}\right] \end{eqnarray*}

を得る.

ところで,1_{\rm A} の定義式(26)を用いて,式(43)に現れる E \left[ 1_{\rm A}\right] の計算式を書き下すことができる.一般に,離散確率変数 Z の期待値 E[Z]

(44)   \begin{equation*} E[Z] = \sum_k k \cdot \Pr(Z=k) \end{equation*}

で計算できるから, E \left[ 1_{\rm A}\right] については,

(45)   \begin{eqnarray*} &&E \left[ 1_{\rm A}\right] \\ &=& \sum_{k=0}^{1} k \cdot \Pr(1_{\rm A}=k)\\ &=& 0 \cdot \Pr(1_{\rm A}=0) + 1 \cdot \Pr(1_{\rm A}=1)\\ &=&  \Pr(1_{\rm A}=1)\\ &=&  \Pr(\text{ the event A occurs })\\ &=&  \Pr\left( |X-\mu | \ge \varepsilon \right) \end{eqnarray*}

となる.ただし,最後の変形は {\rm A} の定義式(23)を用いた.

式(43)に式(45)を代入すると

(46)   \begin{eqnarray*} V[X]  &\ge& \varepsilon ^2 \cdot E \left[ 1_{\rm A}\right]\\ &=& \varepsilon ^2 \cdot \Pr\left( |X-\mu | \ge \varepsilon \right) \end{eqnarray*}

を得る.いま,V[X] = \sigma^2 としているのでこれを代入すると

(47)   \begin{equation*} \sigma^2 \ge \varepsilon ^2 \cdot \Pr\left( |X-\mu | \ge \varepsilon \right) \end{equation*}

である.この両辺を \varepsilon ^2 で割れば,導出すべき,チェビシェフの不等式(21)

    \begin{equation*}  \Pr \left( | X - \mu |\ge \varepsilon \right) \le \frac{\sigma^2}{\varepsilon^2} \end{equation*}

を得る.

[チェビシェフの不等式 証明終わり]

 

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です