二項分布を正規分布で近似する計算と証明:中心極限定理の特殊な場合【確率論】

二項分布B(n,p)の確率変数Xについて,試行回数nが十分大きいとき,Xは近似的に正規分布 Norm(np, np(1-p)) に従うことを示します.二項分布の正規分布近似は,二項分布の確率質量関数の期待値周りにおけるテイラー展開によってなされます.この近似は,中心極限定理の特殊な場合と解釈することができます.ただし,中心極限定理それ自体は,有限な期待値と分散を持つような一般のi.i.d.確率変数に対して成り立つもので,確率変数が二項分布に従う場合に限らない,より一般性の高い定理です.

【スマホでの数式表示について】

当サイトをスマートフォンなど画面幅が狭いデバイスで閲覧すると,数式が画面幅に収まりきらず,正確に表示されない場合があります.その際は画面を回転させ横長表示にするか,ブラウザの表示設定を「PCサイト」にした上でご利用ください.

二項分布の正規分布近似

確率変数Xが二項分布B(n,p)に従うとき,nが十分大きい(ngg 1)ならば,Xは近似的に正規分布{rm Norm}left(np,np(1-p)right)に従う.より精確に述べれば,次の命題が成り立つ.

命題(二項分布の正規分布近似)
スターリングリングの公式(Stirling’s formula)
begin{equation}
m! approx sqrt{2pi m}m^m e^{-m}quad(mathbb{N}ni mto infty)
end{equation}
が成り立つ程度に大きなnkn-kについて,二項分布B(n,p)の確率質量関数は,その期待値npの近くにおいて,正規分布{rm Norm}left(np,np(1-p)right)の確率密度関数で近似できる.すなわち
begin{equation}
frac{n!}{k!(n-k)!};p^k(1-p)^{n-k}
approx
frac{1}{sqrt{2pi np(1-p)}} exp{left{ -frac{(k-np)^2}{2np(1-p)} right}}
end{equation}
が成り立つ.

関連ページ
【参考】中心極限定理の証明 正規分布【確率論】

準備(二項分布,正規分布)

二項分布(binomial distribution)

2つのパラメータnpで定まる二項分布(binomial distribution) B(n,p)の確率質量関数(probability mass function; PMF) psi_X (k)
begin{eqnarray}
Pr(X=k)=psi_X (k)&=&;_nC_k;p^k(1-p)^{n-k}\
&=&frac{n!}{k!(n-k)!};p^k(1-p)^{n-k}
end{eqnarray}
である.これは,成功確率pの独立なベルヌーイ試行(Bernoulli trial)をn回試行したときk回成功する確率を意味する.この二項分布の期待値E[X]と分散V[X]は,それぞれ
begin{equation}
E[X]=np
end{equation}
begin{equation}
V[X]=np(1-p)
end{equation}
である.

関連ページ
二項分布の期待値(平均)・分散・標準偏差の計算・求め方

正規分布(normal distribution)

正規分布(normal distribution) {rm Norm}(mu, sigma^2) の確率密度関数(probability density function; PDF)は
begin{equation}
f_{X}(x) = frac{1}{sqrt{2pi}sigma} exp{left{ -frac{(x-mu)^2}{2sigma^2} right}}
label{norm01}
end{equation}
である.この正規分布の期待値E[X]と分散V[X]は,それぞれ
begin{equation}
E[X] = mu
end{equation}
begin{equation}
V[X] = sigma^2
end{equation}
である.

関連ページ
正規分布の期待値(平均)・分散・標準偏差の計算・求め方

スターリングの公式(Stirling’s formula)

nin mathbb{N}について,nto inftyとしたとき,スターリングの公式(Stirling’s formula) または スターリングの近似式(Stirling’s approximation) と呼ばれる,次の近似が成り立つ.
begin{equation}
n! approx sqrt{2pi n}n^n e^{-n}
label{stirling}
end{equation}

二項分布の確率質量関数と正規分布の確率密度関数のグラフ

二項分布のパラメータがn=100p=0.3のとき,すなわち,期待値E[X]=np=30,分散V[X]=np(1-p)=21としたときの,二項分布の確率質量関数および正規分布の確率密度関数のグラフの概形を以下に示す.

これらは,期待値にピークを持つ単峰形をなす.

後述の通り,二項分布の正規分布近似は,二項分布の確率質量関数の期待値E[X]=npの周りにおけるテイラー展開によってなされる.

証明(二項分布の正規分布近似)

二項分布 B(n,p) の確率質量関数
begin{equation}
psi_X (k)=frac{n!}{k!(n-k)!};p^k q^{n-k}qquad (q:=1-p)
end{equation}
におけるn!k!(n-k)!のそれぞれに関して,スターリングの近似(ref{stirling})が成り立つとすると,
begin{equation}
psi_X (k) approx frac{sqrt{2pi n}n^n e^{-n}}{sqrt{2pi k}k^k e^{-k} cdot sqrt{2pi (n-k)}(n-k)^{(n-k)} e^{-(n-k)}};p^k q^{n-k}
end{equation}
を得る.これを整理していくと,
begin{eqnarray}
psi_X (k)
&approx&frac{sqrt{2pi n}n^n e^{-n}}{sqrt{2pi k}k^k e^{-k} cdot sqrt{2pi (n-k)}(n-k)^{(n-k)} e^{-(n-k)}};p^k q^{n-k}\
&=& frac{sqrt{2pi n}}{sqrt{2pi k} sqrt{2pi (n-k)}} cdot frac{n^n}{k^k cdot (n-k)^{(n-k)}} cdot frac{e^{-n}}{e^{-k} cdot e^{-(n-k)}};p^k q^{n-k}\
&=& sqrt{ frac{ n }{ 2pi k(n-k) }} cdot frac{n^k}{k^k} cdot frac{n^{(n-k)}}{(n-k)^{(n-k)}} cdot frac{e^{-n}}{e^{-k} cdot e^{-n} cdot e^{ k }};p^k q^{n-k}\
&=& sqrt{ frac{ 1 }{ 2pi frac{k}{n}(n-k) }} cdot left( frac{n}{k} right)^k cdot left( frac{n}{n-k} right)^{n-k} cdot 1 cdot ;p^k q^{n-k}\
&=& sqrt{ frac{ 1 }{ 2pi n frac{k}{n}(1-frac{k}{n}) }} cdot left( frac{np}{k} right)^k cdot left( frac{nq}{n-k} right)^{n-k}
end{eqnarray}
ここで,引数kを期待値npの周りに近づけることにする(k to np).すなわち,
begin{equation}
frac{k}{n} to p
end{equation}
とすると,
begin{eqnarray}
psi_X (k)
&approx& sqrt{ frac{ 1 }{ 2pi n p(1-p) }} cdot left( frac{np}{k} right)^k cdot left( frac{nq}{n-k} right)^{n-k}\
&=& frac{ 1 }{ sqrt{ 2pi n pq }} cdot left( frac{np}{k} right)^k cdot left( frac{nq}{n-k} right)^{n-k}
label{eq-psi05}
end{eqnarray}
を得る.これは,期待値周り(二項分布の単峰のピーク周り)において,二項分布の確率質量関数psi_X (k)が式(ref{eq-psi05})によって近似できることを意味する.さらに,frac{k}{n} to pの下で,式(ref{eq-psi05})中の積項について,各々
begin{equation}
left( frac{np}{k} right)^k = left( frac{n}{k} cdot p right)^k to left( frac{1}{p} cdot p right)^k=1
end{equation}
begin{equation}
left( frac{nq}{n-k} right)^{n-k} = left( frac{1-p}{1-frac{k}{n}} right)^{n-k} to left( frac{1-p}{1-p} right)^{n-k}=1
end{equation}
であるが,これらの項については,次の手順でテイラー展開をおこなう.y=exp(ln y);(0<;^{forall}yinmathbb{R})に注意して,
begin{eqnarray}
psi_X (k)
&approx& frac{ 1 }{ sqrt{ 2pi n pq }} cdot left( frac{np}{k} right)^k cdot left( frac{nq}{n-k} right)^{n-k}\
&=& A expleft{ lnleft[ left( frac{np}{k} right)^k cdot left( frac{nq}{n-k} right)^{n-k} right] right} \
&=& A expleft{ ln left( frac{np}{k} right)^k + ln left( frac{nq}{n-k} right)^{n-k} right} \
&=& A expleft{ kln left( frac{np}{k} right) + (n-k) ln left( frac{nq}{n-k} right) right} \
&=& A expleft{ -kln left( frac{k}{np} right) – (n-k) ln left( frac{n-k}{nq} right) right}
label{eq-psi06}
end{eqnarray}
を得る.ただし
begin{equation}
A:=frac{ 1 }{ sqrt{2pi n p(1-p) }}
label{A01}
end{equation}
とした.ここで,引数kを期待値np,標準偏差sqrt{npq}で標準化(standardizing)した変数
begin{equation}
x:=frac{k-np}{sqrt{npq}}
label{x01}
end{equation}
を導入する.k=np+xsqrt{npq}であるから,これを式(ref{eq-psi06})に代入すると,
begin{eqnarray}
psi_X (k)
&approx& A expleft{ -kln left( frac{k}{np} right) – (n-k) ln left( frac{n-k}{nq} right) right} \
&=& A expleft{ -left(np+xsqrt{npq}right)ln left( frac{np+xsqrt{npq}}{np} right) right \
&& qquad qquad left – left(n-np-xsqrt{npq}right) ln left( frac{n-np-xsqrt{npq}}{nq} right) right} \
&=& A expleft{ -left(np+xsqrt{npq}right)ln left( 1+ x sqrt {frac{q}{np}} right) right \
&& qquad qquad left – left(nq-xsqrt{npq}right) ln left( 1 – x sqrt {frac{p}{nq}} right) right} \
&=& A expleft{ -left(np+xsqrt{npq}right)ln left( 1+ z_1 right) right \
&& qquad qquad left – left(nq-xsqrt{npq}right) ln left( 1 – z_2 right) right},
label{eq-psi07}
end{eqnarray}
ただし
begin{equation}
z_1 := x sqrt {frac{q}{np}}
end{equation}
begin{equation}
z_2 := x sqrt {frac{p}{nq}}
end{equation}
とした.式(ref{eq-psi06}),(ref{eq-psi07})が
begin{eqnarray}
kapprox np &iff& x=frac{k-np}{sqrt{npq}} approx 0 \
&iff& z_1, z_2 approx 0
end{eqnarray}
の下での近似であることから,z = 0 の周りでのテイラー展開
begin{equation}
ln(1pm z) approx pm z – frac{z^2}{2} pm frac{z^3}{3} – cdots
end{equation}
(ただし複合同順)を式(ref{eq-psi07})のln(1+z_1)ln(1-z_2)に対しておこなうと,
begin{eqnarray}
psi_X (k)
&approx& A expleft{ -left(np+xsqrt{npq}right)ln left( 1+ z_1 right) right \
&& qquad qquad left – left(nq-xsqrt{npq}right) ln left( 1 – z_2 right) right}\
&approx& A expleft{ -left(np+xsqrt{npq}right) left( z_1 – frac{z_1^2}{2} + cdots right) right \
&& qquad qquad left – left(nq-xsqrt{npq}right) left( – z_2 + frac{z_2^2}{2} – cdots right) right}\
&=& A expleft{ -left(np+xsqrt{npq}right) left( x sqrt {frac{q}{np}} – x^2 frac{q}{2np} + cdots right) right \
&& qquad qquad left – left(nq-xsqrt{npq}right) left( – x sqrt {frac{p}{nq}} + x^2 frac{p}{2nq} – cdots right) right}\
&=& A expleft{ – left( x sqrt {npq} + x^2q – frac12 x^2q – frac{x^3}{2} sqrt {frac{q^3}{np}} + cdots right) right \
&& qquad qquad left – left( – x sqrt {npq} + x^2 p – frac12 x^2 p – frac{x^3}{2} sqrt{ frac{p^3}{nq}} – cdots right) right}\
label{eq-psi08}
end{eqnarray}
となる.今,kto npすなわちxto 0より,式(ref{eq-psi08})のxの3次以上の項を無視して,以下の近似を得る.
begin{eqnarray}
psi_X (k)
&approx& A expleft{ – x sqrt {npq} – x^2q + frac12 x^2q right \
&& qquad qquad left + x sqrt {npq} – x^2 p + frac12 x^2 p right}\
label{eq-psi09}
end{eqnarray}
係数Aの定義(ref{A01}),xの定義(ref{x01}),およびq=1-pに注意して,式(ref{eq-psi09})を整理すると,
begin{eqnarray}
psi_X (k)
&approx& A expleft{ – frac12 x^2q – frac12 x^2 p right}\
&=& frac{ 1 }{ sqrt{2pi n p(1-p) }} expleft{ – frac12 x^2(q + p) right}\
&=& frac{ 1 }{ sqrt{2pi n p(1-p) }} expleft{ – frac12 x^2 right}\
&=& frac{ 1 }{ sqrt{2pi n p(1-p) }} expleft{ – frac{(k-np)^2}{2np(1-p)} right}
label{eq-psi10}
end{eqnarray}
となる.この最後の式は,期待値np,分散np(1-p)なる正規分布の確率密度関数f_X(k)に他ならない.よって命題は示された.■

5 件のコメント

  • 途中式のln(1±z)の展開式の符号に誤りがあるような気がするのですが、
    確認いただけますか。

    ln(1+z)≈+z-(z^2)/2+(z^3)/3-…
    ln(1-z)≈-z-(z^2)/2-(z^3)/3-…

    ではないでしょうか。

    • 小栗幸久 様

      ご指摘ありがとうございました.
      該当箇所(右辺偶数乗項符号)を修正いたしました.

  • 素人質問で申し訳ないのですが、
    10式から11式に変形するにあたり近似式の乗算や除算は一般に成り立つのでしょうか
    すなわち、
    充分大きいx,y,zにおいて
    G(x)→g(x),F(y)→f(y),H(z)→h(z)の時
    G(x)F(y)/H(z)→g(x)f(y)/h(z)
    は一般に言えるのでしょうか?

  • すみません先程の質問編集できるなら編集するか取り消してください
    3変数の場合は自明ですね
    10式から11式への場合は3変数でなく2変数なので各近似式が独立には動かないので少し引っかかりました

    • 通りすがり 様

      コメントありがとうございます.
      (もっともな疑問だと思いますので,他の方の参考の為,書き込みのままとさせていただきます)

      一般に,近似式を用いる際には,その上限と下限を評価して,近似誤差が十分小さい(許容できる誤差の大きさは,近似式の用途により異なります)ことを確かめることは重要です.
      近似式同士の積や商では,誤差範囲は自明でないので,なおのことですね.
      記述が粗くてすみませんが,各位ご検討ください.
      解析解の導出に骨が折れる場合も,今ですと,Excelなどでも数値解を出すことが容易になりましたので,数値解をグラフで比較するのも面白いです.

      また,(10)式から(11)式への変形は,n!, k!, (n-k)! のそれぞれで,スターリング近似が成り立つ程度の大きさの n, k の値を取るようにする,という意味です.

      すなわち,n は十分大きく取った上で,k は n-k が小さくなり過ぎない程度に,適当に大きく取ります.

      PMF/PDFのグラフでいうと,単峰の「山」の近くで近似式が使える一方,「裾野」のほうでは k, n-k が小さくなるので近似がずれてきます.

  • コメントを残す

    メールアドレスが公開されることはありません。 * が付いている欄は必須項目です