二項分布を正規分布で近似する計算と証明:中心極限定理の特殊な場合【確率論】

二項分布B(n,p)の確率変数Xについて,試行回数nが十分大きいとき,Xは近似的に正規分布 Norm(np, np(1-p)) に従うことを示します.二項分布の正規分布近似は,二項分布の確率質量関数の期待値周りにおけるテイラー展開によってなされます.この近似は,中心極限定理の特殊な場合と解釈することができます.ただし,中心極限定理それ自体は,有限な期待値と分散を持つような一般のi.i.d.確率変数に対して成り立つもので,確率変数が二項分布に従う場合に限らない,より一般性の高い定理です.

【数式表示に関する注意】当サイトをスマートフォンなど画面幅が狭いデバイスで閲覧すると,数式が画面幅に収まりきらず,正確に表示されない場合があります.その際は画面を回転させ横長表示にするか,ブラウザの表示設定を「PCサイト」にした上でご利用ください.

 

二項分布の正規分布近似

確率変数Xが二項分布B(n,p)に従うとき,nが十分大きい(n\gg 1)ならば,Xは近似的に正規分布{\rm Norm}\left(np,np(1-p)\right)に従う.より精確に述べれば,次の命題が成り立つ.

命題(二項分布の正規分布近似)

スターリングリングの公式(Stirling’s formula)

(1)   \begin{equation*} m! \approx \sqrt{2\pi m}m^m e^{-m}\quad(\mathbb{N}\ni m\to \infty) \end{equation*}

が成り立つ程度に大きなnkn-kについて,二項分布B(n,p)の確率質量関数は,その期待値npの近くにおいて,正規分布{\rm Norm}\left(np,np(1-p)\right)の確率密度関数で近似できる.すなわち

(2)   \begin{equation*} \frac{n!}{k!(n-k)!}\;p^k(1-p)^{n-k} \approx \frac{1}{\sqrt{2\pi np(1-p)}} \exp{\left\{ -\frac{(k-np)^2}{2np(1-p)} \right\}} \end{equation*}

が成り立つ.

関連ページ
【参考】中心極限定理の証明 正規分布【確率論】

準備(二項分布,正規分布)

二項分布(binomial distribution)

2つのパラメータnpで定まる二項分布(binomial distribution) B(n,p)の確率質量関数(probability mass function; PMF) \psi_X (k)

(3)   \begin{eqnarray*} \Pr(X=k)=\psi_X (k)&=&\;_nC_k\;p^k(1-p)^{n-k}\\ &=&\frac{n!}{k!(n-k)!}\;p^k(1-p)^{n-k} \end{eqnarray*}

である.これは,成功確率pの独立なベルヌーイ試行(Bernoulli trial)をn回試行したときk回成功する確率を意味する.この二項分布の期待値E[X]と分散V[X]は,それぞれ

(4)   \begin{equation*} E[X]=np \end{equation*}

(5)   \begin{equation*} V[X]=np(1-p) \end{equation*}

である.

関連ページ
二項分布の期待値(平均)・分散・標準偏差の計算・求め方

正規分布(normal distribution)

正規分布(normal distribution) {\rm Norm}(\mu, \sigma^2) の確率密度関数(probability density function; PDF)は

(6)   \begin{equation*} f_{X}(x) = \frac{1}{\sqrt{2\pi}\sigma} \exp{\left\{ -\frac{(x-\mu)^2}{2\sigma^2} \right\}} \end{equation*}

である.この正規分布の期待値E[X]と分散V[X]は,それぞれ

(7)   \begin{equation*} E[X] = \mu \end{equation*}

(8)   \begin{equation*} V[X] = \sigma^2 \end{equation*}

である.

関連ページ
正規分布の期待値(平均)・分散・標準偏差の計算・求め方

スターリングの公式(Stirling’s formula)

n\in \mathbb{N}について,n\to \inftyとしたとき,スターリングの公式(Stirling’s formula) または スターリングの近似式(Stirling’s approximation) と呼ばれる,次の近似が成り立つ.

(9)   \begin{equation*} n! \approx \sqrt{2\pi n}n^n e^{-n} \end{equation*}

二項分布の確率質量関数と正規分布の確率密度関数のグラフ

二項分布のパラメータがn=100p=0.3のとき,すなわち,期待値E[X]=np=30,分散V[X]=np(1-p)=21としたときの,二項分布の確率質量関数および正規分布の確率密度関数のグラフの概形を以下に示す.

これらは,期待値にピークを持つ単峰形をなす.

後述の通り,二項分布の正規分布近似は,二項分布の確率質量関数の期待値E[X]=npの周りにおけるテイラー展開によってなされる.

証明(二項分布の正規分布近似)

二項分布 B(n,p) の確率質量関数

(10)   \begin{equation*} \psi_X (k)=\frac{n!}{k!(n-k)!}\;p^k q^{n-k}\qquad (q:=1-p) \end{equation*}

におけるn!k!(n-k)!のそれぞれに関して,スターリングの近似(9)が成り立つとすると,

(11)   \begin{equation*} \psi_X (k) \approx \frac{\sqrt{2\pi n}n^n e^{-n}}{\sqrt{2\pi k}k^k e^{-k} \cdot \sqrt{2\pi (n-k)}(n-k)^{(n-k)} e^{-(n-k)}}\;p^k q^{n-k}  \end{equation*}

を得る.これを整理していくと,

(12)   \begin{eqnarray*} \psi_X (k)  &\approx&\frac{\sqrt{2\pi n}n^n e^{-n}}{\sqrt{2\pi k}k^k e^{-k} \cdot \sqrt{2\pi (n-k)}(n-k)^{(n-k)} e^{-(n-k)}}\;p^k q^{n-k}\\ &=& \frac{\sqrt{2\pi n}}{\sqrt{2\pi k} \sqrt{2\pi (n-k)}}  \cdot \frac{n^n}{k^k \cdot (n-k)^{(n-k)}} \cdot \frac{e^{-n}}{e^{-k} \cdot e^{-(n-k)}}\;p^k q^{n-k}\\ &=& \sqrt{ \frac{ n }{ 2\pi k(n-k) }}  \cdot \frac{n^k}{k^k} \cdot \frac{n^{(n-k)}}{(n-k)^{(n-k)}} \cdot \frac{e^{-n}}{e^{-k} \cdot e^{-n} \cdot e^{ k }}\;p^k q^{n-k}\\ &=& \sqrt{ \frac{ 1 }{ 2\pi \frac{k}{n}(n-k) }}  \cdot \left( \frac{n}{k} \right)^k \cdot \left( \frac{n}{n-k} \right)^{n-k} \cdot 1 \cdot \;p^k q^{n-k}\\ &=& \sqrt{ \frac{ 1 }{ 2\pi n \frac{k}{n}(1-\frac{k}{n}) }}  \cdot \left( \frac{np}{k} \right)^k \cdot \left( \frac{nq}{n-k} \right)^{n-k} \end{eqnarray*}

ここで,引数kを期待値npの周りに近づけることにする(k \to np).すなわち,

(13)   \begin{equation*} \frac{k}{n} \to p \end{equation*}

とすると,

(14)   \begin{eqnarray*} \psi_X (k)  &\approx& \sqrt{ \frac{ 1 }{ 2\pi n p(1-p) }}  \cdot \left( \frac{np}{k} \right)^k \cdot \left( \frac{nq}{n-k} \right)^{n-k}\\ &=&  \frac{ 1 }{ \sqrt{ 2\pi n pq }}  \cdot \left( \frac{np}{k} \right)^k \cdot \left( \frac{nq}{n-k} \right)^{n-k} \end{eqnarray*}

を得る.これは,期待値周り(二項分布の単峰のピーク周り)において,二項分布の確率質量関数\psi_X (k)が式(14)によって近似できることを意味する.さらに,\frac{k}{n} \to pの下で,式(14)中の積項について,各々

(15)   \begin{equation*} \left( \frac{np}{k} \right)^k = \left( \frac{n}{k} \cdot p \right)^k \to \left( \frac{1}{p} \cdot p \right)^k=1 \end{equation*}

(16)   \begin{equation*} \left( \frac{nq}{n-k} \right)^{n-k} = \left( \frac{1-p}{1-\frac{k}{n}} \right)^{n-k} \to \left( \frac{1-p}{1-p} \right)^{n-k}=1 \end{equation*}

であるが,これらの項については,次の手順でテイラー展開をおこなう.y=\exp(\ln y)\;(0<\;^{\forall}y\in\mathbb{R})に注意して,

(17)   \begin{eqnarray*} \psi_X (k)  &\approx& \frac{ 1 }{ \sqrt{ 2\pi n pq }}   \cdot \left( \frac{np}{k} \right)^k \cdot \left( \frac{nq}{n-k} \right)^{n-k}\\ &=&  A  \exp\left\{ \ln\left[ \left( \frac{np}{k} \right)^k \cdot \left( \frac{nq}{n-k} \right)^{n-k} \right] \right\} \\ &=&  A  \exp\left\{ \ln \left( \frac{np}{k} \right)^k  + \ln \left( \frac{nq}{n-k} \right)^{n-k} \right\} \\ &=&  A \exp\left\{ k\ln \left( \frac{np}{k} \right)  + (n-k) \ln \left( \frac{nq}{n-k} \right) \right\} \\ &=&  A \exp\left\{ -k\ln \left( \frac{k}{np} \right)  - (n-k) \ln \left( \frac{n-k}{nq} \right) \right\}  \end{eqnarray*}

を得る.ただし

(18)   \begin{equation*} A:=\frac{ 1 }{ \sqrt{2\pi n p(1-p) }} \end{equation*}

とした.ここで,引数kを期待値np,標準偏差\sqrt{npq}で標準化(standardizing)した変数

(19)   \begin{equation*} x:=\frac{k-np}{\sqrt{npq}} \end{equation*}

を導入する.k=np+x\sqrt{npq}であるから,これを式(17)に代入すると,

(20)   \begin{eqnarray*} \psi_X (k)  &\approx& A  \exp\left\{ -k\ln \left( \frac{k}{np} \right)  - (n-k) \ln \left( \frac{n-k}{nq} \right) \right\} \\ &=& A   \exp\left\{ -\left(np+x\sqrt{npq}\right)\ln \left( \frac{np+x\sqrt{npq}}{np} \right)  \right \\ && \qquad \qquad  \left - \left(n-np-x\sqrt{npq}\right) \ln \left( \frac{n-np-x\sqrt{npq}}{nq} \right) \right\} \\ &=& A   \exp\left\{ -\left(np+x\sqrt{npq}\right)\ln \left( 1+ x \sqrt {\frac{q}{np}} \right)  \right \\ && \qquad \qquad  \left - \left(nq-x\sqrt{npq}\right) \ln \left( 1 - x \sqrt {\frac{p}{nq}} \right) \right\} \\ &=& A   \exp\left\{ -\left(np+x\sqrt{npq}\right)\ln \left( 1+ z_1 \right)  \right \\ && \qquad \qquad  \left - \left(nq-x\sqrt{npq}\right) \ln \left( 1 - z_2 \right) \right\},  \end{eqnarray*}

ただし

(21)   \begin{equation*} z_1 := x \sqrt {\frac{q}{np}} \end{equation*}

(22)   \begin{equation*} z_2 := x \sqrt {\frac{p}{nq}} \end{equation*}

とした.式(17),(20)が

(23)   \begin{eqnarray*} k\approx np &\iff& x=\frac{k-np}{\sqrt{npq}} \approx 0 \\  &\iff& z_1, z_2 \approx 0 \end{eqnarray*}

の下での近似であることから,z\approx 0周りでのテイラー展開

(24)   \begin{equation*} \ln(1\pm z) \approx \pm z \mp \frac{z^2}{2} \pm  \frac{z^3}{3} \mp \cdots  \end{equation*}

を式(20)の\ln(1+Z_1)\ln(1-Z_2)に対しておこなうと,

(25)   \begin{eqnarray*} \psi_X (k)  &\approx& A   \exp\left\{ -\left(np+x\sqrt{npq}\right)\ln \left( 1+ z_1 \right)  \right \\ && \qquad \qquad  \left - \left(nq-x\sqrt{npq}\right) \ln \left( 1 - z_2 \right) \right\}\\ &\approx& A  \exp\left\{ -\left(np+x\sqrt{npq}\right) \left( z_1 - \frac{z_1^2}{2} + \cdots \right)  \right \\ && \qquad \qquad  \left - \left(nq-x\sqrt{npq}\right) \left( - z_2 + \frac{z_2^2}{2} - \cdots \right) \right\}\\ &=& A  \exp\left\{ -\left(np+x\sqrt{npq}\right) \left( x \sqrt {\frac{q}{np}} - x^2 \frac{q}{2np} + \cdots \right)  \right \\ && \qquad \qquad  \left - \left(nq-x\sqrt{npq}\right) \left( - x \sqrt {\frac{p}{nq}} + x^2 \frac{p}{2nq} - \cdots \right) \right\}\\ &=& A  \exp\left\{ - \left( x \sqrt {npq} + x^2q - \frac12 x^2q - \frac{x^3}{2} \sqrt {\frac{q^3}{np}} + \cdots \right)  \right \\ && \qquad \qquad  \left - \left( - x \sqrt {npq} + x^2 p - \frac12 x^2 p - \frac{x^3}{2} \sqrt{ \frac{p^3}{nq}} - \cdots \right) \right\}\\ \end{eqnarray*}

となる.今,k\to npすなわちx\to 0より,式(25)のxの3次以上の項を無視して,以下の近似を得る.

(26)   \begin{eqnarray*} \psi_X (k)  &\approx&  A  \exp\left\{ - x \sqrt {npq} - x^2q + \frac12 x^2q   \right \\ && \qquad \qquad  \left  + x \sqrt {npq} - x^2 p + \frac12 x^2 p  \right\}\\ \end{eqnarray*}

係数Aの定義(18),xの定義(19),およびq=1-pに注意して,式(26)を整理すると,

(27)   \begin{eqnarray*} \psi_X (k)  &\approx&  A  \exp\left\{ - \frac12 x^2q - \frac12 x^2 p  \right\}\\ &=&  \frac{ 1 }{ \sqrt{2\pi n p(1-p) }}  \exp\left\{ - \frac12 x^2(q + p)  \right\}\\ &=&  \frac{ 1 }{ \sqrt{2\pi n p(1-p) }}  \exp\left\{ - \frac12 x^2  \right\}\\ &=&  \frac{ 1 }{ \sqrt{2\pi n p(1-p) }}  \exp\left\{ - \frac{(k-np)^2}{2np(1-p)}  \right\} \end{eqnarray*}

となる.この最後の式は,期待値np,分散np(1-p)なる正規分布の確率密度関数f_X(k)に他ならない.よって命題は示された.■

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です