二項分布の計算:期待値(平均),分散,標準偏差の求め方【確率論】

【この記事の概要】

二項分布の確率質量関数から,二項確率変数の期待値(平均),分散,標準偏差を計算する方法を示します.一般に,離散確率変数の期待値は,確率質量関数とその引数の積の総和として定義されます.

また,統計学における標本平均・標本分散・標本標準偏差の定義式も示します.こちらは「確率論における期待値・分散・標準偏差」とは関連しつつも区別される概念であり,定義式も異なります.

【スマホでの数式表示について】

当サイトをスマートフォンなど画面幅が狭いデバイスで閲覧すると,数式が画面幅に収まりきらず,正確に表示されない場合があります.その際は画面を回転させ横長表示にするか,ブラウザの表示設定を「PCサイト」にした上でご利用ください.

二項分布の確率質量関数,期待値,分散,標準偏差【確率論】

二項分布の確率質量関数

2つのパラメータnpで定まる二項分布(binomial distribution) B(n,p)の確率質量関数(probability mass function; PMF) \psi_X (k)は,

(1)   \begin{eqnarray*} \Pr(X=k)=\psi_X (k)&=&\;_nC_k\;p^k(1-p)^{n-k}\\ &=&\frac{n!}{k!(n-k)!}\;p^k(1-p)^{n-k} \end{eqnarray*}

である.これは,成功確率pの独立なベルヌーイ試行(Bernoulli trial)をn回試行したときk回成功する確率を意味する.

二項分布の確率質量関数(1)の台(support)は

(2)   \begin{equation*} S:={\rm supp}(\psi_X)=\{0,1,...,n \} \end{equation*}

である.よって全確率が1であることは次式の通りである.すなわち

(3)   \begin{eqnarray*} \sum_{k=0}^{n} \Pr(X=k) &=& \sum_{k=0}^{n} \psi_X (k) \\ &=& \sum_{k=0}^{n} \frac{n!}{k!(n-k)!}\;p^k(1-p)^{n-k} \\ &=& 1. \end{eqnarray*}

二項分布の期待値,分散,標準偏差

確率質量関数(1)に従う二項分布の期待値(expected value)E[X],分散(variance)V[X],標準偏差(standard deviation)\sqrt{V[X]}は,それぞれ

(4)   \begin{equation*} E[X]=np \end{equation*}

(5)   \begin{equation*} V[X]=np(1-p) \end{equation*}

(6)   \begin{equation*} \sqrt{V[X]}=\sqrt{np(1-p)} \end{equation*}

である.

関連ページ
正規分布の計算:期待値(平均),分散,標準偏差の求め方【確率論】
二項分布を正規分布で近似する計算と証明:中心極限定理の特殊な場合【確率論】

二項分布の期待値の計算方法

Sを台(support)とする確率質量関数\psi_Xに従う離散確率変数Xについて,その期待値E[X]の一般的定義は

(7)   \begin{equation*} E[X] = \sum_{k\in S} k \cdot \psi_X (k) \end{equation*}

である.確率質量関数(1)の台はS=\{0,1,...,n\}であるから,この確率質量関数に従う二項分布の期待値(expected value)E[X]

(8)   \begin{equation*} E[X] = \sum_{k=0}^{n} k \cdot \psi_X (k) \end{equation*}

により求まる.

k=0の項に注意して

(9)   \begin{eqnarray*} &E[X]& \\ &=& \sum_{k=0}^{n} k \cdot \psi_X (k)\\ &=& \sum_{k=1}^{n} k \cdot \psi_X (k)\\ &=& \sum_{k=1}^{n} k \cdot \frac{n!}{k!(n-k)!}\;p^k(1-p)^{n-k} \\ &=& \sum_{k=1}^{n} k \cdot \frac{n!}{k\cdot(k-1)!(n-k)!}\;p^k(1-p)^{n-k} \\ &=& \sum_{k=1}^{n} \frac{n!}{(k-1)!(n-k)!}\;p^k(1-p)^{n-k} \\ &=& \sum_{k=1}^{n} \frac{n\cdot (n-1)!}{(k-1)!(n-k)!}\;p\cdot p^{k-1} (1-p)^{n-k} \\ &=& np\cdot \sum_{k=1}^{n}  \frac{(n-1)!}{(k-1)!(n-k)!}\;p^{k-1}(1-p)^{n-k} \\ &=& np\cdot \sum_{k=1}^{n}  \frac{(n-1)!}{(k-1)!(n-k+1-1)!}\;p^{k-1}(1-p)^{n-k+1-1} \\ &=& np\cdot \sum_{k=1}^{n}  \frac{(n-1)!}{(k-1)! \left\{ (n-1)-(k-1) \right\}! }\;p^{k-1}(1-p)^{\left\{ (n-1)-(k-1) \right\}!} \\ &=& np\cdot \sum_{k'=0}^{n-1}  \frac{(n-1)!}{k'! \left\{ (n-1)-k' \right\}! }\;p^{k'}(1-p)^{\left\{ (n-1)-k' \right\}!} \quad(k':=k-1)\\ &=& np\cdot \sum_{k'=0}^{n'} \frac{n'!}{k'!(n'-k')!}\;p^{k'}(1-p)^{n'-k'} \quad(n':=n-1)\\ \end{eqnarray*}

ここで,全確率が1であること,すなわち式(3)に注意すれば,式(9)の最後の式でも

(10)   \begin{equation*} \sum_{k'=0}^{n'} \frac{n'!}{k'!(n'-k')!}\;p^{k'}(1-p)^{n'-k'} = 1 \end{equation*}

なので,

(11)   \begin{equation*} E[X] = np \end{equation*}

を得る.

二項分布の分散と標準偏差の計算方法

一般に,分散は

(12)   \begin{eqnarray*} V[X]  &:=&  E\left( (X - E[X])^2 \right) \\ &=&  E\left( X^2 - 2XE[X] + E[X]^2 \right) \\ &=&  E[X^2] - E\left( 2XE[X] \right) + E\left( E[X]^2 \right) \\ &=&  E[X^2] - 2E[X]E[X] + E[X]^2 \\ &=&  E[X^2] - E[X]^2 \end{eqnarray*}

だから,E[X^2]E[X]^2を計算すればよい.E[X^2]は,

(13)   \begin{eqnarray*} &E[X^2]&\\ &=& \sum_{k=0}^{n} k^2 \cdot \psi_X (k)\\ &=& \sum_{k=1}^{n} k^2 \cdot \psi_X (k)\\ &=& \sum_{k=1}^{n} (k^2 -k +k) \cdot \psi_X (k)\\ &=& \sum_{k=1}^{n} \left\{(k^2 -k) \cdot \psi_X (k) +  k \cdot \psi_X (k) \right\} \\ &=& \sum_{k=1}^{n} k(k -1) \cdot \psi_X (k) + \sum_{k=1}^{n} k \cdot \psi_X (k)\\ \end{eqnarray*}

上式(13)の最後の式の第2項は

(14)   \begin{eqnarray*} &&\sum_{k=1}^{n} k \cdot \psi_X (k)\\ &=&\sum_{k=0}^{n} k \cdot \psi_X (k)\\ &=&E[X]=np \end{eqnarray*}

なので,第1項のみ計算すると,

(15)   \begin{eqnarray*} && \sum_{k=1}^{n} k(k -1) \cdot \psi_X (k) \\ &=& \sum_{k=1}^{n} k(k -1) \cdot \frac{n!}{k!(n-k)!}\;p^k(1-p)^{n-k}\\ &=& \sum_{k=1}^{n} (k -1) \cdot \frac{n!}{(k -1)!(n-k)!}\;p^k(1-p)^{n-k}\\ &=& np\cdot \sum_{k=1}^{n} (k -1) \cdot \frac{(n-1)!}{(k -1)!\left\{ (n-1)-(k-1) \right\} !}\;p^{k-1}(1-p)^{(n-1)-(k-1)}\\ &=& np\cdot \sum_{k'=0}^{n'} k' \cdot \frac{n'!}{k'!(n'-k')!}\;p^{k'}(1-p)^{n'-k'} \quad(k':=k+1, n':=n-1) \\ &=& np\cdot n'p \\ &=& np\cdot (n-1)p  \quad(\because n':=n-1) \\ &=& n^2p^2 -np^2 \end{eqnarray*}

となる.結局,式(13)~(15)より,

(16)   \begin{equation*} E[X^2] =  n^2p^2 -np^2 + np \end{equation*}

なので,式(11),(12),(16)より,分散

(17)   \begin{eqnarray*} V[X] &=&  E[X^2] - E[X]^2\\ &=& (n^2p^2 -np^2 + np) - (np)^2\\ &=& -np^2 + np \\ &=& np(1-p) \end{eqnarray*}

を得る.

また,標準偏差は分散の正平方根なので,

(18)   \begin{equation*} \sqrt{V[X]}=\sqrt{np(1-p)} \end{equation*}

である.

標本平均,標本分散,標本標準偏差【統計学】

「統計学における標本平均・標本分散・標本標準偏差」は,「確率論における期待値・分散・標準偏差」と関連しつつも区別される概念であり,定義式も異なる.

標本平均,標本分散,標本標準偏差の定義式は,母集団が従う分布に依存しない.

統計学において,ある母集団から採られた 標本(sample) として

(19)   \begin{equation*} x_1,x_2,...,x_i,....,x_n \end{equation*}

がなる n 個のデータが与えられたとき,そのデータの 標本平均(sample mean) \bar x,標本分散(sample variance) s^2,標本標準偏差(sample standard deviation) s は,それぞれ

(20)   \begin{equation*} \bar x := \frac{1}{n} \sum_{i=1}^{n} x_i \end{equation*}

(21)   \begin{equation*} s^2 := \frac{1}{n} \sum_{i=1}^{n} \left( x_i - \bar x \right)^2 \end{equation*}

(22)   \begin{equation*} s := \sqrt{s^2} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} \left( x_i - \bar x \right)^2} \end{equation*}

で定義される.

なお,これら標本平均・標本分散はそれぞれ,母集団の母平均・母分散の推定値(estimate)となる.

2 件のコメント

  • コメントを残す

    メールアドレスが公開されることはありません。 が付いている欄は必須項目です