標準正規分布の求め方,確率変数の標準化の計算方法と意味,正規化との違い【確率論・統計学】

 

「確率変数の標準化(standardizing)」について説明し,標準正規分布との関係を明らかにします.単純なz=(x-μ)/σなる置き換えでは標準正規分布は導出されないので,確率変数に対する適切な変数変換をおこなう必要があります.正規化・規格化(normalization)との区別にも言及します.

【数式表示に関する注意】当サイトをスマートフォンなど画面幅が狭いデバイスで閲覧すると,数式が画面幅に収まりきらず,正確に表示されない場合があります.その際は画面を回転させ横長表示にするか,ブラウザの表示設定を「PCサイト」にした上でご利用ください.

確率変数の標準化

標準化確率変数

確率変数(random variable)Xの期待値がE[X],標準偏差が\sqrt{V[X]}であるとき,次式で定義される確率変数Zへの変数変換

(1)   \begin{equation*} Z:=\frac{X - E[X]}{\sqrt{V[X]}} \end{equation*}

を,確率変数の標準化(standardizing; standardize)といい,Zを標準化確率変数(standardized random variable)という.

標準化確率変数の期待値,分散,標準偏差

一般に,式(1)で与えらる標準化確率変数Zの,期待値E[Z],分散V[Z],標準偏差\sqrt{V[Z]}は,

(2)   \begin{equation*} E[Z]=0 \end{equation*}

(3)   \begin{equation*} V[Z]=1 \end{equation*}

(4)   \begin{equation*} \sqrt{V[Z]}=1 \end{equation*}

である.

証明のための準備

一般に,確率変数X,Yと任意定数a,bについて,

(5)   \begin{equation*} E[aX+bY]=aE[X]+bE[Y] \end{equation*}

が成り立つ(すなわち,期待値の線形性が成り立つ).また,任意定数aに対して,

(6)   \begin{equation*} E[a]=a \end{equation*}

が成り立つ.

一般に,分散については

(7)   \begin{eqnarray*} V[X]&:=&E\left[ (X- E[X])^2 \right]\\ &=&E\left[ X^2 \right]-E\left[ X \right]^2 \end{eqnarray*}

が成り立つ.

関連ページ
期待値の線形性の証明:確率変数の和の平均の計算【確率論】

証明(標準化確率変数の期待値,分散,標準偏差)

式(3)から式(4)は明らかなので,式(2)および式(3)を示す.

確率変数Xの期待値と分散を,E[X]=\muV[X]=\sigma^2とする(期待値と分散が有限確定値であること以外,分布の種類を制約していない).標準化(1)によって得られる確率変数Zの期待値は,式(5),(6)より,

(8)   \begin{eqnarray*} E[Z]&=&E\left[\frac{X-\mu}{\sigma} \right]\\ &=&\frac{1}{\sigma} E\left[X-\mu \right]\\ &=&\frac{1}{\sigma} \left( E\left[X \right] -\mu \right)\\ &=&\frac{1}{\sigma} \left( \mu -\mu \right)\\ &=&0 \end{eqnarray*}

よって式(2)は成り立つ.

また,確率変数Zの分散は,

(9)   \begin{eqnarray*} V[Z]&:=&E\left[ (Z- E[Z])^2 \right]\\ &=&E\left[ Z^2 \right]-E\left[ Z \right]^2\\ &=&E\left[ Z^2 \right]\quad(\because E\left[ Z \right]=0)\\ &=&E\left[\frac{(X-\mu)^2}{\sigma^2} \right]\\ &=&\frac{1}{\sigma^2} E\left[ (X-\mu)^2 \right]\\ &=&\frac{1}{\sigma^2} V[X]\\ &=&\frac{\sigma^2}{\sigma^2} \\ &=&1 \end{eqnarray*}

よって式(3)は成り立つ.□

標準正規分布の定義

期待値0,分散1(標準偏差1)なる正規分布(normal distribution){\rm Norm}(0, 1)を,標準正規分布(standard normal distribution)という.標準正規分布に従う確率変数Zの確率密度関数f_Z

(10)   \begin{equation*} f_Z(z):=\frac{1}{\sqrt{2\pi}} \exp\left( - \frac{z^2}{ 2}\right) \end{equation*}

で与えられる.標準正規分布に従う確率変数Zは,標準正規確率変数(standard normal random variable)という.

標準正規分布の確率密度関数の導出・求め方

「標準正規分布」と「確率変数の標準化」の関係

確率変数Xを,期待値E[X]=\mu,分散V[X]=\sigma^2(標準偏差\sqrt{V[X]}=\sigma)の正規分布(normal distribution){\rm Norm}(\mu, \sigma^2)に従うものとする(X\sim {\rm Norm}(\mu, \sigma^2)と書く).その確率密度分布(probability density function; pdf) f_X

(11)   \begin{equation*} f_X(x) = \frac{1}{\sqrt{2\pi}\sigma}\exp\left\{ - \frac{(x-\mu )^2}{ 2\sigma^2}\right\} \end{equation*}

である.

標準正規分布{\rm Norm}(0, 1)の確率密度関数(10)は,正規分布{\rm Norm}(\mu, \sigma^2)の確率密度関数(11)で\mu=0, \sigma^2 =1として得られることは明らかだが,変数変換としての確率変数の標準化(1)と確率密度関数(10)および(11)の関係は自明ではない.例えば,単純に式(11)に対して

(12)   \begin{equation*} z:=\frac{x - \mu}{\sigma} \end{equation*}

なる変数の置き換えをしても

(13)   \begin{equation*} \frac{1}{\sqrt{2\pi}\sigma}\exp\left\{ - \frac{z^2}{ 2}\right\} \end{equation*}

となり,係数\frac{1}{\sqrt{2\pi}\sigma}\sigmaが残ってしまう不都合が生じる.

正しくは,全確率(確率密度関数の積分)が常に1となるよう係数が調整される過程が,変数変換の中に組み込まれていなければならない.

次節では,標準正規分布の確率密度関数(10)を,確率変数の標準化に基づいて,確率密度関数を直接的に変数変換する方法を示す.

標準正規分布の確率密度関数の導出

正規分布{\rm Norm}(\mu, \sigma^2)の確率密度関数(11)から,確率変数の標準化(1)に基づいた直接的な変数変換によって標準正規分布{\rm Norm}(0, 1)の確率密度関数(10)を導出する方法を示す.

確率変数Xが正規分布(normal distribution){\rm Norm}(\mu, \sigma^2)に従うとする.この分布に従う試行(trial)において,確率変数Xの実現値(realization)がa未満である確率\Pr(X<a)

(14)   \begin{eqnarray*} \Pr(X<a)&=&F_X(a)\\ &=&\int_{-\infty}^a f_X(x)dx\\ &=&  \int_{-\infty}^a \frac{1}{\sqrt{2\pi}\sigma} \exp\left\{ - \frac{(x-\mu )^2}{ 2\sigma^2}\right\}dx  \end{eqnarray*}

である.

この確率変数Xを,式(1)に従って標準化すると,

(15)   \begin{equation*} Z:=\frac{X - \mu}{\sigma} \end{equation*}

なる新しい確率変数Zを得る.

確率変数の標準化(15)に伴って,確率密度関数の引数も

(16)   \begin{equation*} z:=\frac{x - \mu}{\sigma} \end{equation*}

と変数変換する.変数変換(16)に伴う,式(14)の積分区間の対応は,

(17)   \begin{equation*} \begin{array}{l|ccc} x&-\infty &\to & a\\ \hline z:= \frac{x - \mu}{\sigma} &-\infty &\to &\frac{a - \mu}{\sigma}  \end{array} \end{equation*}

である.式(14)および変数変換(16),(17)より,

(18)   \begin{eqnarray*} \Pr(X<a)&=&F_X(a)\\ &=&\int_{-\infty}^a f_X(x)dx\\ &=&  \int_{-\infty}^a \frac{1}{\sqrt{2\pi}\sigma} \exp\left\{ - \frac{(x-\mu )^2}{ 2\sigma^2}\right\}dx \\ &=&  \int_{-\infty}^{\frac{a - \mu}{\sigma}} \frac{1}{\sqrt{2\pi}\igma} \exp\left( - \frac{z^2}{ 2}\right) \cdot \frac{dx}{dz} \cdot dz\\ &=&  \int_{-\infty}^{\frac{a - \mu}{\sigma}} \frac{1}{\sqrt{2\pi}} \exp\left( - \frac{z^2}{ 2}\right) dz\\ \end{eqnarray*}

を得る.ただし,4行目で,式(16)より得られる

(19)   \begin{equation*} x = \mu + \sigma z  \end{equation*}

(20)   \begin{equation*} \frac{dx}{dz}=\sigma  \end{equation*}

を用いた.

他方,式(14)および標準化(15)より,形式的に

(21)   \begin{eqnarray*} \Pr(X<a)&=&\Pr\left(\frac{X - \mu}{\sigma}<\frac{a - \mu}{\sigma}\right)\\ &=&\Pr\left(Z<\frac{a - \mu}{\sigma}\right)\\ &=&F_Z\left(\frac{a - \mu}{\sigma} \right)\\ &=&\int_{-\infty}^{\frac{a - \mu}{\sigma} } f_Z(z) dz\\ \end{eqnarray*}

を得る.

式(18)および式(21)を合わせると,標準正規分布

(22)   \begin{equation*} f_Z(z)=\frac{1}{\sqrt{2\pi}} \exp\left( - \frac{z^2}{ 2}\right) \end{equation*}

を得る.□

 
注:
なお,式(19)は,標準正規乱数の生成,およびそこからの任意の{\rm Norm}(\mu, \sigma^2)に従う正規乱数の生成を与える,ボックスミュラー法(Box-Muller method)にも関連する.

標準化(standardizing)と正規化・規格化(normalization)との違い

本稿で紹介した標準化(standardizing)と,ベクトルなどで定義される正規化あるいは規格化(normalization)とは,区別されるべきかもしれない.式(1)を正規化(normalization)と呼ぶ向きもあるようだが(英語版Wikipedia:Normalization (statistics) の項など),その場合,式(10)をPDFとして持つ分布をnormalized-normal distribution(正規化正規分布)と呼ぶ羽目になる.この不格好を避けたい,というのは,些末かもしれないが分かりやすい理由ではある.

ベクトルの正規化と,計算の内実がだいぶ違う点も考慮すべきだろう.ベクトル\bf aの正規化とは,\bf aをそれ自身のノルム||{\bf a} ||で除すことにより,向きが同じ単位ベクトル\bf e_aをつくる操作

(23)   \begin{equation*} {\bf \bf e_a}:=\frac{\bf a}{||{\bf a} ||}, \quad||{\bf \bf e_a}||=1 \end{equation*}

である.

これに対して,確率変数の標準化には,確率変数の(例えばその最大値の)大きさを1とするわけではない.標準正規分布の確率変数Zが取りえる値の範囲は,相変わらず-\infty < z < \inftyである.確率変数の標準化がもたらすものは,分散(と標準偏差)を1とすることである(なお,様々な単位・様々な大きさで変動する実データを統計的に処理する際,分散を1とすることでデータを統整する標準化は,統計的検定の数理的基礎としても重要である).

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です