「確率変数の標準化(standardizing)」について説明し,標準正規分布との関係を明らかにします.単純なz=(x-μ)/σなる置き換えでは標準正規分布は導出されないので,確率変数に対する適切な変数変換をおこなう必要があります.正規化・規格化(normalization)との区別についても説明します.
【スマホでの数式表示について】
確率変数の標準化
標準化確率変数
確率変数(random variable)の期待値が,標準偏差がであるとき,次式で定義される確率変数への変数変換
(1)
を,確率変数の標準化(standardizing; standardize)といい,を標準化確率変数(standardized random variable)という.
標準化確率変数の期待値,分散,標準偏差
一般に,式(1)で与えらる標準化確率変数の,期待値,分散,標準偏差は,
(2)
(3)
(4)
である.
証明のための準備
(5)
が成り立つ(すなわち,期待値の線形性が成り立つ).また,任意定数に対して,
(6)
が成り立つ.
(7)
が成り立つ.
関連ページ
期待値の線形性の証明:確率変数の和の平均の計算【確率論】
証明(標準化確率変数の期待値,分散,標準偏差)
式(3)から式(4)は明らかなので,式(2)および式(3)を示す.
確率変数の期待値と分散を,,とする(期待値と分散が有限確定値であること以外,分布の種類を制約していない).標準化(1)によって得られる確率変数の期待値は,式(5),(6)より,
(8)
よって式(2)は成り立つ.
(9)
よって式(3)は成り立つ.□
標準正規分布の定義
期待値,分散(標準偏差)なる正規分布(normal distribution)を,標準正規分布(standard normal distribution)という.標準正規分布に従う確率変数の確率密度関数は
(10)
で与えられる.標準正規分布に従う確率変数は,標準正規確率変数(standard normal random variable)という.
標準正規分布の確率密度関数の導出・求め方
「標準正規分布」と「確率変数の標準化」の関係
確率変数を,期待値,分散(標準偏差)の正規分布(normal distribution)に従うものとする(と書く).その確率密度分布(probability density function; pdf) は
(11)
である.
標準正規分布の確率密度関数(10)は,正規分布の確率密度関数(11)でとして得られることは明らかだが,変数変換としての確率変数の標準化(1)と確率密度関数(10)および(11)の関係は自明ではない.例えば,単純に式(11)に対して
(12)
なる変数の置き換えをしても
(13)
となり,係数のが残ってしまう不都合が生じる.
正しくは,全確率(確率密度関数の積分)が常に1となるよう係数が調整される過程が,変数変換の中に組み込まれていなければならない.
次節では,標準正規分布の確率密度関数(10)を,確率変数の標準化に基づいて,確率密度関数を直接的に変数変換する方法を示す.
標準正規分布の確率密度関数の導出
正規分布の確率密度関数(11)から,確率変数の標準化(1)に基づいた直接的な変数変換によって標準正規分布の確率密度関数(10)を導出する方法を示す.
確率変数が正規分布(normal distribution)に従うとする.この分布に従う試行(trial)において,確率変数の実現値(realization)が未満である確率は
(14)
である.
この確率変数を,式(1)に従って標準化すると,
(15)
なる新しい確率変数を得る.
確率変数の標準化(15)に伴って,確率密度関数の引数も
(16)
と変数変換する.変数変換(16)に伴う,式(14)の積分区間の対応は,
(17)
(18)
を得る.ただし,4行目で,式(16)より得られる
(19)
(20)
を用いた.
(21)
を得る.
(22)
を得る.□
注:
なお,式(19)は,標準正規乱数の生成,およびそこからの任意のに従う正規乱数の生成を与える,ボックスミュラー法(Box-Muller method)にも関連する.
標準化(standardizing)と正規化・規格化(normalization)との違い
本稿で紹介した標準化(standardizing)と,ベクトルなどで定義される正規化あるいは規格化(normalization)とは,区別されるべきかもしれない.式(1)を正規化(normalization)と呼ぶ向きもあるようだが(英語版Wikipedia:Normalization (statistics) の項など),その場合,式(10)をPDFとして持つ分布をnormalized-normal distribution(正規化正規分布)と呼ぶ羽目になる.この不格好を避けたい,というのは,些末かもしれないが分かりやすい理由ではある.
ベクトルの正規化と,計算の内実がだいぶ違う点も考慮すべきだろう.ベクトルの正規化とは,をそれ自身のノルムで除すことにより,向きが同じ単位ベクトルをつくる操作
(23)
である.
これに対して,確率変数の標準化には,確率変数の(例えばその最大値の)大きさを1とするわけではない.標準正規分布の確率変数が取りえる値の範囲は,相変わらずである.確率変数の標準化がもたらすものは,分散(と標準偏差)を1とすることである(なお,様々な単位・様々な大きさで変動する実データを統計的に処理する際,分散を1とすることでデータを統整する標準化は,統計的検定の数理的基礎としても重要である).
こんにちは。私は、学生でも研究者でもない、数学に興味があって勉強している社会人です。
変数変換によって標準正規分布の確率密度関数を導出する計算が理解できず、解説している方はいないかと探していたところこちらのサイトを見つけました。
式(18)の4行目の係数1/√2πの部分でσが消えていますが、4行目まではσは残っていて、5行目で消えるのではないかと思ったのですが、間違いでしょうか?
ド素人の見当違いの質問であれば申し訳ありません。無視してください。
Msahiro Okawa 様
おっしゃる通り,σ が消えておりました.
(サイト内部で \sigma が \igma などとなって非表示でした・・・トホホ( ;∀;))
ご丁寧にご指摘いただき,ありがとうございます!