確率論と統計学の表記法と意味

確率論と統計学は深く関係していると同時に，全く異なる方法論でもあります．関係性の深さゆえに「確率・統計」と併記されることも少なくありませんが，確率論と統計学はそれぞれ別の体系であるという視点も重要です．例えば，確率論における「標本空間」や「標本点」と統計学における「標本」の違い，確率論における「期待値」や「平均」と統計学における「標本平均」の違いがそれです．

確率論で定義される「確率変数」は，他分野の「乱数」や「変量」に似たような内容が含まれていますが，それらとは区別されます．

統計学における「推定量」と「推定値」の違いなども，注意深い使い分けが必要です．似たような術語(technical term)が異なる対象を表すことも多いため，術語の定義(definition)や記号表記の仕方，使い分け方などを確認し，混乱を避けながら学習を進める必要があります．

【スマホでの数式表示について】

当サイトをスマートフォンなど画面幅が狭いデバイスで閲覧すると，数式が画面幅に収まりきらず，正確に表示されない場合があります．その際は画面を回転させ横長表示にするか，ブラウザの表示設定を「PCサイト」にした上でご利用ください．

確率変数，乱数，変量の定義

確率変数(random variable)

確率変数の定義

確率変数(random variable)は，確率論(probability theory)や統計学(Statistics)で用いられる術語であり，確率論において次のように定義される．

定義（確率変数）

$(\Omega,\mathcal{F},P)$

を確率空間(probability space)とする． $\Omega$

上の実数値関数 $X:\Omega \to \mathbb{R}$

が $\mathcal{F}-$

可測( $\mathcal{F}-$

measurable)である，すなわち

(1) $\begin{equation*} \left\{ X \le x \right\} = \left\{ \omega \in \Omega | X(\omega) \le x \right\}\in \mathcal{F} \quad \text{for all}\; x\in \mathbb{R} \end{equation*}$

であるとき， $X$ は $(\Omega,\mathcal{F},P)$ 上の実確率変数(real random variable)であるという．

連続確率変数と離散確率変数

$X(\omega)$ の取りうる値が連続値であるとき， $X$ は連続確率変数(continuous random variable)といい， $X(\omega)$ の取りうる値が離散値であるとき， $X$ は連続確率変数(discrete random variable)という．

（例）

ダーツにおいて，的の中心から矢の位置までの距離 $X$ を確率変数でモデル化したとき， $X$ は連続確率変数である．
サイコロを振って出る目 $X$ を確率変数でモデル化すると， $X$ は離散確率変数である．

乱数(random number)

乱数(random number)は，実質的には確率変数と同じようなものだが，確率論や統計学の術語ではなく，物理学(physics)や計算機科学(computer science)で用いられる術語である．したがって，確率変数のように，数学的に厳密な定義を与えられているわけではない．

乱数は，その都度ランダムに値が決まる数（変数）で，事前に得られている数列 $x_1,x_2,...,x_n$ から，次に得られる数 $x_{n+1}$ が予測できないようなもののことである．

コンピュータで発生させる乱数は，乱数のように見えるが，特定のアルゴリズムを用いて生成されることから，原理的に予測できない「真の乱数」とはいえない．このことから，コンピュータで発生させるような乱数は疑似乱数(pseudo random numbers)とも呼ばれる．

変量(variate)

変量(variate)も，確率論における術語ではなく，統計学の応用分野（医学や経済学など）や，多変量解析(maluti-variate analysis)で用いられる．

変量という術語は，それが「ランダムに決まるのか決定論的に決まるのか」「確率変数でモデル化できるか否か」「特定のデータセットを指すのか一般的な変数を指すのか」などを曖昧にしたまま，包括的に取り扱われることが多い．

確率論の術語と表記法

確率変数

確率論において「確率変数 $X$ の実現値がある値 $a$ 以下である確率は $p$ である」を式で表すには，

(2) $\begin{equation*} \Pr(X \le a) = p \end{equation*}$

のように書く．この $X$ が累積分布関数 $F_X$ に従う連続確率変数であるとすると， $F_X$ と(2)式の間には

(3) $\begin{equation*} \Pr(X \le a) = p = F_X(x) \end{equation*}$

の関係がある．さらに， $F_X$ と確率密度関数 $f_X$ の間には

(4) $\begin{equation*} f_X(x)= \frac{dF_X(x)}{dx} \end{equation*}$

の関係がある．

パラメータ $\lambda$ の指数分布の場合，その累積分布関数と確率密度関数は

(5) $\begin{equation*} F_X(x)=1-e^{-\lambda x}, \quad f_X(x)=\lambda e^{-\lambda x} \end{equation*}$

である．

期待値・平均

確率論において， $X$ を分布関数 $F_X$ に従う連続確率変数であるとし，その確率密度関数を $f_X$ ， $X$ の値が取り得る範囲を $S$ とする（すなわち $S:={\rm supp}(f_X$ )）と $X$ の期待値または平均 $E[X]$ は

(6) $\begin{equation*} E[X] := \int_S x f_X(x) dx \end{equation*}$

によって定義される．

統計学の術語と表記法

母平均

母集団が持つ平均は母平均といい，これを $\mu$ で表すことにする．この $\mu$ のような母集団のパラメータの値を，標本から推し量ることを推定という． $\bar X_n$ は $\mu$ の推定量であり， $\bar x_n$ は $\mu$ の推定値である．

標本

推計統計学(inferential statistics)および数理統計学(mathematical statistics)において，ある母集団から抽出した $n$ 個の標本を， $X_1,X_2,..X_n$ のように大文字で表記する場合と， $x_1,x_2,..x_n$ のように小文字で表記する場合とでは，その意味が異なる．

大文字で書いた $X_i$ は母集団の分布に従う確率変数であり，小文字で書いた $x_i$ は $X_i$ の実現値を意味する．

しばしば， $X_1,X_2,..X_n$ について，それぞれが独立で同一な分布に従うことを仮定する．このような確率変数はi.i.d.確率変数とよばれる．

統計量と標本平均

標本 $X_1,X_2,..X_n$ または $x_1,x_2,..x_n$ の相加平均を標本平均といい，それぞれ $\bar X_n$ および $\bar x_n$ によって表記される． $\bar X_n$ もまたひとつの確率変数であり， $\bar x_n$ は $\bar X_n$ の実現値とみなされる．

標本 $X_1,X_2,..X_n$ を引数としてとるような関数 $T(X_1,X_2,..X_n)$ は一般に統計量とよばれる． $\bar X_n$ はそのような関数であるから， $\bar X_n$ は統計量の一種である．