確率論と統計学の表記法と意味

確率論と統計学は深く関係していると同時に,全く異なる方法論でもあります.関係性の深さゆえに「確率・統計」と併記されることも少なくありませんが,確率論と統計学はそれぞれ別の体系であるという視点も重要です.例えば,確率論における「標本空間」や「標本点」と統計学における「標本」の違い,確率論における「期待値」や「平均」と統計学における「標本平均」の違いがそれです.

確率論で定義される「確率変数」は,他分野の「乱数」や「変量」に似たような内容が含まれていますが,それらとは区別されます.

統計学における「推定量」と「推定値」の違いなども,注意深い使い分けが必要です.似たような術語(technical term)が異なる対象を表すことも多いため,術語の定義(definition)や記号表記の仕方,使い分け方などを確認し,混乱を避けながら学習を進める必要があります.

【スマホでの数式表示について】

当サイトをスマートフォンなど画面幅が狭いデバイスで閲覧すると,数式が画面幅に収まりきらず,正確に表示されない場合があります.その際は画面を回転させ横長表示にするか,ブラウザの表示設定を「PCサイト」にした上でご利用ください.

確率変数,乱数,変量の定義

確率変数(random variable)

確率変数の定義

確率変数(random variable)は,確率論(probability theory)や統計学(Statistics)で用いられる術語であり,確率論において次のように定義される.

定義(確率変数)
(\Omega,\mathcal{F},P)を確率空間(probability space)とする.\Omega上の実数値関数X:\Omega \to \mathbb{R}\mathcal{F}-可測(\mathcal{F}-measurable)である,すなわち

(1)   \begin{equation*} \left\{ X \le x \right\} = \left\{ \omega \in \Omega | X(\omega) \le x \right\}\in \mathcal{F} \quad \text{for all}\; x\in \mathbb{R} \end{equation*}

であるとき,X(\Omega,\mathcal{F},P)上の実確率変数(real random variable)であるという.

連続確率変数と離散確率変数

X(\omega)の取りうる値が連続値であるとき,Xは連続確率変数(continuous random variable)といい,X(\omega)の取りうる値が離散値であるとき,Xは連続確率変数(discrete random variable)という.

(例)

  • ダーツにおいて,的の中心から矢の位置までの距離Xを確率変数でモデル化したとき,Xは連続確率変数である.
  • サイコロを振って出る目Xを確率変数でモデル化すると,Xは離散確率変数である.

乱数(random number)

乱数(random number)は,実質的には確率変数と同じようなものだが,確率論や統計学の術語ではなく,物理学(physics)や計算機科学(computer science)で用いられる術語である.したがって,確率変数のように,数学的に厳密な定義を与えられているわけではない.

乱数は,その都度ランダムに値が決まる数(変数)で,事前に得られている数列x_1,x_2,...,x_nから,次に得られる数x_{n+1}が予測できないようなもののことである.

コンピュータで発生させる乱数は,乱数のように見えるが,特定のアルゴリズムを用いて生成されることから,原理的に予測できない「真の乱数」とはいえない.このことから,コンピュータで発生させるような乱数は疑似乱数(pseudo random numbers)とも呼ばれる.

変量(variate)

変量(variate)も,確率論における術語ではなく,統計学の応用分野(医学や経済学など)や,多変量解析(maluti-variate analysis)で用いられる.

変量という術語は,それが「ランダムに決まるのか決定論的に決まるのか」「確率変数でモデル化できるか否か」「特定のデータセットを指すのか一般的な変数を指すのか」などを曖昧にしたまま,包括的に取り扱われることが多い.

確率論の術語と表記法

確率変数

確率論において「確率変数Xの実現値がある値a以下である確率はpである」を式で表すには,

(2)   \begin{equation*} \Pr(X \le a) = p \end{equation*}

のように書く.このXが累積分布関数F_Xに従う連続確率変数であるとすると,F_Xと(2)式の間には

(3)   \begin{equation*} \Pr(X \le a) = p = F_X(x) \end{equation*}

の関係がある.さらに,F_Xと確率密度関数f_Xの間には

(4)   \begin{equation*} f_X(x)= \frac{dF_X(x)}{dx} \end{equation*}

の関係がある.

パラメータ\lambdaの指数分布の場合,その累積分布関数と確率密度関数は

(5)   \begin{equation*} F_X(x)=1-e^{-\lambda x}, \quad f_X(x)=\lambda e^{-\lambda x} \end{equation*}

である.

期待値・平均

確率論において,Xを分布関数F_Xに従う連続確率変数であるとし,その確率密度関数をf_XXの値が取り得る範囲をSとする(すなわちS:={\rm supp}(f_X))とXの期待値または平均E[X]

(6)   \begin{equation*} E[X] := \int_S x f_X(x) dx \end{equation*}

によって定義される.

統計学の術語と表記法

母平均

母集団が持つ平均は母平均といい,これを\muで表すことにする.この\muのような母集団のパラメータの値を,標本から推し量ることを推定という.\bar X_n\muの推定量であり,\bar x_n\muの推定値である.

標本

推計統計学(inferential statistics)および数理統計学(mathematical statistics)において,ある母集団から抽出したn個の標本を,X_1,X_2,..X_nのように大文字で表記する場合と,x_1,x_2,..x_nのように小文字で表記する場合とでは,その意味が異なる.

大文字で書いたX_iは母集団の分布に従う確率変数であり,小文字で書いたx_iX_iの実現値を意味する.

しばしば,X_1,X_2,..X_nについて,それぞれが独立で同一な分布に従うことを仮定する.このような確率変数はi.i.d.確率変数とよばれる.

統計量と標本平均

標本X_1,X_2,..X_nまたはx_1,x_2,..x_nの相加平均を標本平均といい,それぞれ\bar X_nおよび\bar x_nによって表記される.\bar X_nもまたひとつの確率変数であり,\bar x_n\bar X_nの実現値とみなされる.

標本X_1,X_2,..X_nを引数としてとるような関数T(X_1,X_2,..X_n)は一般に統計量とよばれる.\bar X_nはそのような関数であるから,\bar X_nは統計量の一種である.

推計統計学において,ある母集団の母平均が\muであるとし,その標本を確率変数X_1,X_2,..X_nで表したとする.このとき,標本平均\bar X_n

(7)   \begin{equation*} \bar X_n := \frac{1}{n} \sum_{i=1}^{n}X_i \end{equation*}

によって定義され,\hat \mu := \bar X_n\muの推定量と呼ばれる.

推計統計学において,ある母集団の母平均が\muであるとし,その標本としてn個の数(データ)x_1,x_2,..x_nが得られたとする.このとき,標本平均\bar x

(8)   \begin{equation*} \bar x_n := \frac{1}{n} \sum_{i=1}^{n}x_i \end{equation*}

によって定義され,\hat \mu := \bar x_n\muの推定値と呼ばれる.

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です