経験分布関数とは何か：定義・求め方・エクセルのグラフ【統計学】

未知の確率分布に従って生成されたn個のデータ（標本）を用いて，この未知の確率分布の累積分布関数を推定したものが経験分布関数です．ヒストグラムは，その形状がデータをカウントする区間の幅（級間隔）の決め方に依存しますが，経験分布関数では，与えられたデータに対してグラフを一意に描くことができます．

【スマホでの数式表示について】

当サイトをスマートフォンなど画面幅が狭いデバイスで閲覧すると，数式が画面幅に収まりきらず，正確に表示されない場合があります．その際は画面を回転させ横長表示にするか，ブラウザの表示設定を「PCサイト」にした上でご利用ください．

経験分布関数の定義

定義：経験分布関数(empirical distribution function)

ある母集団 $M$

が累積分布関数 $F(x)$

に従っているとし，この母集団 $M$

から抽出された $n$

個の標本を

(1) $\begin{equation*} x_1,...,x_i...,x_n \end{equation*}$

とする．このとき，

(2) $\begin{equation*} \hat F_n(x):= \frac 1n \sum_{i=1}^{n} {\bf 1}_{x_i \le x} \end{equation*}$

で定義される関数 $\hat F_n(x)$ を，経験分布関数(empirical distribution function)という．ただし， ${\bf 1}_{A}$ は指示関数(indicator function)

(3) $\begin{equation*} {\bf 1}_{A} = \left\{ \begin{array}{cc} 1 & (A \text{ is trure}) \\ 0 & (A \text{ is false}) \end{array} \right \end{equation*}$

である．□

標本と順序統計量

本節では，経験分布関数のグラフを描く準備として，標本と順序統計量の概念を簡単に紹介する．

標本

ある母集団(population) $M$ の分布が，確率分布 $F$ で記述されるものとする．

推計統計学(inferential statistics)において，この母集団 $M$ に対する標本(sample)は，確率分布 $F$ に従う確率変数 $X$ で表される．さらに， $n$ 個の標本は， $F$ の独立同一分布(iid; independent and identically distributed)に従う $n$ 個の実確率変数

(4) $\begin{equation*} X_1,...,X_i,...,X_n \end{equation*}$

で表される．また，実際の標本化(sampling; 抽出)で得られる $n$ 個の数値データ

(5) $\begin{equation*} x_1,...,x_i,...,x_n \end{equation*}$

は，それぞれが確率変数(4)の実現値とみなされる．確率変数(4)とその実現値(5)は，ともに母集団 $M$ の標本と呼ばれる．

順序統計量

$n$ 個の標本(5)

$\begin{equation*} x_1,...,x_i...,x_n \end{equation*}$

を昇順（小さい順）に並べ直したものを，添え字にカッコをつけて

(6) $\begin{equation*} x_{(1)},...,x_{(k)},...,x_{(n)} \end{equation*}$

と表すことにする．また， $k$ 番目に小さいデータ $x_{(k)}$ を表す確率変数として $X_{(k)}$ を用い，標本(4)を（実現値の大小が得られているとして仮想的に）昇順に並べ直したものを

(7) $\begin{equation*} X_{(1)},...,X_{(k)},...,X_{(n)} \end{equation*}$

と書くことにする．

このとき，データの組(6)あるいは確率変数の組(7)を，標本(5)あるいは(4)の順序統計量(order statistic)という．また，その順序統計量の $k$ 番目 $x_{(k)}$ あるいは $X_{(k)}$ を，第 $k$ 順序統計量( $k$ th order statistic)という．

上の定義より，一般に順序統計量は

(8) $\begin{eqnarray*} x_{(k)} &\le& x_{(k+1)}\; , \\ X_{(k)} &\le& X_{(k+1)}\; , \quad \text{where } \;^{\forall}k \in \{1,...,n-1 \} \end{eqnarray*}$

によって特徴づけられる．

経験分布関数のグラフ

経験分布関数の定義式(2)は，順序統計量を用いることにより，グラフを描画しやすい形式に書き直すことができる．また，経験分布関数は順序統計量と１対１対応の関係にある．

前節で， $n$ 個の標本(5)

$\begin{equation*} x_1,...,x_i...,x_n \end{equation*}$

と，その順序統計量(6)

$\begin{eqnarray*} x_{(1)},\quad ..., \; & x_{(k)},& \; ..., \quad x_{(n)} \\ && \\ \left( \; x_{(1)}\; \le ...\le \right & x_{(k)}& \left \le ...\le \; x_{(n)} \; \right) \end{eqnarray*}$

を導入した．この順序統計量を用いると，経験分布関数(2)は，以下のように表すことができる：

(9) $\begin{eqnarray*} \hat F_n(x)&= & \left\{ \begin{array}{ll} 0 & \quad (x< x_{(1)}) \\ &\\ k/n & \quad (x_{(k)}\le x < x_{(k+1)}, \; k=1,...,n-1) \\ &\\ n/n=1 & \quad (x_{(n)}\le x) \end{array} \right \\ \end{eqnarray*}$

経験分布関数の定義式(2)から式(9)を求める方法は，次節で述べる．

経験分布関数(2)を式(9)に変形することよって，経験分布関数のグラフを下図のように描くことができる：

順序統計量を用いた経験分布関数の求め方

経験分布関数の定義式(2)から，順序統計量を用いた経験分布関数の定式(9)を求めよう．

さて， $x$ の値によって，経験分布関数の定義式(2)がどのような値をとるか場合分けしよう．すなわち，

(i) $x < x_{(1)}$ のとき
(ii) $x_{(k)}\le x < x_{(k+1)}, \; (k=1,...,n-1)$ のとき
(iii) $x_{(n)}\le x$ のとき

の３つの場合について考える．

(i) $x < x_{(1)}$ のとき
$x_{(1)}={\rm min}(x_1,...,x_n)$ なので， $x < x_{(1)}$ のとき，すべての $i\in \{1,...,n\}$ に対して $x < x_i$ が成り立つ．すなわち，指示関数 ${\bf 1}_{x_i \le x}$ の値は

(10) $\begin{equation*} {\bf 1}_{x_i \le x} = 0 \quad \left(\; ^{\forall}i\in \{1,...,n\} \;\right) \end{equation*}$

である．したがって

(11) $\begin{equation*} \sum_{i=1}^{n} {\bf 1}_{x_i \le x}=0 \end{equation*}$

を得る．式(13)を，経験分布関数の定義式(2)に代入すると，

(12) $\begin{equation*} \hat F_n(x)=0 \end{equation*}$

となる．

(ii) $x_{(k)}\le x < x_{(k+1)} \; (k=1,...,n-1)$ のとき
ある $k\in \{1,...,n-1 \}$ をひとつ選んで， $x$ を $x_{(k)}\le x < x_{(k+1)}$ に固定したとする．すなわち

(13) $\begin{equation*} x_{(1)},...,x_{(k)}\le x < x_{(k+1)},...,x_{(n)} \end{equation*}$

である．指示関数で書けば，これは

(14) $\begin{equation*} {\bf 1}_{x_{(j)}\le x} = \left\{ \begin{array}{cl} 1 & (j=1,...,k) \\ 0 & (j=k+1,...,n) \end{array} \right \end{equation*}$

である． $n$ 個の標本 $\left\{ x_1,...,x_n \right\}$ の中で $x$ 以下の値を持つデータ（インスタンス）は $k$ 個あるから，指示関数 ${\bf 1}_{x_i \le x}$ の $i=1,2,...,n$ についての和を取ると，

(15) $\begin{equation*} \sum_{i=1}^{n} {\bf 1}_{x_i \le x} = \sum_{j=1}^{n} {\bf 1}_{x_{(j)} \le x} = \sum_{j=1}^{k} 1 + \sum_{j=k+1}^{n} 0 = k \end{equation*}$

となる．式(15)を，経験分布関数の定義式(2)に代入すると，

(16) $\begin{equation*} \hat F_n(x)=\frac kn \end{equation*}$

を得る．

(iii) $x_{(n)}\le x$ のとき
$x_{(n)}={\rm max}(x_1,...,x_n)$ なので， $x_{(n)}\le x$ のとき，すべての $i\in \{1,...,n\}$ に対して $x_i \le x$ が成り立つ．すなわち，指示関数 ${\bf 1}_{x_i \le x}$ の値は