回帰分析の意味と計算

【この記事の概要】

【スマホでの数式表示について】

当サイトをスマートフォンなど画面幅が狭いデバイスで閲覧すると,数式が画面幅に収まりきらず,正確に表示されない場合があります.その際は画面を回転させ横長表示にするか,ブラウザの表示設定を「PCサイト」にした上でご利用ください.

回帰分析とは

回帰分析(regression analysis)とは,現象のデータとそのモデルとなる関数(族)が与えられたとき,所与のデータを最もよく説明するような関数のパラメータの値を決定(推定)する手法の総称である.

回帰分析は,多変量解析(multivariate analysis)という分野の代表的な手法のひとつであり,多変量解析や,その発展分野である機械学習(machine learning)・人工知能(artificial intelligence)などの諸手法を学ぶ上でも,極めて重要である.

回帰分析の種類

回帰分析は,モデルが線形関数(1次関数)であるか非線形関数(多項式,指数関数など)であるかによって,線形回帰(linear regression)と非線形回帰(nonlinear regression)に大別される.

さらに,線形回帰は,決定すべきパラメータの次元に応じて,線形単回帰(simple linear regression)と線形重回帰(multiple linear regression)に分けられる.

線形回帰は,回帰分析の中で最も単純なものであるが,線形回帰を十分よく理解することによって,回帰分析全般(さらには多変量解析全般)に通じる,重要な基本構造を学ぶことができる.

回帰分析の見取図[PDFダウンロード]

回帰モデルと回帰分析

回帰モデル

自然現象や社会現象などの観測対象に対して,この対象を特徴づける p 個の変量(variates) の組 {\bf X}=(X_1,...,X_p)と変量 Y があり,それらの変量の組 ({\bf X},Y) に関するデータセット

(1)   \begin{equation*} \left\{ \left( {\bf x}_i,y_i \right) | \; i=1,2,...,n \right\} := \left\{ \left( x_{i1},...,x_{ip} ,y_i \right) | \; i=1,2,...,n \right\} \end{equation*}

が得られているものとする(※注1).また,これらの変量の間に,p 個のパラメータの組 {\bf a}=(a_1,...,a_p) を含む {\bf X} の関数 u と,何らかの確率分布に従うノイズ \varepsilon を用いて,

(2)   \begin{equation*} Y = u({\bf X}; {\bf a}) + \varepsilon  \end{equation*}

のように書かれる関係が存在するものと仮定する.

一般に,現象の観測から得られた統計データが,その現象の背後に存在する数学的構造の下で生成された,と仮定するとき,その数学的構造を現象の 統計モデル(statistical model)という.特に,現象が式(2)によってモデル化(modeling)されるとき,式(2)を 回帰モデル(regression model)という.回帰モデルはよく知られた統計モデルの一種である.

(※注1)確率論において,確率変数は X,Y など大文字で表し,その実現値は x,y など小文字で表す.演繹的体系である確率論では,確率変数が指定されるときには,その確率変数が従う確率分布が同時に指定されている.これに対して,帰納的方法論である統計学では,変量とは「観測項目」のことであり,それを確率変数とみなすべきか否かは自明ではなく,変量の扱われ方は多様である.推計統計学や数理統計学において,変量は,ある未知の確率分布に従う確率変数と同一視され,変量に関する観測値(具体的な数値データ)から,その確率分布(を特定するパラメータ)が推定される.記述統計学や多変量解析における変量は,その変量が従う確率分布をアプリオリに一意に指定できるわけではないという意味で,確率論における確率変数概念とは異なる.

確率論における「変数」(確率変数とその実現値)および統計学における「変数」(変量とその観測データ)において共通するのは,それらの「変数」概念を記述する際には,3つの記述レベルを用意する必要がある,ということである. 

X,Y,…
x,y,…
2.54,3.81,…

回帰分析

現象の観察から回帰モデルを構築(仮定)した段階では,その中に含まれるパラメータ {\bf a}=(a_1,...,a_p) の値は未知(すなわち u({\bf x}; {\bf a}) は関数族)である.回帰モデル(2)をその現象の予測や制御に用いるためには,すでに得られているデータ(1)を最もよく説明するようなパラメータ {\bf a}=(a_1,...,a_p) の具体的な値を 推定(estimate)する必要がある.

回帰分析(regression analysis)とは,(1)現象の観測から回帰モデルを構築(仮定)し,(2)回帰モデルのパラメータの推定値(estimates) {\bf \hat a}=(\hat a_1,..., \hat a_p) を求める,一連の手続きのことであり,また狭義には回帰モデルのパラメータ推定((2)の手続き)を意味する.

線形回帰

回帰モデル(2)における関数 u({\bf X}; {\bf a})\bf X に関する線形関数であるとき,すなわち

(3)   \begin{equation*} Y = {\bf X} \cdot {\bf a} + \varepsilon  \end{equation*}

であるとき,式(3)を線形回帰モデルという.

線形単回帰分析(simple linear regression analysis)とは,ある変量(variate)Xと別の変量Yの間に

(4)   \begin{equation*} Y = aX + b + \varepsilon \quad \left(\varepsilon \sim {\rm Norm}(0,\sigma^2) \right) \end{equation*}

なる関係が存在すると仮定したとき,これらの変量の組(X,Y)に関するデータセット

(5)   \begin{equation*} \{(x_i,y_i)|\; i=1,2,...,n \} \end{equation*}

を用いて,パラメータa,bの推定値(estimate) \hat a , \hat bを求めるというものである.

これに対して,説明変数xを多次元の変数x_1,x_2,...,x_pに拡張し,これらと被説明変数yとの間に線形関係

(6)   \begin{equation*} y = a_0 + a_1 x_1 + \cdots + a_j x_j + \cdots + a_p x_p + \varepsilon \quad \left(\varepsilon \sim {\rm Norm}(0,\sigma^2) \right) \end{equation*}

があると仮定し,そのパラメータa_0,a_1,...,a_pの値を推定することを,線形重回帰分析(multiple linear regression analysis)という.

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です