多次元の説明変数と1次元の被説明変数との間に線形関係があると仮定し,そのパラメータの値を推定することを,線形重回帰分析といいます.本稿では最小二乗法に基づく線形重回帰分析の計算法を詳述します.
【スマホでの数式表示について】
重回帰分析とは何か
単回帰分析について思い出しておこう.線形単回帰分析(simple linear regression analysis)とは,ひとつの説明変数とひとつの被説明変数の間に
(1)
なる関係が存在すると仮定したとき,これらの変数に関するデータセット
(2)
を用いて,パラメータの推定値(estimate) を求めるというものであった.
これに対して,説明変数を多次元の変数に拡張し,これらと被説明変数との間に線形関係
(3)
があると仮定し,そのパラメータの値を推定することを,線形重回帰分析(multiple linear regression analysis)という.
線形重回帰モデル
説明変数と被説明変数の間に,式(3),すなわち
(4)
(5)
(6)
であるとする.はとの相関係数であり,また
(7)
はクロネッカーデルタである.なお,これら2つの条件式(5),(6)は,それぞれ
を意味している.このとき(3)式は,説明変数と被説明変数の関係を記述するモデルであり,これは線形重回帰モデル(multiple linear regression model)と呼ばれる.また,パラメータと説明変数をそれぞれ
(8)
のようにベクトルで書くことにより,(4)式は
(9)
と表すこともできる.ただし,はの転置ベクトルである.
線形予測子
線形重回帰モデル(9)は,被説明変数の値が,
- 説明変数の線形結合によって記述される決定論的(deterministic)な要因
- によって記述される確率論的(probabilistic)な要因
という2種類の要因の和として理解される,ということを意味する.
線形重回帰モデル(9)において,当初,パラメータの値は具体的には与えられていない.その後,特定の現象を説明するためのパラメータの値が,何らかの方法で得られたとしよう.これをと書くことにする.パラメータの値がによって具体的に決まったとすると,説明変数の値が与えられた際,それに対応する被説明変数の値を予測する(predict)ことができる.の値を予測するためには,偶然に決まる確率的要因を考慮する必要はなく,説明変数から必然的に決まる決定論的要因のみ考慮すればよい.
(10)
のように書くことができる.つまり,パラメータの値がとして決まっていれば,(10)式の説明変数に数値を代入することにより,被説明変数の数値を予測できることを意味する.このことから,(10)式は線形予測子(linear predictor)と呼ばれる.
線形重回帰モデルへの観測データの代入
さて,説明変数と被説明変数についての観測データ(具体的な数値)が,下の表(Table 1)のように得られたとしよう.エクセルシートやデータベース上のテーブルをイメージするとよい.
線形重回帰モデル(4)式あるいは(9)式において,最初の時点ではそのパラメータの値は未知であって,Table 1 のデータセットをよく説明するようなパラメータの値を推定することが,ここで行うべきことである.ただし,データの組の数は,未知パラメータの数よりも十分大きい ()とする.
線形重回帰モデルがTable 1 に示される説明変数と被説明変数の間の関係を記述するのに適切だということは,Table 1 のデータを(9)式に代入したとき,(9)式の等式が成り立つことを意味する.(9)式にTable 1 で与えられる組のデータを代入することにより,以下のような個の式
(11)
を得る.また,(11)式の変数およびパラメータは,ベクトルや行列を用いて以下のように表記することができる:
(12)
(13)
なお,拡大行列は,値1が並ぶ2列目(すなわちの1列目)を除いて,Table 1 に他ならない.これらの表記を用いれば,(11)式は
(14)
(15)
のように書くことができる.結局,線形重回帰モデル(9)式に観測データセットを代入することで
(25)式が得られる.
線形重回帰パラメータの最小二乗推定
観測データを代入された線形重回帰モデル(25)式において,ベクトルおよびベクトルの値は未知である.我々の目的はパラメータの値を決めることであるが,観測データやモデル(9)だけからこれを決定することはできない.そこで,
線形予測子(10)によって得られる被説明変数の予測値と実際の観測で得られている被説明変数の値の差ができるだけ小さくなるようにパラメータの値を選ぶ
という方針を立て,これによって線形重回帰モデルのパラメータの値を決定することにする.これを実現するための手法として最小二乗法(least squares method)がある.
まず,被説明変数の予測値とその実際の観測値の差は残差(residual)と呼ばれ,
(16)
で定義される.また,観測データ全体で残差の絶対値を小さくするために残差平方和(residual sum of square; RSS)
(17)
(18)
を考慮すれば,はの関数であることが分かる.さらに,は各の2次関数となり,その係数はの係数が,なるの係数がであることから,特には各に関する下に凸の2次関数となることが分かる.すなわち,の極値条件
(19)
に基づいて端点を求めれば,それが残差平方和を極小化するようなの値である.(19)式左辺の計算は,微分演算子
(20)
および線形予測子(18)に注意しながら,の添字についてのときとのときとで場合分けをすればよい.
[のとき]
(21)
(22)
を得る.
[のとき]
(23)
(24)
を得る.
(22)式および(24)式より,求めるパラメータの値は,次の元1次連立方程式を解くことにより得られる:
(25)
変数のベクトル・行列表記(12)および(13)を用いれば,連立方程式(25)は
(26)
(27)
は対称行列である.
(26)式の両辺に左からを掛ければ
(28)
これにより,パラメータの最小二乗推定値が
(29)
のように求まる.
関連書籍
杉山高一,杉浦成昭,国友直人,藤越康祝 (編) 『統計データ科学事典』朝倉書店,2007.
小西貞則『多変量解析入門―線形から非線形へ―』岩波書店,2010.
杉山高一,藤越康祝,小椋透『多変量データ解析』朝倉書店,2014.
Remark: 残差について
統計学における一般的な術語の用法としては,統計的誤差(statistical error)または揺らぎ(disturbance)とは,ある観測量とその期待値との差のことであり,残差(residual)とは直接観測できない統計的誤差の推定値のことである.ここでは,重回帰モデルにおける揺らぎは直接観測できない量であり,残差が揺らぎの推定値ということになる.
コメントを残す