ISLR: Chapter 3 Linear Regression
ISLRを読み進めているのだが,量が多く,忘れてしまいそうなので内容をメモしておく.なお,式は大体そういうものとして突然出てくるが,理論的な背景を知りたいならカステラ本を読めとのこと.本書はあくまで手法を使うにあたって必要な最低限の知識のみにフォーカスしている.
3.1 Simple Linear Regression
説明変数で目的変数を予測することを考える.この時,との線形関係は下式で表せる. で,訓練データを使ってパラメタを求める.得られたの推定値をとすると,これらを用いての推定値は と書くことができる.
3.1.1 Estimating the Coefficients
いい感じのパラメタはどのように求めるのだろうか?実際の観測値と予測値との差が小さければ,いい感じに予測できてると言えそう.そこで,次式で表される残差平方和(Residual Sum of Square, )を最小化したい. で,式を最小化するようなパラメタの推定値 は下式で与えられる.
ここで,つまりは標本平均である.
3.1.2 Assessing the Accuracy of the Coefficient Estimates
式にガウスノイズを加えた を考える.
標本平均は母平均の不偏推定量なので,十分な量のデータを与えて平均を取ればになる.このがどのくらいを推定できているかは,標準誤差(Standard Error, )を求める. ここで は の観測値の標準偏差を表している.また, の標準誤差は,下式で与えられる.
一般に分散は未知なので,推定値を用いる.推定値の誤差は一般に残差標準誤差(Residual Standard Error, )と呼ばれ,下式で与えられる. は説明変数の個数を表しており,現在は1つの説明変数で回帰しているので, となる.
先ほど求めた標準誤差 を用いて信頼区間を求めることができる.例えばの95%信頼区間はで求められる.これは,の真の値が95%の確率で に入ることを意味している.
また,は仮設検定(hypothesis test)にも用いられる. 上式においてはとに関係はないことを表す帰無仮説(null hypothesis)であり,はとには何かしらの関係があることを表す対立仮説(alternative hypothesis)である.式において,もしならば,モデルはとなり,説明変数はと関係がないということになる.帰無仮説を検定するためにはが0から十分に離れている必要があるが,どのくらい離れていれば良いかはに依存する.例えば,もしが小さければの絶対値が小さくても良いが,逆にが大きければの絶対値が十分に大きくなければならない.実際には,がどの程度0から離れているかを示す値を用いる. もしとに関係がないなら,値は自由度の分布に従う.ちなみに,分布はで正規分布にかなり近くなる.の時にある値を観測した際,それが以上の値を取る確率は値と呼ばれる.したがって,値が十分に小さければ,説明変数と目的変数の間には何かの関係があるとみなせる.
3.1.3 Assessing the Accuracy of the Model
帰無仮説を棄却できたら,次はとを用いてどの程度モデルがデータにフィットしているかを評価する.
Residual Standard Error
式の値が3.26だとしたら,平均して3.26単位分ずれているということになる.なので,の値が大きければあまりフィットしていないということになる.
Statistic
は式の欠損を示す指標として有効だが, の単位のみで求められているため,その意味が明確ではない場合もある.そこで,分散が説明されている割合を示すを用いる. はTotal Sum of squaresのことで,のtotal variance(回帰を行う前から が含んでいる分散の総和)を表している.一方,は回帰で説明できていないばらつきを示している.もしが小さければ,原因としてはモデルが間違っているか,内在している誤差(inherent error)が大きいか,もしくはその両方かの3通りが考えられる.
はととの線形関係を表す指標でもある.単回帰なら となるが,はある1つの変数の組についての相関を扱っているだけなので,重回帰においてはピアソン相関係数の2乗をとすることはできない.
3.2 Multiple Linear Regression
重回帰モデルは で表される.説明変数[X_j]の係数は,他の説明変数を固定して を1単位分動かしたときのへの平均的な影響の大きさとして解釈できる.
3.2.1 Estimating the Regression Coefficients
重回帰モデルの予測値 は, で表される.重回帰でも単回帰同様に,式が最小になるように各パラメタを求める.
3.2.2 Some Important Questions
One: Is There a Relationship Between the Response and Predictors?
説明変数の中に少なくとも1つは目的変数の予測に役立つ説明変数が存在するのかどうか知りたい.そこで, この仮説検定には-Statisticを用いる. 真の関数の形が線形モデルであるという仮定が正しければ, になり,また,が正しいのならば, となる.したがって,説明変数と応答変数に関係がないのならばの値は1に近くなる.逆に が正しいのならばとなるので,1よりも大きくなる.
個の説明変数のうち個について検定したい時は, として検定を行う.-Statisticは となる.ここでは個以外の変数についてを計算した値である.が小さい時は個々の値を見て説明変数と目的変数の関連性を主張できるが,が大きい時は,個々の値を見た後に-Statistic を見る必要がある.例えば説明変数が100個の時は,有意水準5%なら,説明変数と目的変数に関連がなかったとしても,各変数について5%の確率で低い値を取る変数が出てくる可能性がある.しかし,-Statisticは説明変数の個数を調整し,個の説明変数を1つの説明変数として計算しているので,もし仮に が採択されるなら,説明変数の個数や観測の量に関係なく,5%の確率でしか0.05を下回る値を取ることがない.
Two: Deciding on Important Variables
どの説明変数が効いているかを確かめたいが,組み合わせは通りあるので,効率的な変数選択の方法が必要.AIC, BIC, 等が使われるが,これらはChapter 6で紹介する.
ここでは簡単に,(1) Forward selection, (2) Backward selection, (3) Mixed selection の3種類を紹介する.
Forward selection まず,切片のみのモデル(null model)を用意する.このモデルに説明変数を1つ加えたp個の回帰モデルを考える.各モデルについて値を計算し,が最小となる変数をnull modelに追加する.これを,終了判定を満たすまで続ける.
Backward selection Forward selectionとは逆に,全ての変数を考慮した回帰モデルから始め,値が最大となる説明変数をモデルから除去する.例えば全ての説明変数の値がある閾値以下になったら終了というような,終了判定を満たすまで続ける.
Mixed selection Forward selectionと同様にnull modelから始め,ある説明変数を追加した結果p値が閾値を超えてしまった場合,その変数を取り除き,次の説明変数を追加する.このforward step, backward stepを,モデル内の全ての説明変数が十分に小さい値を取るまで続ける.
Backward selectionは の時は使えないが,forward selectionは使える.また,forward selectionはgreedyなアプローチなので後々いらなくなる変数を含んでしまう可能性があるが,mixed selectionではいらなくなった変数を取り除くことができる.
Three: Model Fit
との2つが使える.は式で表されるので,説明変数の個数が多いと,が小さくなってもは大きくなる.
Four: Predictions
学習によって得られたモデルはあくまで真のモデル(式 )の近似に過ぎない.パラメタの推定値はmodel bias (reducible error).線形回帰は,真のモデルが線形という仮定が正しいという前提の上に立っており,また,irreducible error も存在するので,真のモデルを特定することはできない.
信頼区間はの真の値が95%の確率で信頼区間に含まれることを意味しているのに対し,予測区間はの予測値が95%の確率で予測区間に含まれることを意味している.
3.3 Other Considerations in the Regression Model
3.3.1 Qualitative Predictors
Predictors with Only Two Levels
性別や人種のような質的データを扱う場合にはダミー変数を導入する.男女ごとのクレジットカードの残高を予測する問題を考える.ならば女性,0ならば男性とすると, において,はが男性の時の残高の平均,は男女によるの違いということになる.
Qualitative Predictors with More than Two Levels
質的データが複数の場合もダミー変数の導入が考えられる.人種ごとのクレジットカードの残高を予測する問題を考え,の場合はAsian,0の場合はnot Asian,また,の場合はCaucasian,0の場合はnot Caucasianとすると, と書ける.この場合,はAfrican Americanのクレジットカードの残高の平均はAsianとAfrican Americanのの平均の違い,はCaucasianとAfrican Americanのの平均の違いということになる.African Americanの場合の式はベースラインと呼ばれる.また,ダミー変数はレベル数(たぶん考慮している質的データのラベル数のこと)-1個作られる. 係数や値はダミー変数の作り方によって変わるので,個々の係数の値を見るよりも,ダミー変数の作り方に依存しない検定でパラメタを評価した方が良い.
3.3.2 Extensions of the Linear Model
線形回帰は現実世界においてはやや無理がある仮定をいくつか置いているが,その中でも特に厳しい仮定が,説明変数と目的変数の間の関係はadditiveかつlinearであるというもの.つまり,ある説明変数 を動かした時の目的変数 の変化量は他の説明変数とは独立しており,かつ, の変化による の変化量は一定であるという2つの仮定には無理がある部分がある.そこで,線形モデルを拡張してこれらの仮定を除外する.
Removing the Additive Assumption
2変数での線形回帰モデルを考える. これに相乗効果を持つような項(interaction term)を加える.つまり, と書け,これを整理して, となる. は が1単位変化した時の の への影響力の貢献度,と解釈できる. 相乗項 の値は小さいが,単一項 の値が大きい場合は,hierarchical principle(調べても出てこなかった)に従って,相乗項を構成している説明変数の単一項をモデルに含めなければならない.理由としては,相乗項は単一項と相関関係にあるため,単一項を除くと,相乗項の意味合いが変わってしまうから.
もちろん質的データに対しても相乗項の考え方を適用できる.
Non-linear Relationships
真の関数が線形でないなら,多項式回帰を考える.詳細はChapter 7で.
3.3.3 Potential Problems
1. Non-linearity of the Data
各点の残差 を予測値 に対してプロットする(Residual Plot).データが非線形に散っていたら非線形っぽい,直線に近ければ線形っぽい,ぐらいの判定.
2. Correlation of Error Terms
線形回帰モデルでは誤差項 が独立だと仮定してる.標準誤差は誤差が独立という仮定の下で定義されてるので,例えば時系列データを扱う場合など,誤差に依存関係がある時は真の標準誤差よりも低く推定しまう.そうすると信頼区間も真の信頼区間よりも狭くなり,結果として,値も低くなる.要するに,より統計的に有意だと判定しやすくなる.
3. Non-constant Variance of Error Terms
線形回帰モデルのもう一つの重要な仮定は,誤差の分散が一定,つまり,.これもResidual Plotを見ればわかる.解決策としては,目的変数を log や にすると,大きな値ほど強く縮約されるので,結果として分散が小さくなる.また,例えば 番目のレスポンスの値が 回の観測の平均値で,かつ,それぞれの観測が とは無関係だったとする.この時,分散の逆数に比例する重み,つまり, で重みをつけた重み付き最小二乗法で学習するといいらしい.
4. Outliers
外れ値は,モデルの予測値から大きく離れた観測値のこと.最小二乗法による学習にはあまり影響はないが,外れ値を含むと が大きくなる.外れ値の確認もResidual Plotで確認できる.単純な解決策は外れ値の除去だが,モデルの欠陥を示している場合もあるので,慎重に判断しなければならない.
5. High Leverage Points
外れ値はに対するの値がおかしかったことを表しているが,High Leverageはの値がおかしいことを表している.High Leverageはleverage statistic で判断できる.単回帰の場合は, で求められ,常にの範囲で値をとる.また,全ての観測値についてのaverage leverageは常にである.もしもがよりあまりにも大きければ,その点はhigh leverageかもしれない.
6. Collinearity
共線性は2つ以上の説明変数がお互いに密接に関連していることを表す.共線性を持つ説明変数が目的変数にどのように関連しているか特定するのは難しい.共線性は回帰係数の推定値の精度を低下させ,を増加させる.結果として,を用いて求める-statisticも減少する.要するに,共線性によって仮設検定の妥当性が減少してしまう.
共線性を特定する最も簡単な方法は説明変数同士の相関行列を作ること.ただ,共線性が複数の説明変数に存在している(多重共線性)時には有効ではない.そこで,分散拡大係数(Variance Inflation Factor, )を考える. を考える.は以外の説明変数でを回帰した時のを表している.の最小値は1で,なら相関なし,なら多少の相関あり, ~ なら強い相関ありと判断できる.
共線性に直面した場合に,簡単な解決策の1つとして,問題を引き起こしている変数を削除する方法が考えられる.また,共線性を持つ説明変数を,例えば標準化して平均を取るなど,何かしらの方法で統合してしまう方法も考えられる.
3.4 The Marketing Plan
3.5 Comparison of Linear Regression with K-nearest Neighbors
線形回帰は真の関数の形を線形だと仮定しているのでパラメトリックな手法である.これに対し,ノンパラメトリックな方法で最もシンプルなkNN回帰を考える.kNN回帰においてある点を入力した際の値を予測したい時は,まずその点についての個の近傍を求める.そして予測値は下式で与えられる.
最適なはバイアス・バリアンスのトレードオフに依存する.は小さければ小さいほど柔軟な関数(low bias)になるが,代わりに分散が大きくなる.一方,が大きければ,より多くの近傍の平均値を予測値とするので,1つの点の影響が小さくなり,結果としてなめらかで分散の小さい関数になる. ノンパラならパラメトリックよりも良いかというそうとも限らない.もし真の関数が線形だった場合はノンパラが線形回帰よりも高い精度を出すのは難しい.つまり,ノンパラには分散がバイアスの減少を相殺しないというリスクがある. そういうわけでkNN回帰が線形回帰よりも必ずしも優れているということはない.例えば説明変数が非常に多ければ次元の呪いで非常に遠くなってしまうかもしれない.一般に,説明変数の数に対して観測が少なければノンパラよりもパラメトリックの方が有効.基本的に,解釈のしやすさという観点からもkNN回帰より線形回帰の方が良さそう.