公式 【決定係数・重相関係数・自由度調整済・・・の公式】 手順 1 . 統計量を求める . ここで必要な統計量 SE=C-ZZI = 匚コ は , 重回帰式や分散分析表の公式のところで , すでに求まっている . 手順 3 . 重相関係数・自由度調整済重相関係数を求める . ( ルーカー 1 ) 2 カ = 説明変量の個数 (N—I)SE ← N = 標本の大きさ 自由度調整済決定係数 = 1 ー 決定係数 2 = 1 ー 手順 2 . 決定係数・自由度調整済決定係数を求める . 重相関係数 = 決定係数 自由度調整済重相関係数 = 自由度調整済決定係数 48 第 2 章重回帰分析をしようーー一重回帰分析の手順
多重共線性 い . 7 説明変量の上手な選び方 重回帰分析では " 説明変量として何を選べばよいか ? " という大問題がある . 予測や制御に役立っことが重回帰分析の目的なのだから , 結果一目的変量ー に影響を与えていると思われる原因 , つまり のが , 説明変量選択の第 1 歩である . 、、説明変量をどんどん選ぶ / ′ " 【多重共線性】 ' こに落し穴がある . ところカ , 結果に影響を与えている原因には , 似たもの同志が多いのである . 似たもの 同志とは , 、、相関係数が 1 に近い説明変量たち " を意味する . 重回帰分析では , 偏回帰係数を求めるときに分散共分散行列の逆行列を計算 しなければならない . ところが相関係数が 1 に近い説明変量が存在すると , 分散共分散行列の逆行列が存在しなかったり , 逆行列が計算できても , 非常に誤差の大きいもの ←「よくわかる になったりして , 信頼性の低い重回帰式が求まることがある . 線型代数』 2 つの説明変量間の相関が高いとき , このように p. 41 " 2 つの説明変量間に多重共線性がある " という . したがって , 多重共線性をさけるためには , 相関行列をながめて相関係数が 1 に近い説明変量が見つかれば , そのどちらかの変量を棄てることにしよう . ヾゝノ / い . 7 説明変量の上手な選び方 29
重相関係数 したがって , 。。 & ー予測値の平方和 実測値の平方和 " 重回帰式のあてはまりが良い " ということになる . そこで , と定義し , 決定係数と呼ぶことにしよう . この例では ー 73.339 4 . 396 = 0 . 9434 77 . 735 77 . 735 この重回帰式は良くあてはまっていると考えられる . なので , 【重相関係数】 重回帰式のあてはまりの良さを示す量として , 重相関係数もある . 重相関係数とは " 実測値と予測値の相関係数 " のことで , が 1 に近い” ほど , ← & = ST ー & ← R-square ともいう ( 共ーの 22 ( ー幻 2 が定義 . この重相関係数は決定係数 R2 と密接な関係にあって , ところで , ( 重相関係数 ) 2 = 決定係数 が成り立つ . よって , 決定係数が求まっているときは , この等式から = 決定係数 = 0.9434 = 0.9713 のように重相関係数を求めることができる . したがって , 重相関係数が 1 に近いほど , 重回帰式のあてはまりが良いこ とになる . ← 0 坙ミ 1 当 1.4 その重回帰式は予測に役立つだろうか
解説 を決定係数と呼び , 2 が 1 に近いほど , 求めた重回帰式は良くあてはまってい るとする . 次に重相関係数については 重相関係数 R = 予測値と実測値共との相関係数 と定義する . よって , が 1 に近いほど , 予測値は実測値に近いことを示して である . 定義は いる . ← 0 ミミ 1 記号をみてもわかるように , 重相関係数と決定係数 2 の間には 重相関係数 = 決定係数 という等号が成り立っことが知られている . ところで , 決定係数や重相関係数の定義には大きな落し穴がある . この欠点をなくするために導入されたのが , という点である . や 2 は単純に増加する " " 役に立たない説明変量を加えても , それは , ( ーカー 1 ) ( ーの 2 自由度調整済重相関係数 自由度調整済決定係数と となる . 2 と 2 の間には , 次の等号が成立している . ← 山場 ルーカー 1 ルーカー 1 2.3 決定係数 , 重相関係数 , 自由度調整済・・・ 47
【決定係数 , 重相関係数 , 自由度調整済・・一一例題】 は , 重回帰式や分散分析表のところで求めている . SE = 4 .377 必要な統計量 手順 1 . 統計量を求めると・・ 2 = 77.735 手順 2 . 決定係数 , 自由度調整済決定係数を求めると・・ 例題 ← p. 43 決定係数 = 1 ー 77 . 735 自由度調整済決定係数 4 . 377 = 0 . 9437 = 1 ー ( 6 ー 1)4.377 ( 6 ー 2 ー D77.735 = 0 .9062 手順 3 . 重相関係数 , 自由度調整済重相関係数を求めると・・ 自由度調整済重相関係数 = = 0 .9714 重相関係数 = 0.9437 = 0 .9519 0 .9062 2.3 決定係数 , 重相関係数 , 自由度調整済・・・ 49
手順 1 . 必要な統計量は 演習 ← p. 45 なのだが , 手順 2 . これらは重回帰式や分散分析表のところですでに求めている . この SE, 2 を使って , 決定係数 , 自由度調整済決定係数を求めよ 決定係数 = 1 ー ( ロー 1 ) ロ 自由度調整済決定係数 2 = 1 ー ( ローロー 1 ) ロ 手順 3 . 重相関係数 , 自由度調整済重相関係数を求めよう . 重相関係数 R = [ ここ ] 自由度調整済重相関係数 = 、 / - 2.3 決定係数 , 重相関係数 , 自由度調整済・・・ 51
←コンピューターによる出力結果を解説しよう . 重回帰分析では , = ケ斯十あ + わ 0 という重回帰式をあっかう . ←は目的変量 [ 結果 ] , XI, X2 は説明変量 [ 原因たち ] コンピューターの出力では , 最初に平均や分散など基礎統計量を求める . ← MATRIX は行列のことで , 相関行列を上三角に分散共分散行列を下三角にま とめたもの . したがって , 必と X 1 の相関係数が 0.9464 で , 共分散が 4.44. X 1 X 2 必 X 1 X 2 分散相関係数相関係数 共分散分散相関係数 共分散共分散分散 相関行列 ← 分散共分散行列 ← ANALYSIS OF VARIANCE とは分散分析のこと . 重回帰の場合 , ← p. 16 仮説 HO : 重回帰式は予測に役立たない の検定をしている . ← F-VALUE はこの検定統計量で , と F ( 0.05 ) ならば , 有意水準住 = 0.05 で仮説は棄てられる . よって , このデータの場合 = 25.025 と F ( 0.05 ) = 9.5521 なので , 仮説 HO は棄てられる . つまり , この重 回帰式は予測に役立っていることがわかる . ( 2 , 3 ) ( 2 , 3 ) 自由度 ( 2 , 3 ) の F 分布 2 = 0.05 棄却域 ん 2 , 3 ) ( 0.05 ) FO = 9.5521 = 25.025 ←決定係数 R-SQUARE は , 重回帰式のあてはまりの良さを示す量のことで , 1 ←重相関係数 = 0.9713 = 決定係数のこと . にあてはまりの良いことがわかる . に近いほどあてはまりが良い . したがって , この決定係数は 0.9434 なので非常 ← p. 12 い . 2 コンピュ ーターの出力を読む 5
自由度調整済決定係数 【自由度調整済決定係数】 ところで , 次のデータを見てみよう . このデータは , 今までのデータに説明変量を 2 個加えたものなのだが・ 表 1.4.3 作為的に加工したデータ 4 〔 0- 1 0 0 0 〔一 69 . 7 69 . 7 71.3 77 . 6 81.0 78.7 100 100 101 100 100 100 表 1.1.1 のデータ 意味のないデタ を加えてみた さっそく , 重回帰分析をしてみよう . コンピューターの出力は R-SQUARE 0 .9744 MULTIPLE CORRELATION 0 . 98 引 ADJUSTED R-SQUARE 0 . 87 幻 のようになる . 表 1.1.1. の決定係数 , 重相関係数と比較してみると , 表 1.1.1 のデータ 表 1.4.3 のデータ 決定係数 0 .9434 0 .9744 重相関係数 0 . 9713 0 .9871 のように , 表 1.4.3 のデータの方が決定係数も重相関係数も大きくなっている . ということは , 説明変量石を加えると , より良い重回帰式が得られた とになるのだが , これは変だ . を つまり , 決定係数や重相関係数はどのような説明変量を加 えても , 単純に増加してしまう傾向があるのだ . 1 4 第 1 章すぐわかる重回帰分析 工 1 3 . 27 3 .06 4 .22 4 .10 5 .26 6 . 18 65.7 67 . 8 70 . 3 72.0 74 . 3 76.2 ← 山場
目的変量→ 説明変量 相関行列 CORRELATION AND 【コンピューターの出力・その 1 】 変数 ( 変量 ) VARIABLE 4 . 92 平均 MEAN 4 . 35 74 . 67 分散 VARIANCE . 55 25 コ 3 標準偏差 SD 3.94 最小値 MIN 65 . 70 3 . 06 69 . 70 最大値 MAX 76 . 20 8 匚 00 分散共分散行列 COVARIANCE MATRIX X 2 . 55 4 . 44 ロ . 88 0.9464 0.9044 0.8250 25 コ 3 重回帰の分散分析表 DF 自由度 ANALYSIS OF VARIANCE 平方和 SUM OF SQUARES 73.34 4 . 40 0 .9434 0.9 刀 3 23 コ 608 0 . 9057 平均平方 MEAN SQUARE 36 . 6 刀 に 464 検定統計量 F 値 回帰による変動 REGRESSION RESIDUAL 残差による変動 決定係数 R-SQUARE 2 3 MULTIPLE CORRELATION 重相関係数 ADJUSTED R-SQUARE 自由度調整済決定係数 A ℃ 赤池情報量規準 F-VALUE 25.025 ( 0. 田 35 ) ↑ 自由度 ( 2 , 3 ) の F 分布 この確率が 0.0135 Fo = 25.025 4 第 1 章すぐわかる重回帰分析
解説 第 1 主成分の情報量 2 第 1 主成分 21 で 説明している割合ー第 1 主成分の情報量 2 + 第 2 主成分の情報量 2 応十ス 2 ←第 1 主成分 の寄与率 と考えることができるだろう . そこでこれを第 1 主成分の寄与率と呼ぶ . 同様に ス 1 十ん 第 2 主成分の寄与率 = となる . 次に , 因子負荷量について考えよう . ←構造係数ともいう 因子負荷量はもともと , 因子分析で使用されていた用語なのだが , それが主 成分分析でも使われるようになった . さて , 主成分分析では と定義している . この因子負荷量と固有値・固有べクトルとの間には密接な関係があって , 分散共分散行列による主成分分析の場合 固有値 x 固有べクトル 因子負荷量 = 説明変量の分散 相関行列による主成分分析の場合 因子負荷量 = 固有値 x 固有べクトル が成り立っている . よって , 相関行列による主成分分析では , 固有べクトルで表現しても , 因子 負荷量で表現しても , 定数倍のちがいしかないので主成分の総合的特性の解釈 因子負荷量 = 主成分と説明変量との相関係数 は同じになるはずだ . 当 4.4 第 1 主成分の寄与率と因子負荷量を求めよう 1 1 1