決定係数 【決定係数】 国表 1.4.1 を見ると , 誤差はあまり大きくないので , この重回帰式はあて はまりが良いことがわかる . しかし , もう少し詳しく重回帰式を評価してみることにしよう . そのために は , 平方和を計算しなければならない . 平方和とは ← 丁ータと平均との差の 2 乗和” のこと , 重回帰分析の場合は 実測値の平均 予測値の平均誤差の平均 必 = 71.05 歹 = 71.05 なので , 次の表を得る . 山場 表 1.4.2 平方和を求める 予測値の平方和 2 ( ー幻 2 = & ( 67.299 ー 71 .05 ) 2 ( 66.863 ー 71.05 ) 2 実測値の平方和 6 2 ( 必ーの 2 = ST ( 65.7 ー 71.05 ) 2 ( 67.8 ー 71.05 ) 2 誤差の平方和 ( 必ー ) 2 = SE ( ー 1.598 ー 0 ) 2 ( 0.937 ー 0 ) 2 1 2 ( 76.2 ー 71.05 ) 2 77.735 ( 76.082 ー 71.05 ) 73.339 6 ( 0.118 ー 0 ) 2 4 . 396 = 一口 この表の合計のところを見ると , ← ST=SR 十 & 実測値の平方和 = 予測値の平方和 + 誤差の平方和 ← 山場 77 . 735 73 .339 十 4 .396 となっていることに気づく . 誤差の平方和は小さい方が良いのだが , 実測値の 平方和の中での誤差の平方和としてとらえるべきなので , この両辺を実測値の 平方和で割っておこう . すると , 予測値の平方和 誤差の平方和 実測値の平方和 実測値の平方和 となる . 1 2 第 1 章 すぐわかる重回帰分析
重回帰式 現実には , 実測値 予測値 Y = わ洋 1 十あ十わ 0 どうしても誤差ーが生じる . となるので , ←誤差のことを残差ともいう 必 = わ 1 ェ 1 十わ 2 工 2 十わ 0 の平面 実測値 誤 4 測値 工 1 ( ェ 1 , ェ 2 ) 図 1.3.3 実測値 , 予測値 , 誤差の関係 工 2 そこで , 1 次式 必 = 斯十わ 2 十わ 0 を求めるためには , 各点における誤差 表 1.3.1 誤差を求める 実測値 予測値 誤差 ( 残差 ) わ 1 >< 3 .27 十わ 2 X 69.7 十わ 0 65 . 7 65.7 ー ( 3.27 わ 1 十 69.7 わ 2 十ん ) 67.8 わ 1 x 3.06 十房 >< 69.7 十わ 0 67.8 ー ( 3.06 ん十 69.7 わ 2 十ん ) ん X 4 . 22 十ん x 71 . 3 十ん 70 . 3 70.3 ー ( 4.22 あ十 71 . 3 房十わ 0 ) わ 1 x 4 . 10 十房 x 77.6 十わ 0 72 . 0 72.0 ー ( 4.10 わ 1 十 77.6 房十わ 0 ) ん >< 5 .26 十わ 2 x 81.0 十 74 . 3 74.3 ー ( 5.26 わ 1 十 81.0 わ 2 十わ 0 ) わ 1 x 6.18 十房 x 78.7 十ん 76 . 2 76.2 ー ( 6.18 わ 1 十 78.7 わ 2 十わ 0 ) を最小にするわ 1 , あ , ろ 0 を求めなければならない . この , あ , は最小 2 乗法を使えば簡単に求めることができる . しかし , そ の計算はコンピューターにまかせることにしよう . ふつう , コンピューターの 出力は次のようになっている . ←これが重回帰式 これを最小にする ← 当 1.3 重回帰式から分析が始まる 9
い . 4 その重回帰式は予測に役立つだろうか 重回帰式 必 = 2.0768 斯十 0.3044 十 39.2904 が求まれば , この式を使って 平均寿命を予測したり , タンパク質摂取量を制限したり したい そのためには , この重回帰式の精度を評価しておく必要がある . つまり , 国その重回帰式は良くあてはまっているか ? ←決定係数 2 圄その重回帰式は予測に役に立つのか ? ←分散分析表 を調べなくてはならない . また 3 重回帰モデルのあてはまりの良さ ←重回帰モデル は p. 18 についても調べておいた方が良いかもしれない . " 誤差に注目 " しよう . 表 1.4.1 誤差を調べる 予測値誤差 E , = 必ー 実測値必 ー 1 .599 67.299 65 . 7 66.863 0 .937 67 . 8 0 .541 70 . 3 69.759 0 . 573 71 . 427 72 . 0 ー 0 . 571 74 . 871 74 . 3 0 .118 76 . 082 76 . 2 11 ワ 3 っ 0 -4 LO ←誤差の少ない方が 良い重回帰式 い . 4 その重回帰式は予測に役立つだろうか
解説 このとき , の値を実測値 , 重回帰式による必の値を予測値と呼ぶならば , 次のような表ができる . 表 2.1.2 表 2.1.1 の実測値 , 予測値 , 誤差 実測値 65.7 67.8 76 . 2 予測値 3.27 わ 1 十 69.7 わ 2 十わ 0 3.06 わ 1 十 69.7 わ 2 十わ 0 6.18 わ 1 十 78.7 わ 2 十わ 0 誤差ー必 65.7 ー ( 3.27 わ 1 十 69.7 わ 2 十わ 0 ) 69.7 ー ( 3.06 わ 1 十 69.7 房十わ 0 ) 76.2 ー ( 6.18 わ 1 十 78.7 房十ん ) 重回帰式を求めるということは , 偏回帰係数わ 1 , わ 2 を求めることなのだから この誤差を最小にするあ , あを求めればよい . 実際には , それぞれの誤差の 2 乗和 Q を最小にするようなわ 1 訪 2 を求める . 表 2.1.2 の場合 ↑最小 2 乗法 ↓誤差の 2 乗和 Q = { 65.7 ー ( 3.27 わ 1 十 69.7 わ 2 十わ 0 ) } 2 十 { 69.7 ー ( 3.06 わ 1 十 69.7 あ十わ 0 ) } 2 十・・・十 2 { 76.2 ー ( 6.18 わ 1 十 78.7 あ十わ 0 ) } x ( ー 78.7 ) = 0 = 2 { 65.7 ー ( 3.27 十 69.7 あ十わ 0 ) } x ( ー 69.7 ) 十・・・十 2 { 76.2 ー ( 6.18 わ 1 十 78.7 わ 2 十わ 0 ) } x ( ー 6.18 ) = 0 = 2 { 65.7 ー ( 3.27 わ 1 十 69.7 わ 2 十わ 0 ) } x ( ー 3.27 ) この Q をわ 1 , わ 2 で偏微分して 十・・・十 { 76.2 ー ( 6.18 わ 1 十 78.7 あ十わ 0 ) } 2 2 öQ 1 となるので , 2 次式を偏微分したので 1 次式になる という連立 1 次方程式を解けばよい . ← 山場 2.1 重回帰式を求めよう 33
重相関係数 したがって , 。。 & ー予測値の平方和 実測値の平方和 " 重回帰式のあてはまりが良い " ということになる . そこで , と定義し , 決定係数と呼ぶことにしよう . この例では ー 73.339 4 . 396 = 0 . 9434 77 . 735 77 . 735 この重回帰式は良くあてはまっていると考えられる . なので , 【重相関係数】 重回帰式のあてはまりの良さを示す量として , 重相関係数もある . 重相関係数とは " 実測値と予測値の相関係数 " のことで , が 1 に近い” ほど , ← & = ST ー & ← R-square ともいう ( 共ーの 22 ( ー幻 2 が定義 . この重相関係数は決定係数 R2 と密接な関係にあって , ところで , ( 重相関係数 ) 2 = 決定係数 が成り立つ . よって , 決定係数が求まっているときは , この等式から = 決定係数 = 0.9434 = 0.9713 のように重相関係数を求めることができる . したがって , 重相関係数が 1 に近いほど , 重回帰式のあてはまりが良いこ とになる . ← 0 坙ミ 1 当 1.4 その重回帰式は予測に役立つだろうか
解説 2.3 決定係数 , 重相関係数 , 重回帰式による予測値と実測値の関係は , 2 ( 必ーの 2 = ( ー幻 2 十 ( ー ) 2 自由度調整済・・・ 実測値 2 重回帰式による予測値 = わば 11 十わ 2 工 21 十・・・十の工川十わ 0 = わば 12 十わ 2 2 十・・・十の工ヵ 2 十わ 0 ) = わ 1 工 1 ル十わ 2 ズ 2 ル十・・・十の工”十ん 残差 2 ー 0 ←平均 次の平方和の等号 この等号を利用すれば , で表現されている . " 求めた重回帰式は実測値に良くあてはまっているか ? " ←平方和 の分解 を調べることができる . 例えば 重回帰式が良くあてはまっている残差 2 ( ー ) 2 は 0 に近い 重回帰式のあてはまりが良くない残差 ( ー ) 2 が大きい と考えることができる . そこで , 上の等号の両辺を ( 必ーの 2 で割ると 2 ( ー幻 2 ( ーの 2 となるので , ( ーの 2 ( ーの 2 ←寄与率とも 46 ( ー 2 ( ーの 2 第 2 章重回帰分析をしよう - ー一重回帰分析の手順
解説 を決定係数と呼び , 2 が 1 に近いほど , 求めた重回帰式は良くあてはまってい るとする . 次に重相関係数については 重相関係数 R = 予測値と実測値共との相関係数 と定義する . よって , が 1 に近いほど , 予測値は実測値に近いことを示して である . 定義は いる . ← 0 ミミ 1 記号をみてもわかるように , 重相関係数と決定係数 2 の間には 重相関係数 = 決定係数 という等号が成り立っことが知られている . ところで , 決定係数や重相関係数の定義には大きな落し穴がある . この欠点をなくするために導入されたのが , という点である . や 2 は単純に増加する " " 役に立たない説明変量を加えても , それは , ( ーカー 1 ) ( ーの 2 自由度調整済重相関係数 自由度調整済決定係数と となる . 2 と 2 の間には , 次の等号が成立している . ← 山場 ルーカー 1 ルーカー 1 2.3 決定係数 , 重相関係数 , 自由度調整済・・・ 47
←偏回帰係数ヶのところをみると , 重回帰式が = 2.0768 斯十 0.3044 十 39.2904 となっていることがわかる . ←標準誤差は , 偏回帰係数の区間推定のときに用いられる . 例えば説明変量斯 の母偏回帰係数を区間推定するときには , 2.0768 ー / 6 ー となる . x 0.8047 坙 1 ミ 2 . 0768 十 2 2 >< 0.8047 、標準偏回帰係数は , データを標準化 ( 平均を 0 , 分散を 12 に変換 ) したとき の偏回帰係数のことで , この値から , 説明変量の目的変量への影響の大きさを 知ることができる . このデータでは , 0.6271 と 0.3870 との比較からよ りエ 1 の方がに与える影響が大きいと思われる . この F 値は , それぞれの説明変量において 仮説 HO : 母偏回帰係数凬 = 0 の検定をしている . 偏回帰係数が 0 ということは , その説明変量はなくてもよいということ . よって , その説明変量が目的変量の説明のために有効である と主張するためには , 仮説 HO は棄却されなければ ならない ← p. 25 有意水準住の棄却域 ( 1 , ルー P ー 1 ) ( 住 ) 、予測値とは , 重回帰式にデータを代入した値のことなので , = 2.0768 x 3.06 十 0.3044 X 69.7 十 39.2904 例えばェ 1 = 3.06 , = 69.7 のときの予測値必は のようにして求める . 65 . 7 ー 67 .299 = ー 1 .598 、残差は , 実測値から予測値を引いた値で , となる . = 66 .863 当 1.2 コンピュ ーターの出力を読む
【コンピューターの出力・その 2 】 偏回帰係数 標準誤差 標準偏回帰係数 PARTIAL STAND STAND PARTIAL REG COEFF ERROR REG COEFF 2 .0768 0 . 8047 0 . 62 刀 0 .3044 0 . 3870 39 .2904 Ⅱ .5630 偏回帰係数の検定 F-VALUE 6.6 引 3 ( 0.08 ロ ) 2.5374 ( 0.2094 CONST 自由度 ( 1 , 3 ) の F 分布 この確率が い .0817 Fo = 6.6613 実測値 予測値 65 . 7 67 . 8 70 . 3 72 . 0 74 . 3 76 . 2 残差 RESIDUAL ー匚 598 ← = 67.8 ー 66 . 863 0.937 0 . 573 NO 67 . 299 66.863 69 . 759 7 匚 427 74 . 8 刀 76 .082 っ 0 4 一 .0 ( 0 6 第 1 章 すぐわかる重回帰分析
分散分析表 ァータの型 工 1 工 11 工 12 次の式を重回帰モデルという . 重回帰モデル 助 凬斯 1 十工 2 1 十 EI 2 = 工 12 十工 22 十 E2 ー斯 6 十 6 十 E6 ただし , 朝 , E2, ・・ , は ( 0 , 02 ) に従うと仮定する . このモデルの係数 , と , い . 3 で求めた重回帰式 = わ山十わ 2 十わ 0 の係数わ 1 , わ 2 の記号が異なっていることに注意しよう . 実は 1 , わ 2 は凬 , の推定値 " になっているのだ . そして , " 重回帰式が予測に役立たない " 工 21 工 22 工 16 工 26 とは , 顰 1 = = 0 " のこと . つまり , 重回帰モデルの係数が 0 ということは , その説明変量斯 , はなくて もよいということなのだから , 目的変量の予測には何ら役立たないのであ る . この仮説 HO を棄却すると , 少なくとも 1 つの母偏回帰係数は 0 ではないとな る . その重回帰式は予測に役立つだろうか い . 4