標準偏回帰係数 の偏回帰係数が 304.4040 と , の偏回帰係数 2.0768 に比べてずいぶん大 きいことに気づくだろう . 思わず , 説明変量は目的変量ツに大きく影響を与 えているのでは , と考えたくなるのだが・・ このコンピューター出力と , p. 10 の表 1.3.2 を比較してみよう . この 2 つの表は数値が非常によく似ている . それもそのはずで , ューター出力は説明変量の単位を (g) に換えて得られたものなのである . つまり , 同じデータでも単位を換えることにより , 偏回帰係数 (kg) 左のコンピ ← 山場 の値が大きく変わり , データの解釈までも変わってしまうことがあるのだ . そこで , 単位の影響を取り除く方法が考え出された . それが ァータの標準化 " ーアーの平均 の の ェ , ーの平均 説明変量も目的変量も , 次の変換 である . * に必 * = 0.627k1 * 十 0.3870 * さて , 石との標準偏回帰係数は の標準偏回帰係数が一致していることを確認しておこう . この方法で求めた偏回帰係数を標準偏回帰係数という . により , 平均を 0 , 分散を 12 にしておくのである . ←平均を 0 に 分散を 12 に 表 1.5.4 と表 1.3.2 ←これが標準化 なので , 平均寿命には , タンパク質摂取量よりも医療費の割合の方が大切な要 因のように思われる . い . 5 偏回帰係数の意味するものは 25
偏回帰係数 い . 5 偏回帰係数の意味するものは 【偏回帰係数】 偏回帰係数の意味について考えてみよう . 目的変量と説明変量 , について , 次の 3 つの関係式から考えられる . (i) とェ 1 , の重回帰式 必 = 2.0768 十 0.3044 ェ 2 十 39.2904 圃との単回帰式 (ii) ッと斯の単回帰式 ← p. 10 例えば , ェ 1 の偏回帰係数 2.0768 が , とェ 1 との関係を表しているのならば , と斯の単回帰式も 必ー 必 = 2.0768 となりそうである . ところが , パソコンで単回帰式を求めてみると 3 ユ 343 斯 十 57 .4210 となり , この単回帰係数は斯の偏回帰係数と一致しない . また , との単回 帰式も求めてみると 0.7113 十 17.9380 を思い出そう . そこで , 相関行列をみれば 相関係数 1 次式の関係 ことがわかる . ところで , 、、単に目的変量と説明変量斯の間の関係を示しているのではない " つまり , 斯の偏回帰係数は となり , やはり , の偏回帰係数に一致していない . = 0 .9044 , = 0 .8250 なので , と , 斯との間に 1 次式の関係があることに気づく . い . 5 響を取り除いておかなければならない ということは , と斯の関係を見るためには , と斯から , それぞれの影 偏回帰係数の意味するものは 21
←偏回帰係数ヶのところをみると , 重回帰式が = 2.0768 斯十 0.3044 十 39.2904 となっていることがわかる . ←標準誤差は , 偏回帰係数の区間推定のときに用いられる . 例えば説明変量斯 の母偏回帰係数を区間推定するときには , 2.0768 ー / 6 ー となる . x 0.8047 坙 1 ミ 2 . 0768 十 2 2 >< 0.8047 、標準偏回帰係数は , データを標準化 ( 平均を 0 , 分散を 12 に変換 ) したとき の偏回帰係数のことで , この値から , 説明変量の目的変量への影響の大きさを 知ることができる . このデータでは , 0.6271 と 0.3870 との比較からよ りエ 1 の方がに与える影響が大きいと思われる . この F 値は , それぞれの説明変量において 仮説 HO : 母偏回帰係数凬 = 0 の検定をしている . 偏回帰係数が 0 ということは , その説明変量はなくてもよいということ . よって , その説明変量が目的変量の説明のために有効である と主張するためには , 仮説 HO は棄却されなければ ならない ← p. 25 有意水準住の棄却域 ( 1 , ルー P ー 1 ) ( 住 ) 、予測値とは , 重回帰式にデータを代入した値のことなので , = 2.0768 x 3.06 十 0.3044 X 69.7 十 39.2904 例えばェ 1 = 3.06 , = 69.7 のときの予測値必は のようにして求める . 65 . 7 ー 67 .299 = ー 1 .598 、残差は , 実測値から予測値を引いた値で , となる . = 66 .863 当 1.2 コンピュ ーターの出力を読む
重回帰式 説明変量 工 1 工 2 const 表 1.3.2 偏回帰係数 わ 1 = 2 .0768 わ 2 = 0 .3044 39.2904 コンピュ 標準誤差 0 .8047 0 .1911 ーターによる出力 標準偏回帰係数 0 .6271 0 .3870 F 値 6.6613 ( 0.0817 ) 2.5374 ( 0.2094 ) この出力結果から , 重回帰式は Y = 2.0768 石十 0.3044 十 39 .2904 であることがわかる . 表 1.3.2 の偏回帰係数 , 標準偏回帰係数 , F 値については p. 21 , 27. 1 0 第 1 章 すぐわかる重回帰分析
例題 において , 説明変量斯の偏回帰係数はわ 1 = 2.083 となったのだが , この母偏回帰 必 = 2 .083 斯十 0.303 十 39.368 重回帰式 データは p. 3 と同じ . 【偏回帰係数の検定一例題】 係数の検定をしてみよう . 手順 1 . 仮説と対立仮説をたてると・・ 仮説 HO : 凬 = 0 対立仮説 HI : 凬キ 0 手順 2 . 検定統計量を計算すると・・ そのために , 重回帰式で求めた ←要するに説明変量斯は 目的変量 ) , に影響を与 えていないということ . S 2 = 125.653 と , 分散分析表で求めた = 1 .459 を用いると , 検定統計量んは 283.878X2.0832 125.653X1.459 となる . 〃 ET = 283.878 = 6 . 719 手順 3 . 偏回帰係数の検定をすると・・ わ 1 = 2 . 083 ← p. 37 ← p. 43 有意水準を住 = 0.05 とすると = 6.719 < 石 1 1 ) ( 0.05 ) = 10.128 となり , 仮説 HO は棄てられない . 2.4 偏回帰係数の検定をしよう 55 ないことはよく起こる . 注 . 分散分析表では棄却されても , このように偏回帰係数の検定で棄却され えられる . したがって , 医療費の割合新は平均寿命にあまり影響を与えていないと考
【標準誤差】 重回帰分析のコンピューターの出力では , 次の表のように 偏回帰係数 2 .0768 0 .3044 表 1.5.3 標準誤差 0.8047 0.1911 標準偏回帰係数 0 .6271 0 .3870 標準誤差 CSE] を出力しているのがふつうである . この標準誤差は , 推定値の分布の標準偏差を意味している . 標準誤差 ← standard error つまり , 標準誤差とは偏回帰係数あ , あの標準偏差のことで , 偏回帰係数わ 1 , わ 2 は次の重回帰モデルの , の推定値になっているのである . 必 = 凬新 1 十 1 十朝 2 = 凬新 2 十 2 2 十 E2 6 = 新 6 十日 2 6 十 E6 重回帰モデル きちんと表現してみよう . 2 2 SE ( わ i) 坙凬坙ケ十に 1 ー SE(bi) 偏回帰係数凬の 100 ( 1 ーの % 区間推定の公式 さて , 標準誤差 SE が大きいときは注意が必要である . 例えば , となっているのだ . E 陸 ) = E ( わ 1 ) = において , わ 2 の分布の平均値 E ( わ 1 ) , E ( わ 2 ) がそれぞれ ← p. 18 をみてもわかるように , の標準誤差 SE ( のが大きいときは区間の幅が広くな るので , 区間推定が有効でなくなる . ということは , その説明変量はあまり 重視すべきでないと考えた方がよい . い . 5 偏回帰係数の意味するものは 23
偏回帰係数の検定 表 1.1.1 のデータのコンピューターの出力結果は次のようになった . 【偏回帰係数の検定】 PARTIAL REG COEFF 2 . 0768 0 . 3044 CONST 39 . 2904 表 1.6.1 表 1.1.1 のデータの出力結果 STAND PARTIAL REG COEFF 0 . 62 刀 0 . 3870 Ⅱ . 5630 0 .8047 ERROR STAND この F ー VALUE は , 検定統計量 SE(bi) 偏回帰係数の検定 F-VALUE 6.6 引 3 ( 0.08 ロ ) 2.5374 ( 0.2094 ) SE(bi) = 標準誤差 ←ケ = 偏回帰係数 のことで , よって , る . この統計量の分布は自由度 ( 1 , ーカー 1 ) の F 分布に従ってい ( 1 , ルーー 1 ) ( 住 ) SE(bi) ならば , 有意水準住で仮説 HO : 凬 = 0 は棄却される . 自由度 ( 1 , ルーカー 1 ) の F 分布 1 自由度 ( 1 , 3 ) の F 分布 住 = 0.05 有意水準 棄却域 R 図 1.6.1 ( 1 ー 0 ー 1 ) ( 住 ) Fo = 6.6613 偏回帰係数の棄却域 10.128 い . 6 その説明変量は予測に必要か ? 27
偏回帰係数の検定 い . 6 その説明変量は予測に必要か ? 重回帰分析では説明変量をどう取り扱うかは大切な問題だ . 2 . ← = E ( の どのような説明変量を選べばよいか ? 重回帰式で使われた説明変量は予測に必要か ? こでは , 2 の問題を取り上げることにしよう . そこで , などのような問題が起こってくる . つまり , ←説明変量の選択 ←偏回帰係数 の検定 " 説明変量石は予測に必要でない偏回帰係数が小さい " と考えられるので , 調べなければならないことは ということになる . しかし , どの程度が 0 に近ければ , ェ , は不必要とすべきなのだろうか . = 0 . 001 だろうか , それとも , ケ = 0.0001 だろうか ? こで , このが重回帰モデル 必 = 1 斯 1 十 1 十 61 2 = 凬工 12 十 2 2 十 E2 % = 凬斯 6 十 6 十 E6 の母偏回帰係数凬の推定値だったことを思い出そう . 仮説 HO : 凬 = 0 の検定という手法に気づくだろう . この検定の結果 , 仮説 HO が棄却されなければ , 凬 = 0 ということになるので すると " その説明変量 %. はなくてもよい”とか " その説明変量ェ . は目的変量に影響を与えない " などのように分析される . したがって , 偏回帰係数の検定は重回帰分析の中心的話題 の 1 つである . 26 第 1 章すぐわかる重回帰分析 ← 山場
解説 2.4 偏回帰係数の検定をしよう 重回帰式 必 = ろ 1 斯十あ十・・・十ろ戸十わ 0 が求まれば , 次にすべきことは この重回帰式は予測や制御に役立っかどうか つまり , 分散分析表や決定係数・重相関係数 ← . 2 , 2.3 ← . 1 の計算であった . その結果 , 求めた重回帰式が役立っということになれば , いよいよ へと進む . とか , この検定をすることにより " 偏回帰係数の検定 " " その説明変量は目的変量に影響を与えているか ? " " その説明変量は重回帰式に必要なのか ? " ← 山場 などが分かってくるので , 偏回帰係数の検定は重回帰分析にとって , 重要な山 を検定しているように思いがちだが , 正しくは 仮説 HO : = 0 ところで , 偏回帰係数の検定というと 場である . 仮説 HO : 凬 = 0 の検定であることに注意しよう . つまり , 重回帰モデル ←こっちが正しい ←ケは凬の 不偏推定値 における 52 第 2 章 必 = 召 1 工 11 十 2 1 十・・・十ヵ 1 十 EI 2 = 召 1 工 12 十 2 十・・・十声十 E2 ツⅣ = 斯Ⅳ十 2 Ⅳ十・・・十日十どル " 母偏回帰係数凬の検定 重回帰分析をしようーー一重回帰分析の手順
【コンピューターの出力・その 2 】 偏回帰係数 標準誤差 標準偏回帰係数 PARTIAL STAND STAND PARTIAL REG COEFF ERROR REG COEFF 2 .0768 0 . 8047 0 . 62 刀 0 .3044 0 . 3870 39 .2904 Ⅱ .5630 偏回帰係数の検定 F-VALUE 6.6 引 3 ( 0.08 ロ ) 2.5374 ( 0.2094 CONST 自由度 ( 1 , 3 ) の F 分布 この確率が い .0817 Fo = 6.6613 実測値 予測値 65 . 7 67 . 8 70 . 3 72 . 0 74 . 3 76 . 2 残差 RESIDUAL ー匚 598 ← = 67.8 ー 66 . 863 0.937 0 . 573 NO 67 . 299 66.863 69 . 759 7 匚 427 74 . 8 刀 76 .082 っ 0 4 一 .0 ( 0 6 第 1 章 すぐわかる重回帰分析