例題 手順 1. グループ GI , G2 の分散共分散行列と行列式を求めると・・ 【マハラノビスの距離ーー一例題】 19 . 22 62 . 45 ETI = 3 .84X62.85 ー 12 . 492 = 85.34 62 . 45 314.27 3 . 84 12 . 49 、 p. 179 S 1 1 S12 7 . 41 96 . 80 96 . 80 19 . 36 、 p. 179 1545 . 63 12 . 49 62 . 85 19 . 36 309.13 ←グループ GI の 分散共分散行列 ←グループ G2 の 分散共分散行列 DET 2 = 1 . 48 x 309.13 ー 19.362 = 82.70 手順 2. マハラノビスの距離の 2 乗 DI 2 は 1 , 朝 , な 2 は 1 , ) を求めると・・ 62 . 85 3 . 84 2 X 12 . 49 D12 は 1 , ) = 石 2 十 85 . 34 85 . 34 85 . 34 2 ( 12 . 49 x 53.57 ー 62 . 85 x 8.3 ) 十 85 . 34 2 ( 12 . 49 >< 8.3 ー 3.84 x 53.57 ) 十 工 1 85 . 34 ← p. 177 62.85 x ( 8.3 ) 2 十 3.84 x ( 53.57 ) 2 ー 2 x 12.49 x 8.3 x 53.57 十 309.13 〃 22 は 1 , 朝 = 82 . 70 十 十 = 0.736 2 十 0.045 2 ー 0.293 ェ 1 十 3.455 斯ー 2.39k2 十 49.715 85 . 34 2 x 19 . 36 ズ 1 2 十 82 . 70 82 . 70 2 ( 19.36 x 31.08 ー 309.13 x 1 . 92 ) 82 . 70 2 ( 19.36 >< 1 . 92 ー 1 . 48 x 31.08 ) 1 . 48 82 . 70 ← p. 177 十 309.13 >< ( 1 . 92 ) 2 十 1.48 x ( 31 . 08 ) 2 ー 2 x 19.36 x 1.92 x 31 . 08 82 . 70 = 3.738 ェ 12 十 0.018 2 ー 0.468 十 0.198 ー 0.213 十 3.128 6.2 マハラノビスの距離を求めよう 155
4 章主成分分析をしよう 主成分分析の手順 4.1 固有値・固有べクトルを求めようーー第 1 主成分は ? 主成分分析は 2 つの説明変量斯を ・・・第 1 主成分 21 = 411 斯十〃 12 ・・・第 2 主成分 22 = の 1 十の 2 のように 1 次式の形にまとめることから始まる . 第 1 主成分を図で表現してみよう . 第 1 主成分 21 の向きは , 第 1 主成分の係 数 411 , 412 の方向比 ←第 1 主成分の向き で与えられるので , 第 411 ・ 412 説明変量 0 説明変量 図 4.1.1 第 1 主成分の方向 こで , 条件 が付くことに注意しておこう . さて , 初めに与えられたデータは , 次々と第 1 主成分の軸 21 上へとうっされ てゆく . 例えば , 表 3.2.1 のデータの場合 日本のデータ 第 1 主成分での日本 ( 23.3 , 5.24 ) 211 = 〃 1 1 x 23.3 十 412 x 5.24 となる . 図で表現すれば次のようになるだろう . 88 第 4 章主成分分析をしようーー主成分分析の手順 のようになる . 4112 十〃 122 = 1 ← p. 68
主成分得点 各国の点が 21 軸上に移されるので , 21 軸の原点からの距離がそれぞれの主成分 得点となっている . もちろん , この値は新しい情報量に一致している . 相関行列による主成分得点はどうなるのだろうか ? 一相関行列による方法ー 日本 アメリカ イギリス 西ドイツ フランス イタリア PRIN 1 1 .584 ー 0 .152 ー 1 .464 1 . 471 ー 0 . 477 ー 0 .962 順位 ① ② 3 6 4 5 ←「国の豊かさ」 についての順位 分散共分散行列による方法と相関行列による方法とでは , 順位が異なること に注意しよう . 分散共分散行列 日本② ドイツ① 相行列 日本① 襾ドイツ② 当 3.8 これは便利な主成分得点 順位づけのために 丿ノ 81
い . 2 コンピューターの出力を読む 重回帰分析を理解するための近道は , 理論よりも " まずデータを分析してみる " ということ . そこで , 次のデータをながめてみると・・ 次のデータは 1955 年から 1980 年までの , 平均寿命 , 1 人当りの所得に対す る医療費の割合 , タンパク質摂取量について調べたものである . 69 . 7 69 . 7 71 . 3 77 . 6 81.0 78 . 7 3 . 27 3 . 06 4 . 22 4 . 10 5 . 26 6 . 18 表 1.1.1 長生きの原因をさぐる 年 1955 1960 1965 1970 1975 1980 平均寿命 ( 年 ) 76.2 74 . 3 72 . 0 70.3 67.8 65.7 医療費の割合 ( % ) タンバク質摂取量 ( g ) 工 2 このデータから知りたいことは " 因果関係を分析してくれるという重回帰分析 " そこで , データの らに注目すべきだろうか . 4. 平均寿命を延ばすためには , 医療費の割合とタンパク質摂取量のどち 3. タンパク質の取り過ぎは短命につながるのではないか 2. 医療費の割合が多くなれば , 平均寿命が延びるのだろうか . 係があるのだろうか . 1. 平均寿命 , 医療費の割合 , タンパク質摂取量の間には , どのような関 当 1.2 ような出力結果が現れるだろう . をおこなってみよう . 重回帰分析用ソフトにデータを入力すると , 画面に次の コンピューターの出力を読む 3
例題 【第 1 主成分を求める一一例題】ー一分散共分散行列による 手順 1 . 第 1 主成分の固有値ス 1 を求めると・・ ー ( 11.835 十 53.065 ) 十 ( 11 . 835 ー 53.065 ) 2 十 4X14.9962 ス 1 = 57.942 ー ( 11.835 十 53.065 ) ー = 6.958 ( 11.835 ー 53.065 ) 2 十 4X14.9962 2 2 手順 2 . 第 1 主成分の固有べク い 4.99 田 411 トルの 1 , 碼 2 を求めると・ ←分散共分散行列 11 .835 14 .996 14 .996 53.065 p. 91 は 4.99 田 ( 57.942 ー 11.835 ) 2 十 14 . 9962 = 0 . 3093 ー ( 57 .942 ー 11.835 ) XO .3093 14 . 996 = 0 .9510 の 1 ( 6.958 ー 11.835 ) 2 十 14 .9962 = 0 . 9510 ( 6.958 ー 11 . 835 ) x0.9510 の 2 14 . 996 ー 0 .3093 手順 3 . となる . したがって , 第 1 主成分 21 は となる . 第 2 主成分は 当 4.1 21 = 0.3093 十 0.9510 22 = 0 .9510 斯ー 0.3093 固有値・固有べクトルを求めよう 第 1 主成分は ? 93
6 章判別分析をしよう 判別分析の手順 6.1 線型判別関数を求めよう 判別分析とは , 2 つのグループ GI , G2 に対し , 、、与えられた新しいサンプルが グループ GI に属するのか , またはグループ G2 に属するのか " を判別してくれる手法である . したがって , 判別分析をするためには , 次のように " 1 本の直線でグループ GI , G2 を 2 つに分離しておく " 第 54 . 5 68.0 45 . 3 必要がある . 工 2 グループ GI グループ G2 0 = 〃 1 工 1 十 22 工 2 十 00 図 6.1.1 線型判別関数 z による判別 この直線を与える式 2 = は 1 十の十 を線型判別関数という . 具体例で考えることにしよう . ↓データは p. 117 健康なネコ G2 サンプル No 1 2 6 水俣病のネコ GI 脳 10 . 4 肝臓ズ 2 サンプル 当 6.1 6 2 1 No 脳 1 . 0 肝臓ズ 2 31.8 14 . 5 12 . 3 線型判別関数を求めよう 1 45
因子負荷量 % ( , 幻 = の分 確かめてみよう . p. 60 から 21 の固有値 = 57.9422 , ↑第 1 主成分の固有値 を代入して計算すると , 因子負荷量 この因子負荷量と固有べクトルの間には , 次のような関係がある . 、 / の固有値ⅸの係数←分散共分散 ー 0 .699 ー 0 .998 ー 1 . 072 ー 0 . 358 ー 0 . 316 ー 1 . 085 ー 0 .275 斯の係数 = 0.3093 , ↑第 1 主成分の固有べクトル 行列の場合 ↑分散共分散行列 斯の分散 = 11 . 835 57 .9422X0.3093 11.835 = 0.6844 となり , 因子負荷量と一致していることがわかる . 次に , 相関行列による方法の場合 第 1 主成分 21 * = 0.707k1 * + 0.7071 * に各国の標準化したデータを代入す 準化した説明変量を * と表すことにしよう . 相関行列で固有べクトルを求めるときは , データを標準化しているので , 標 ると , 主成分得点は 表 3.10.2 標準化したデータと主成分得点 主成分得点説明変量 工 1 日本 アメリカ イギリス 西ドイツ フランス イタリア 1 .584 1 . 471 ー 0 . 962 ー 0 . 477 ー 1 . 464 ー 0 . 152 1 . 502 0 . 485 0 . 456 説明変量 1 . 625 0 . 738 となる . 表 3.10.2 から相関係数を計算すれば % ( 21 * , * ) = 0.8940 0.8940 当 3.10 因子負荷量ーー主成分と説明変量との相関係数 85
【線型判別関数ーーー演習】 手順 0. 始めに当 6.7 のいろいろな平方和積和行列を求めておく ー 2 すでに求めたグループ内の平方和積和行列 手順 1. プールされた分散共分散行列を求めよう . こと . 演習 ← p. 182 ← p. 183 を用いると , SI 1 S12 11 ル 12 肥 12 ' 22 プールされた分散共分散行列は ロロ ロ + ロ -2 ロ + ロ - 2 ロ + ロー 2 ロ + ロ 手順 2. 線型判別関数の係数 41 , の , 定数項を求めよう . 41 ーロ x ローロ 2 ロ x ローロ 2 1 ロ x ロ + ロ x ロ 1 1 2 したがって となる . , 線型判別関数 2 は ロロ ロロ ロ x ロ + ロ x ロ 当 6.1 線型判別関数を求めよう 1 51
【線型判別関数ーー一例題】 手順 0. 始めに 6.7 のいろいろな平方和積和行列を求めておく こと . 手順 1. プールされた分散共分散行列を求めると・・ すでに求めたグループ内の平方和積和行列 肥 11 肥 12 肥 12 肥 22 26 . 63 159 . 25 例題 ← p. 177 ← p. 179 を用いると , プールされた分散共分散行列は S11 S12 6 十 6 ー 2 159.25 6 十 6 ー 2 26 . 63 159 . 25 6 十 6 ー 2 1859 . 9 6 十 6 ー 2 159 . 25 1859.9 15 .925 2 .663 15 . 925 185.990 手順 2. 線型判別関数の係数〃 1 , の , 定数項碼を求めると・・ 1 2 .663 X 185 . 99 ー 15.9252 1 2 .663 >< 185 . 99 ー 15 . 9252 49 . 8 11.5 185.99 321.4 49 . 6 321.4 ー 15 .925 15 .925 十 2 . 665 186.5 6 = 3 . 43 186 . 5 6 ー 0 . 17 1 3.43 x 49.8 十 ( ー 0.17 ) >< 321.4 3.43 x 11.5 十 ( ー 0.17 ) >< 186.5 2 ー 10 . 33 となる . したがって , 6 線型判別関数 2 は 2 = 3.43 斯ー 0 . 17 ー 10.33 6 当 6.1 線型判別関数を求めよう 1 49
演習 【主成分分析の演習】 次のデータは高知県の浦戸湾に注ぐ 6 つの川について , 水質汚濁の状態を調 査した結果である . 説明 功く・旦 サンプル 下田川 国分川 久万川 江のロ川 舟入川 知りたいことは , " どの川が最も汚れているのだろうか ? " ということである . 主成分分析によって , 水質汚濁という総合的特性が現れて くれれば , 各河川の汚濁状況がわかるのだが・・ BOD ← DO ( 溶存酸素量 ) 水中に溶けている酸素量 . この値が低いと生物は生きられない ← BOD ( 生物化学的酸素要求量 ) 水中の汚濁物質が微生物によって分解され るのに必要な酸素量 この値が高いと川は汚れている 工 1 1 0 っ尸 0 1 -0- ワ・ 4 ワ」 8 1 っ / LO -8 8 江のロ川 下田川 戸湾 高知県浦戸湾 主成分分析の手順 94 第 4 章主成分分析をしよう