基づく - みる会図書館


検索対象: Bayes Analysis Maniax―フリーソフトで始めるベイズ統計解析
6件見つかりました。

1. Bayes Analysis Maniax―フリーソフトで始めるベイズ統計解析

5 基 の = = ロ イ べ 章糸 第理 1 ュはじめに 本書では、フリーの統計ソフト「 R 」を中心としたフリーソフトを用いたべイズ統計解析の手法について解説します。 そもそも統計学の考え方として大きく 2 つわけて「頻度主義」と「べイズ主義」と呼ばれるものがあり、一般的な統計 学で使われる「頻度主義」とは、母集団のパラメータが決まっているものであり、それを標本を用いて推定するという ものです。 これに対して、べイズ主義に基づく統計学とは、母集団のパラメータも含め、あらゆるパラメータが確率的であると いう考え方に立ちます。このような考え方は、頻度主義に基づく統計学に比べて、人間の思考法に近く、統計学の実用 性をさらに高めるものと評価されています。 べイズ主義に基づく統計学においては、母集団のパラメータの確率分布について考えます ( 事前分布 ) 。そして最尤 法などによる推定によりその事前分布の確からしさを調べて、より母集団の確率分布に近い分布に更新していくという 方法をとることができます。頻度主義に基づく統計学は、母集団のパラメータが確率分布ではなく、あらかじめ決まっ ているものなのでこういう操作をすることはできません。 このような手法は、例えば迷惑メールの対策に役に立っています。迷惑メール対策では、特定の単語などを含むもの を迷惑メールとして処理しますが、たまにそれが誤っている場合が、あります。べイズ統計学に基づく判別では、その 誤りを学習させることにより、より制度を高めることができます。メールソフトでは、例えば「 Mozilla Thunderbird 」 や「 Shuriken 」 ( ジャストシステム ) などがべイズ統計学に基づく迷惑メールフィルタ ( べイジアンフィルタ ) を用い ているようです。 また、べイズ統計学に基づくと、回帰分析の制度を高めることができます。べイズ主義に基づく回帰分析では、主観 的な確率分布を分析に入れることができます。頻度主義に基づいた統計学にはできないような分析を、べイズ主義の統 計解析は実現してくれるのです。 1.2 べイズの定理 そもそもべイズ統計学で前提とするべイズの定理とは、次のようなものです ( なおこの定理は頻度主義でもべイズ主 義でも成り立っ ) 。 べイズの定理 事象と B の起こる確率について、次の関係が成り立つ。 い襾 P ( B ) P(BIA) = P(A)

2. Bayes Analysis Maniax―フリーソフトで始めるベイズ統計解析

15 RStan によるべイズ統計解析 注意 第 3 章 c :\Rt001s\bin ころでチェックを入れ、さらに次のページでパスを編集する必要があります。このとき、次のパスを入れます。 が動きませんでした ) 。また、正常に作動させるためには、インストール時のウイザードで「追加タスクの選択」のと RtooIs は C ドライプ直下 (c : \Rt001s) に保存する必要があるようです ( 別のフォルダに保存したことがあります https : //cran. r—project ・ org/bin/windows/Rt001s/ 各バージョンに対応したものがありますが、 R ともども最新のものを使うようにしましよう。 RtooIs は R の大本である cran からインストールすることができます。下記のサイトにあります。 Rtools には R の https ://github.com/stan-dev/rstan/wiki/RStan—Getting-Started- (Japanese) に RStan の導入法については下記のページに書いてありますので、これを要約して解説することにします。 にすることが必要になります。そのために、まずは Rtools と呼ばれるプログラムをインストールします。 Rtools 並び RStan は C 十十言語を使っており、そのため RStan を動かすためには R で C 十十言語のプログラムを動かせるよう 3.2 ユ Rtoo をインストールする 3.2 RSta n のインストール 能になります。 す。その他、べイズ統計学を用いれば、頻度主義の統計学では難しかった、正規分布以外の分布に基づく回帰分析も可 分析とは、データセットの中に質的なデータを含む場合、その質的なデータの違いによる分析を行うことも可能なので そればかりでなく、べイズ統計を使えば、階層的なモデルを用いた回帰分析も可能です。階層的モデルに基づく回帰 義に基づく統計学の回帰分析よりも、各種パラメータの存在範囲を明確に示すことができます。 は回帰分析です。通常の頻度主義に基づく統計学でも回帰分析は可能ですが、べイズ統計に基づく回帰分析は、頻度主 本章では、 R のパッケージである「 RStan 」を使ってべイズ統計解析を行う方法を解説します。本書で取り扱う分析 3.1 はじめに http://www.masaki.j.u-tokyo.ac.jp/utas/utasindex.html ください。 属します。また本書は同データの使用ガイドラインに基づいて書かれております。詳しくは下記のサイトをご覧 下、「東大・朝日調査」 ) の有権者調査のデータを使用しております。同データの権利は東京大学谷口将紀研究室に 本書第 3 , 4 章では、実験用のデータとして、 2014 年に行われた「東京大学谷口研究室・朝日新聞社共同調査」 ( 以

3. Bayes Analysis Maniax―フリーソフトで始めるベイズ統計解析

1.3 事前確率の設定と理由不十分の原則 7 従って、赤い玉を引いた場合、それが箱 A からのものである確率は」ということになります。また、 B からのもの でる確率は 2 です。このように求めた確率を事後確率といいます。 なお、べイズの定理は、事象召が互いに排反な事象 BI , B2 , ... , B んで表されるとき、次のように拡張することがで きます。 べイズの定理 P い川 ( 川 ) : = 1 p い ) p ( ) 1.3 事前確率の設定と理由不十分の原則 ところで、先ほどの例題における、二つの箱の内ひとつが選ばれる確率は等しいというのは、どういう根拠に基づい ているのでしようか ? 実は、これは特に一定の根拠に基づいているわけではなく、問題のために適当に考えたものに 過ぎません。 べイズ統計においては、このように事前確率を理由や根拠が不十分のまま適当に設定するというものも許容されます ( 理由不十分の原則 ) 。頻度主義に基づく統計学においては、どちらの箱が選ばれるかについてはあらかじめパラメータ として与えられますが、べイズ主義の場合はこれも確率変数になるばかりではなく、主観的な予測を入れることもでき ます。このような考え方は、客観性を重視する頻度主義の考え方からは受け入れることは難しいかもしれませんが、主 観を入れることにより、思考のプロセスを重視することができるのです。 例えば先ほどの例題の場合、玉を引く人が直前に「俺は A の箱から引いてやる ! 」とか言っていたのだとしたら、 常識的に考えれば A が選ばれる確率は飛躍的に高まります。仮に A が選ばれる確率 P い ) を 0.8 と考えたとすると (P(B)=O. 2) 、赤い玉を引いた場合、その玉が A から来た確率は次のようになります。 1 x 4 x 8 8 P()I 赤 ) = ( 1.10 ) 4 5 ・ 8 4 x 5 x 3 15 このような、頻度主義から考えれば素っ頓狂な発想も、べイズ統計解析 と、 A である確率は飛躍的に高くなります。 では入れることができるのです。 1 4 確率の更新 べイズ主義に基づく解析では、計算によって求められた事前分布を、次の計算の事後分布として使うことができま す。これを確率の更新と言います。 例えば、前々節の例題の試行のあと、玉を箱に戻して、同じ箱からもう一度玉を引くと、また赤だったとします。 うなると、赤の出る確率の低い A である可能性は低くなります。そこで、先の例題で求めた、目の前の赤い玉が A か らきたものである確率は 1 であるというものを新たな事前分布として設定すると、赤い玉を引いたときにそれが箱 A から来たものである確率は次のようになります。 P( 赤い ) P い ) 1 1 3 1 x 1 x 8 P()I 赤 ) = ( 1 ・ 11 ) 4 3 ・ 8 4 x 3 x 3 この確率を別の観点から見てみましよう。赤を 2 回連続で引く確率を P ( 赤赤 ) とする場合、箱 A , B それぞれにおけ る確率は次に用になります。 ( 1 ・ 8 ) ( 1.9 ) 2 一 9 P( 赤 )

4. Bayes Analysis Maniax―フリーソフトで始めるベイズ統計解析

18 11 12 13 14 15 16 17 18 19 20 20 このデータをプロットすると右のようになります。このデータの Y を 0 .962450252 0 .958467720 0 .693674708 0 .693644477 0 .691644469 0 .592220489 0 .460733641 ー 0 .004462148 ー 0 . 106713568 ー 0 . 125764464 19 18 17 16 15 14 13 12 11 X で回帰するのが本節のモデリングです。このモデリングを、式で示し > test_lm く一 1m(YNX,data=dataset) で行ってみます。 とはいえ通常の回帰分析でもできますので、念のため通常の回帰分析 Y = 0 十 bX 十び てみます。 ( 3 ・ 1 ) 第 3 章 RStan によるべイズ統計解析 0 0 0 > test_lm Ca11 : lm(formula = Y Coefficients: (lntercept) ー 1 . 8719 15 X , data dataset) 0 . 1537 通常、回帰分析ではコマンド lm を使いますが、 RStan で回帰分析を 行う場合は、 Y が平均。十Ⅸ、分散の正規分布に従うものと仮定し 20 ( 3 ・ 2 ) ます。 data { int N ; real X [N] ; real Y[N] ; parameters{ real a; rea1 b; real く Iower=O> sigma; Bayes Analysis Maniax それに基づいて作成したモデルを作り、「 stan-testl. stan 」というファイルに保存します。内容は次の通りです。 フリーソフトで始めるべイズ統計解析

5. Bayes Analysis Maniax―フリーソフトで始めるベイズ統計解析

16 c : \Rt001s\mingw—32\bin c : \Rt001s\mingw—64\bin ノ、と、兄タ人′ーーハーししゝ′」 0 、 4 しレー気レノノユ - ノ・′′、ノ 0 、ソ 0 実行する追カ内スりを選択してください。 追加タスりの選択 習 Rtoo セットアップ 《戻る⑧ 団 5 を、当如 n 0 ロ 1 物 0 師「 y C:VP ′ 0 笋 nF 地 5 ( 6 ) ( 0 wnF 地 Acron おいルⅳ 0 第 ( : V 円四「 am F 地、 F 距 A ロ聞 V れ下 ; C : V 円 0 笋聞 1 F 5 ( 6 洋 Sy を m [ 田 32 ; 団 c:vp ′「聞 1 F 地 5 ( 5 ) 聞 M 改五 8 ・ 6 ・ 016 : PATH 洋 Pr 内尾 rnD 獸、地め醜日、声・叩み物工 P 4V 駅を Vb : Vp ... ( い「を飛 vall*.• インストール時に実行する追加タス選択して、「次′、をりリッりしてくださ 第 3 章 習 Rtoo セットアップ Edt 物を PATH ( 地おⅥ行 . 、 y 、 t ” P ・物 0 : V 望ⅸ鰐 ( : V 望 00 ー n 漸 -32M か 0 ; 0 : 00 居 vm -6 b•n : ( : VP 「 09 「 0010 お VO 「“地 V va 均 ap 飜 h ′ C 洋 Pe 4 第虱をツ n : C 洋 Pe 4 、ツ RStan によるべイズ統計解析 ( 洋円内 m 日厄 5 ( 6 声 eM は五 8. & 016 : 日 ( 6 声 ] u Sy emsV [ m32 : F 5 ( 5 洋 common F A001 Ⅵ臧 u 制 Fi V : 日 ( 6 洋 ( 001n2n 日 sVA び on V Ⅵ代 4 町 ( 物 P 「内 m Files ( 5 声 Common FilesVAcronis*SnapAPN %Sy<emRu»t%Vsyqem32; % Sy 印 : % Sy 引を mRoot % VSy 駄 2E32 、 Wtkrn ; %SYSTEMRCK)T%-VSyÄem32VWindow90werShelWv1. OV 面コー これで Rtools をインストールすれば、 R で C 十十言語が使えるようになるはずです。先の導入ページには次のよう なテストプログラムがあるので、これを起動させてみます。 fx く一 inline : : cxxfunction( signature (x " integer" return Sca1arRea1 ( INTEGER(x) [O] * REAL(y) [ 0 ] ) numerIC これを読み込ませた後、 fx( 2L, 5 ) と入力すれば、次のようになるはすです。 > fx く一 inline: :cxxfunction( signature(x , y + return Sca1arRea1( INTEGER(x) [ 0 ] * REAL (y) [ 0 ] ) > fx( 2L, 5 ) [ 1 ] 10 3.3 RStan の基本と単回帰分析 numerIC それでは早速、 RStan を使ってみましよう。そもそも RStan は、確率論に基づくモデリングを行うソフト Stan を Rd で動くようにしたものであり、 R 以外にも Python や Matlab にもあるようです。 Stan では主に回帰分析をベース とした数理モデリングを行います。 RStan は R のパッケージなので、使用するためにはますパッケージをインストー ルしましよう。 > install . packages ( ) rstan' repos='https://cloud.r-project . 0 て g / ) RStan を使用したい場合は、次のようにしてパッケージを読み込みます。 dependenc i e s =TRUE ) Bayes Analysis Maniax フリ ーソフトで始めるべイズ統計解析

6. Bayes Analysis Maniax―フリーソフトで始めるベイズ統計解析

48 第 5 章 KH Coder でのべイズ統計 閑話休題、この分析では 65 冊の本をいくっかの分類に分けていますが、その中の分類として時期があります。これ は、社会の変化に応じて、 65 冊の著作を時期区分に分けたものです。具体的には次のような時期になります ( 「普及版 「劣化言説の時代」のメディアと論客」 pp. 73-74 ) 。 第 1 期 ( ~ 2003 年 ) / 第 2 期 ( 2004 ~ 2006 年 ) 香山的「解離」言説の社会・政治への「適用」・・・ 2004 年に 「就職がこわい」私〉の愛国心」「生きづらいく私〉たち」 ( それぞれ、講談社、ちくま新書、講談社現代新 書 ) が刊行されるが、これらの著書は、従前より香山が「インターネット・マザー』や「多重化するリアル』 などで述べてきた、「解離」概念を中心とする若者論を、それぞれ労働・雇用問題、政治、そして若年層の心 理の掘り下げという各方面に「適用」するようになった。 第 3 期 ( 2007 年 ~ 2011 年 3 月 ) 劣化言説へのコミットと活動範囲の広がり・・・ 2007 年に「なぜ、あの人は仕 事中だけ「うつ」になるのか」の原書である『仕事中だけ「うつ病」になる人たち一一 30 代うつ、甘えと自 己愛の精神分析』 ( 講談社 ) と、「なぜ日本人は劣化したか』 ( 講談社現代新書 ) を上梓し、本格的に若い世 代に対する「攻撃」を開始するようになる。他方で、「しがみつかない生き方一一 - 「ふつうの幸せ」を手に 入れるルール」「人生の法則ー一知るだけでココロがらくになる 10 章」 ( 幻冬舎新書、 2009 年 / ベスト新書、 2010 年 ) などの自己啓発書や、「しがみつかない死に方一一一孤独死時代を豊かに生きるヒント」「いのち問 答 - ーー最後の頼みは医療か、宗教か ? 」 ( 後者は対本宗訓との共著 / 共に角川 One テーマ 21 / それぞれ 2010 年、 2011 年 ) などといった老後に向けた死生観関係の著作も上梓されるようになっている。第 2 期に上梓 された「スピリチュアルにハマる人、ハマらない人」 ( 幻冬舎新書、 2006 年 ) が、「スピリチュアルにハマ る」側としての「若者」を批判的に採り上げる著作だったのが、老後の不安などに「スピリチュアル」的な ものに " ハマる " ことは、これらの著作では肯定的に評価されているのが特徴である。 第 4 期 ( 2011 年 4 月 ~ 2012 年 6 月 ) 東日本大震災の「不安」に応える・・・ 2011 年 3 月 11 日に東北地方太平洋 沖地震が発生、東日本大震災と呼ばれる様々な被害をもたらすが、 2011 年 4 月に講談社現代新書より刊行 された「〈不安な時代〉の精神病理」 ( 講談社現代新書 ) には、 ( 著作の執筆自体は震災以前から用意されてい たものであろうが ) 既に東日本大震災に関する記述がまえがき・あとがきを中心に見られる。また 2011 年 5 月から翌年にかけて、第 2 ・ 3 期に香山が一般書として刊行した自己啓発書が次々と文庫化されているが、 これらにも東日本大震災を意識して加筆されたものが多い。そこで第 4 期に限り、この時期に文庫として再 版された著作もこの時期のカテゴリに入れるものとする。ただし、 2011 年 6 月に刊行された「なせ、あの 人は仕事中だけ「うつ」になるのか」については、原書が第 3 期の入りを特徴付けを象徴する著作と見なし たことを優先し、例外的に第 3 期に入れる。 第 5 期 ( 2012 年 10 月 ~ ) 政治・社会評論への復帰・・・ 2012 年 10 月に香山は「絆ストレス 「つながりた い」という病』 ( 青春新書 intelligence) を刊行するが、そこでは ( 震災後に香山自身もまた「 3 ・ 11 後の心 を立て直す』 ( ベスト新書、 2011 年 ) などで煽っていた ) 「心のつながりの復活」などの言説を批判した本を 上梓し、その後は急速に震災前の言説に回帰していった。政治には「「独裁」入門』 ( 集英社新書、 2012 年 ) 、 若者論には「若者のホンネーーー平成生まれはなにを考えているのか』 ( 朝日新書、 2012 年 ) で復帰する。ま た、 2014 年の「弱者はなぜ救われないのか』「ソーシャルメディアの何が気持ち悪いのか』「劣化する日本 人」 ( それぞれ、幻冬舎新書、朝日新書、ベスト新書 / すべて 2014 年 ) では「リべラルの責任」ということ をしきりに述べるようになるが、特に第 3 期以降に通俗保守的な価値観に立って若者論や劣化言説を産出し てきた香山にそのことを言い立てることはできるのか、と問い直す必要はあるだろう。 この 5 つの時期分類に基づいて、 KHCoder のべイズ学習機能を使ってみようと思います。 KHCoder のべイズ学 習機能は、「ツール > 文書 > べイズ学習による分類 > 外部変数から学習」を使います。ここで学習に使う外部変数を選 択し、「交差妥当化を行う」にチェックを入れて学習を行います。使用する単語は、全体での占有率が 20 % になる、出 現率 264 以上の自立語です ( MeCab の辞書は同書で使ったものをそのまま使用 ) 。 Bayes Analysis Maniax フリ ーソフトで始めるべイズ統計解析