Slide 1

Slide 1 text

R.Q.(リサーチ・クエスチョン)構築という視点から 伝統的検定手法とベイジアン推定を比較する 第4回 ITリスク研究会 2024/12/07 津田塾大学 数学・計算機科学研究所 特任研究員 藤本一男 [email protected]

Slide 2

Slide 2 text

自己紹介(1) •1955年 東京生まれ •ガラス加工の町工場の息子 •家族 • かみさん • 娘が二人。 • 二人とも自立。 • 一人は、5年前に母親に。孫が2人。じーさん、となる。

Slide 3

Slide 3 text

自己紹介(2) • 学部は、上智大学 理工学部電機電子工学科。卒研は「血液の光学的特性」 • 最初の就職(1978)は工業計器メーカー。 • 転職して、コンピュータ系へ(1980)。 • IBMメインフレーム端末の日本語化など。 • 1990から、東京都立大学(一時期、首都大学東京)の社会科学研究科に入学。 • 1992 社会学修士「G.Hミードにおけるシンボルとコニュニケーション」 • 終了後、会社にもどり、営業企画部門に異動。 • 2002 作新学院大学に転職:担当、社会学、社会調査。 • 2020/3 定年退職(専任教員18年間、その後1年間は客員教授で非常勤講師) • 2020年度2021年度、実践女子大学「社会心理学調査実習」担当。 • 2021年度からは、東京女子大学「社会統計学I、II」 • 現在、津田塾大学 数学・計算機科学研究所 特任研究員、国立情報通信研究 機構(NICT) 招へい専門員。

Slide 4

Slide 4 text

研究テーマ:「対応分析」 • 2004年ごろ?Rと出会う。 Ver1.9x? • 社会調査実習の指導で使う。 • 「対応分析」との出会い Correspondence Analysis の翻訳本の「解説編」でR で検算、を書く。『対応分 析入門』 • 2020年11月翻訳『対応分析 の理論と実践』

Slide 5

Slide 5 text

研究テーマ(その2) • 科研費「データの幾何学的構造に注目したカテゴリカル・デー タの研究」★これが本命 • KAKENでの説明 https://nrid.nii.ac.jp/nrid/1000040348090/ • 「対応分析」ってなんですか、というコラム • 作新学院大学の図書館ニュースレター:https://bit.ly/2XyorN2 • 近似された運動強度として心拍測定を元にLT(乳酸閾値 lactate threshold)直前のペース走をモニタする方法の研究 • 趣味のランナーです。もう歳なので、無理せずノンビリ、でも軽快 に!をモットーに走ってます。

Slide 6

Slide 6 text

構成 • 問題の所在 • 頻度主義による信頼区間解釈の 不自然さ • 頻度主義の検定論 • 解決できなことは問として立ち 現れない • 伝統的検定手法としてのt-検 定とベイジアン推定 • t-検定による分析 • Sleepデータのベイジアン推定 • t-検定と同じことをする • 生成量による柔軟な判定 • R.Qの「拡張」 • 実演(rstanでMCMC) • ベイスを使えば問題解決、で はない。 • 精緻な研究仮説へ • 付録 • ベイズの定理とMCMCの間

Slide 7

Slide 7 text

概要 本発表は、研究者が使用可能である統計的検定技法が、R.Q. (リサーチクエス ション)を規定してしまう本末転倒の事態があることを指摘します。 その原因に伝統的統計学の検定論(NHST:帰無仮説有意性検定)がありますが、 この問題を解決する手掛かりに、ベイジアン推定を用いることができること、た だし、それは、必要条件でしかないこと、また、rstan のような MCMC を用いてベ イジアン推定を行う際に、生成量を活用することで、帰無仮説の棄却による対立 仮説の採択をもって研究仮説が証明されたとする短絡を回避することが可能にな ることを述べます。 こうしたことを、歴史的データ(Student の睡眠データ)を用いて、t- 検定と MCMC を用いたベイジアン推定を比較し例示しました。 この比較を踏まえると、立てられる R.Q の内容が調査仮説の検討の精緻さ に関係していることが明らかとなり、ひいては、調査仮説の上位に位置する研究 仮説の精緻さを支えるものであるということが明確になります。 こうした点を踏まえて、ベイズアプローチを使うポイントを考えていきたい。

Slide 8

Slide 8 text

統計理論の三角形 • 伝統的統計理論(頻 度主義)に対して、 ベイジアン統計学が 対置される。 • しかし、Efronは、 1996の「21世紀の Fisher」論文で、有名 な統計学の三角形を 提唱。 • 本稿は、これを念頭 においています。

Slide 9

Slide 9 text

頻度主義陣営 p値! ベイジアン陣営 p値?なんですかそれ?

Slide 10

Slide 10 text

超簡単な統計学史 科学の文法 KPearson 近代統計学の父 R.A.Fisher Neyman=E.Pea rson ベイズ統計学 2016ASA会長声明 p値ハッキング 現代統計学* データサイエンスの現場?では 常識。 オーソドックス統計学* 『実験計画法』で 「逆統計」 (ベイズ統計学)批判 ベイス統計は、戦時下活用 されて成果をあげていた。 コンピュター環境が必要.. ずっと日の目をみないできた。 Efron 計算機統計学

Slide 11

Slide 11 text

NHST:Null Hypothesis Significance Testing • 帰無仮説有意性検定 • オーソドックス統計学で統計的検定と呼ばれるのはこれ。 • 立証したい仮説(AとBは差がある:対立仮説と呼ぶ)に対して、そ れと反対の仮説(AとBには差がない)を帰無仮説として、データか ら検定統計量(いわゆるp値)を求める。 • 現実が帰無仮説状態だとして、手に入ったデータの状態が起こる確 率(p値)を確認する。 • それが、0.05(いわゆる5%水準)よりも小さければ、手にしている データが発生する確率は(5%より)「小さい」として、そんなこと はたまたま発生したのではなくて、帰無仮説の状態には、ない、と 考え(帰無仮説を棄却)て、対立仮説を採択する。

Slide 12

Slide 12 text

この有意性検定は、定式化されている • データから検定統計量をもとめる • t-検定 • カイ二乗検定 • …検定 • その検定統計量から、p値をもとめる • 教科書的には、数表を使う。この検定統計量なら、p値は、xxよりも 小さい、とか、大きいという判定をする。 • しかし、ExcelでもRでもずばり、計算できる。(教科書にはやり方が のってない…)

Slide 13

Slide 13 text

ここである取り違え • 帰無仮説が棄却され対立仮説が採択された。 • では、対立仮説を生み出した、R.Q、として研究仮説が証明されたこ とになるのか。 • 帰無仮説は棄却されなかった。 • では、AとBに差異はない(「帰無仮説」状態である)と主張していい のか。

Slide 14

Slide 14 text

NHSTの体系 母集団 標本 標本に対する統 計的な分析 推定・検定 記述統計学 推測統計学 確率論 標本(部分)から母集団(全体)を推測するのは 形式論理的にはアウト!

Slide 15

Slide 15 text

NHSTを支える決め技! https://419kfj.shinyapps.io/CLT2/ • 大数の法則 • 標本数nが大きくなれば、標本統計量は、母統計量に近くなる。 • 母分散をシグマとすると、 σ2 n • 中心極限定理 • 標本をたくさん取るとする。(ここ、強調しないと後で躓く) • その標本ごとに、標本統計量(平均値など)を考える。 • その標本統計量は分布する。 • その分布は、母分散がなんてあっても「正規分布」で近似できる。 • サイコロ実験で理解する中心極限定理。https://419kfj.shinyapps.io/CLT2/ • この仕組みをつかって、信頼区間を考え、統計的検定を考える(組 み立てる)

Slide 16

Slide 16 text

t-検定の実際 • t-検定の生みの親、Student(ゴセット氏のペンネーム)論文、 The Probable Error of a Mean, 1908 のデータを使って、計算例を 考える。 • その事例 • 2種類の睡眠促進剤がある(ここではA剤、B剤とする)。これを10人 の被験者に投与して、その効果を測定した。 • この結果に対して、t-検定を行う。(B剤の方が効果が大きいか) • データセットは、Rにhistoricalデータ(sleep)として付属してい るので、それを使う。

Slide 17

Slide 17 text

データセットの分布の確認 投与は同一の患者に対して行われているので、 患者ID1はID11と、2は12と対応している。

Slide 18

Slide 18 text

基本統計量 diffは、A剤とB剤の効果平均値の差 この差が有意であるかどうかを検定する。

Slide 19

Slide 19 text

A剤、B剤の効果 と効果の差(B-A)の分布

Slide 20

Slide 20 text

これに対してt-検定を行った結果 Alternative=“greater” で片側検定 p値は、0.001416なので、0.05より 小さい。 よって、帰無仮説(B-A =< 0)は 棄却され、対立仮説、B-A>0が 採択される。 信頼区間は、 0.867〜無限大 推定平均値は、1.58 これで、メデタシめでたし、か…。

Slide 21

Slide 21 text

t-検定だと、ここでおしまい! • B剤のほうがA剤よりも効果が「有意にある」ことが明らかに なった。 • めでたし、めでたし、 • というかここまでしかできない。 • 差は有意である! • ということになるのですが….。 • 次にベイズでやってみます。

Slide 22

Slide 22 text

ベイズ推定の原理 • ここでt検定のalternativeとして実行する方法は、いわゆる「ベ イズの定理」からは少し距離があります。 • その説明は、後の方でやらせてもらいます。 • まずは、rstanというおそらく一番使われているパッケージを つかって、実行してみます。 • スクリプトは、次ページに

Slide 23

Slide 23 text

RmarkdownとRstan_sleep.rstan scr<-“Rstan_sleep.stan” # ここで、Rstan_sleep.rstanというrstanファイルを指定(次ページ) data <-list(N1 = 10, N2 = 10, x1 = sleep.df$A, x2 = sleep.df$B ) Par <-c("mu1","mu2","sigma1","sigma2","delta","delta_over","delta_over1") war <- 1000 ite <- 11000 see <- 1234 dig <- 3 cha <- 3 fit<- stan(file = scr, data = data, iter=ite, seed=see, warmup=war,pars=par,chains=cha)

Slide 24

Slide 24 text

// The input data is a vector 'y' of length 'N'. data { int N1; int N2; real x1[N1]; real x2[N2]; } // The parameters accepted by the model. Our model // accepts two parameters 'mu' and 'sigma'. parameters { real mu1; real mu2; real sigma1; real sigma2; } transformed parameters { real sigma1sq; real sigma2sq; sigma1sq = pow(sigma1,2); sigma2sq = pow(sigma2,2); } // The model to be estimated. We model the output // 'y' to be normally distributed with mean 'mu' // and standard deviation 'sigma'. model { x1 ~ normal(mu1,sigma1); x2 ~ normal(mu2,sigma2); } generated quantities{ real delta; real delta_over; real delta_over1; delta = mu2 - mu1; delta_over = step(delta); delta_over1 = delta > 1 ? 1 : 0; } ← 生成量の定義

Slide 25

Slide 25 text

rstanを使った処理のリザルト ここで注目していただきたいのは、 mu1、mu2、delta、delta_over mu1、mu2は、A剤、B剤平均値 Deltaは、mu2-mu1、つまり B-A。 delta_overは、deltaが>0という 生成量

Slide 26

Slide 26 text

delta_over • delta_over は、B-Aが>0であれば1をたてているので、そ の平均値は、全体のサンプリングの中で、B-A>0の割合になっ ている。 • delta_overの値は、0.94。 • つまり、B-A>0 がTRUEは、全体の94%を占めている、ということが わかる。 • delta の推定平均値は、1.60になっていて、t-検定の検定統計量の1.58 とほぼ同じ値である。 • ここまでであれば t-検定と同じ。

Slide 27

Slide 27 text

生成量を追加して計算する • ここで、A剤とB剤の睡眠促進の効果(単位は時間)を何ステッ プかにわけたものを計算させる。 • 1時間 • 1.5時間 • 2時間 • 3時間 • こういう設定は、t-検定ではできない • B-A>0 か?と見ているだけ。

Slide 28

Slide 28 text

修正するrstanファイル generated quantities{ real delta; // 平均値B-平均値Aの変数 real delta_over; // B-Aが正である場合に、1、else0 real delta_over1;// B-Aが1以上の場合に、1、else0 delta = mu2 - mu1; delta_over = step(delta); delta_over1 = delta > 1 ? 1 : 0; delta_over15 = delta > 1.5 ? 1 : 0; delta_over2 = delta > 2 ? 1 : 0; delta_over3 = delta > 3 ? 1 : 0; }

Slide 29

Slide 29 text

これのresult B-A>0 は94% B-A>1は73% B-A>1.5は54% B-A>2は34% B-A>3は9% という結果を確認できる。

Slide 30

Slide 30 text

こうした「手法」が手元にあるのであれば、 • ResearchQuestionとして • R.Q.1 睡眠延長時間が 95%の確率で A < B である。 • R.Q.2 睡眠延長時間が、A < Bで1時間以上の差がある確率はいくつか。 • R.Q.3 睡眠延長時間が、BはAの1.5倍となる確率はいくつか。 • などなど。 • を用意していいわけである。 • 睡眠導入剤の評価方法は、まったくの門外漢であるので、なん とも言えないが、「ちょっとでも効果あり」つまりB-A > 0の 判定で効果ありというのではなく、(例えば)1時間の差があ る、というような主張をすべきだと思われます。

Slide 31

Slide 31 text

生成量をつかって • この実験にもとづけば、B剤の効果がA剤の効果よりどのくらい 長いかを以下の確率で推定できる。 • 1時間 73% • 1.5時間 54% • 2時間 34% • 3時間 9%

Slide 32

Slide 32 text

ここまでのまとめ • ベイジアン推定で、生成量の設定が自由にできるのことを踏ま えて、意味あるRQの設定を行うことが可能になる。

Slide 33

Slide 33 text

Rstanをつかった処理の実演 (準備が間に合えば…)

Slide 34

Slide 34 text

しかし、ベイズを使えば、OKなのか • ベイズ推定を使えば、決めこまかいR.Q.に対応した生成量を計算す ることができる。 • では、ベイズを使えば「問題」解決なのだろうか。 • ベイズは正しい?????? • t検定を使う場合でも同じなのだけど、そもそもなにをしているのか、を明 確にしているか。 • 「検定」といって、なにをしているのか。 • 伝統的検定論がすばらしく定式化されているために、その部分を明 治しなくても、話が「通る」環境ができてしまっている。お作法と しての検定! • ベイズ推定をお作法にするのか…。 • お作法につるには、ちょっと面倒。

Slide 35

Slide 35 text

ベイズ推定の特徴を整理する • 従来の統計分析 • データが手に入ってから分析スイッチがオンになる。 • ベイズ統計学 • データを手に入れる前に、存在する情報を「事前分布」として手にい れたデータに加味して分析スイッチがオンになる。 • この事前分布の扱いが論争の一つの焦点 • 私的ベイズ • 個人、組織(企業など)で処理するならなにつかってもOKでしょう。 • 公的ベイズ • その事前分布に対する評価で対立があった場合、どうするのか。

Slide 36

Slide 36 text

ベイズの定理からMCMCへ • ベイズの定理 • これは頻度主義者(Fisherでも)認める数学的な定理。 • 事前分布の扱いをめぐっては、私的/公的、いろいろあり。 • ベイズの定理を使って、ベイズ更新(事前分布を設定し、そこに手 にいれたデータを投入し事後分布を計算する)を行うパターン • ベイズ推定を解析的に可能になる例 • 取得したデータ(ここから尤度関数を計算)に対応する共役事前分布を決定 できる場合 • データ:二項分布の場合…ベータ分布 • データ:正規分布の場合....正規分布 • 分布が複雑で、こうした共役分布をきめられないとき… • MCMCの出番。モンテカルロ積分。マルコフ連鎖モンテカルロ積分。

Slide 37

Slide 37 text

ベイズ更新の例 • スパムフィルタ • 厚労省の(少人数地域の) 死亡率補正 • https://www.mhlw.go.jp/to ukei/saikin/hw/jinkou/othe r/hoken24/dl/sankou.pdf • この例は、藤田『見えない ものを見る--それがベイ ズ』に紹介されています。

Slide 38

Slide 38 text

検討すべきポイント • 三中2018は、以下の3点を整理 • ベイジアンMCMCの利用は急速に拡大しているが、以下の3点は以 前から指摘されている。 1. 事前分布をどのように設定するのか、その妥当性あるいは結果への影響は どのようにして評価されるのか。 2. MCMCが収束したかどうかはいつどのようにして判定すればいいのか 3. ベイズ主義をめぐる”哲学的”な問題点はなに一つ解決していない。 • ベイジアンMCMCに限ったことではありませんが、大多数の統計 ユーザは、手近にある役にたつ統計手法に手を伸ばしているにすぎ ません。(略)役にたつ統計ツールの背後に潜む理論的問題、ある いは、哲学的問題に時には目を向けることも必要だと私は(引:三 中先生)こころから言いたいです。

Slide 39

Slide 39 text

まとめ • Gossetのsleepデータを素材に、t-検定ではできない生成量の 定義にって得られるresultの拡大/深化の可能性をみてきました。 • これを通して、R.Q.の立て方が、使用するツールに引っ張られ ている可能性を提示できたと思います。(豊田2015) • それを踏まえて、ではベイジアンになればいいのか、ベイズア プローチは正しいのか、という問題に向き合うことになりまし た。それはt-検定など伝統的な検定手法においても同様のはず です。 • お作法としての検定はやめにしないと…。

Slide 40

Slide 40 text

ベイズの定理からベイジアン推定へ • 朝野煕彦 は、xxでベイズの定理からベイジアン推定までは5ステップ ほど超えないとならないと整理している。 • HMCをExcelで実現する、ということをやってみると、 このベイジアン推定によるリサンプリングの手法の原 理がみえてくる。MCMCは難しいのかも。

Slide 41

Slide 41 text

参考文献 • 柳川堯. 『P値: その正しい理解と適用』.統計スポットライトシリーズ 3. : 近代科学社, 2018年. • 朝野熙彦. 『ビジネスマンがはじめて学ぶベイズ統計学: ExcelからRへステップアップ』, 2017年 • 朝野煕彦, 土田尚弘, 河原達也と藤居誠. 『ビジネスマンが一歩先をめざすベイズ統計学: Excelから Rstanへステップアップ』. 東京: 朝倉書店, 2018年. • 三中信宏. 『統計思考の世界:曼陀羅で読み解くデータ解析の基礎』. 技術評論社, 2018年. • 豊田秀樹, 編. 『基礎からのベイス統計学:ハミルトニアン モンテカルロ法による実践的入門』 朝 倉書店, 2015年. • 豊田 秀樹. 『はじめての統計データ分析: ベイズ的<ポストp値時代>の統計学』 朝倉書店, 2016年. • 藤田和也. 『見えないものを見る--それがベイス:ツールによる実践ベイズ統計』. 27年. • シャロン・バーチュ・マグレインと富永星. 『異端の統計学ベイズ』草思社, 2013年. • 松浦健太郎 『StanとRでベイズ統計モデリング』. 共立出版, 2016年. • Wasserstein, Ronald L., Nicole A. Lazar. 「The ASA Statement on p -Values: Context, Process, and Purpose」. The American Statistician 70, no. 2 (2016年4月2日): 129–33. https://doi.org/10.1080/00031305.2016.1154108. • 日本語訳:日本計量生物学会 https://www.biometrics.gr.jp/news/all/ASA.pdf • Student, The Probable Error of a Mean, 1908, Biometrika Vol. 6, No. 1 (Mar., 1908), pp. 1-25 (25 pages) Published By: Oxford University Press https://www.jstor.org/stable/2331554 • Sleep Data https://stat.ethz.ch/R-manual/R-devel/library/datasets/html/sleep.html

Slide 42

Slide 42 text

謝辞 本研究の遂行に際しては「対応分析研究会」(東京芸大 磯直樹先生主 宰)での討議に助けられています。つたない発表に対して、さまざまな側 面からアドバイスをくださった研究会参加のみなさまに感謝いたします。 また、ベイズ統計学に関しては、Tokyo.Rでもお世話になっているコグラ フ株式会社の塩見登志和さんに、ベイズを含めた統計学全般については、 東京女子大学情報処理センターの浅川伸一さんにアドバイスをいただきま した。理解しきれてない部分も多々あると思います。内容的な責任は、す べて私にあることはいうまでもありません。 なお、本研究は、科研費基盤研究(C)「データの幾何学的配置に着目し たカテゴリカルデータ分析手法の研究」(20K02162)および、基盤研究 (B)「現代日本の文化と不平等に関する社会学的研究:社会調査を通じ た理論構築」(22H00913)の助成を受けています。記して感謝いたしま す。