$30 off During Our Annual Pro Sale. View Details »

対応分析研究会 第20回 報告スライド

419kfj
August 30, 2023

対応分析研究会 第20回 報告スライド

『多重対応分析』の第5章、の2回目。
組合せ論推定の説明。

419kfj

August 30, 2023
Tweet

More Decks by 419kfj

Other Decks in Research

Transcript

  1. 対応分析研究会
    第20回
    2023/08/30 ver1.0
    津田塾大学 数学・計算機科学研究所
    藤本一男
    [email protected]

    View Slide

  2. 研究会の履歴
    テキストは、Greenacre2017=2021『対応分析の理論と実践』
    オーム社2020
    o 第1回 2020/11/14 はじめに:翻訳にあたって
    o 第2回 2021/01/22 第1章〜第3章
    o 第3回 2021/02/18 R入門/Rで対応分析
    o 第4回 2021/03/26 プロファイル空間の幾何学 第4、5章
    o 第5回 2021/04/17 プロファイル空間の幾何学(2)第7、8、9章
    o 第6回 2021/05/22 三つの特徴的な事例(10章)と慣性の分解(11章)
    o 第7回 2021/07/10 サプリメンタリ・ポイント(12章)、対応分析biplot(13章)
    o 第8回 2021/08/27 推移と回帰の関係(14章)、行と列のクラスタリング(15章)
    o 第9回 2021/10/09 第16、17章
    o 番外 2021/11/06(日本社会学会発表予行演習)
    o 第10回 2022/01/08 多重対応分析:MCA(18章)、 同時対応分析:JCA(19章)
    以下でMCAとしているのは、Le Roux &
    Rouanet2010=2021大隅・小野・鳰による翻訳書。
    o
    第11回(MCA第1回)2022/02/28 第1章、2章
    o
    第12回(MCA第2回)2022/03/25 第3章 多重対応分析の方法(1)
    o
    第13回(MCA第3回)2022/04/30 第3章 多重対応分析の方法(2)
    o
    第14回(MCA第4回)2022/06/04 第4章 構造化データ解析(1)
    o
    第15回(MCA第5回)2022/08/20 第4章 構造化データ解析(2)
    o
    第16回(MCA第6回)2023/01/23 speMCA、CSAを残差行列から
    展開する(1)
    o
    第17回(MCA第7回)2023/02/28 CSA(2)
    o
    第18回(MCA第8回)2023/04/29 CSA (3)
    o
    第19回(MCA第9回)2023/06/10 IDA(1)
    o
    第20回(MCA第10回)2023/08/30 IDA(2)
    2023/08/30 対応分析研究会第20回 2

    View Slide

  3. お知らせ
    • 「幾何学的データ解析(GDA)」では分散はどのように分解されるのか
    ―GDA で ANOVA の手法を用いるために押さえるべき事がある―」『津
    田塾大学紀要』(55)119-139、学術リポジトリに公開されてます。
    • URLはこちらです。http://id.nii.ac.jp/1234/00000345/
    • 2023/07/22 日本サイバーセキュリティ学会・ITリスク研究会で「IT技術
    者のための統計分析」と題して対応分析の紹介をしました。
    • スライドはこちらに公開してあります。https://bit.ly/45r8pC7
    • 2023/9/6 東大社研付属データアーカイブセンターの「計量分析セミ
    ナー」で対応分析/多重対応分析の講師を担当します。
    • シラバス https://www.evernote.com/shard/s15/sh/b555edb4-48e8-26d4-45e8-
    c957576f41bf/oSJ2qLUxst5Uk9yY4npzgjeiGyrflRHAmRLLdzAf0pdh2hM6QI4Q0ijHi
    g
    • 受講申し込み締め切られました。満員御礼! ポスター:https://bit.ly/3YN6rcM
    • 2023/09/26-のCARME2023@Bonnで報告します。
    • Preliminary Program https://bit.ly/3sdSXuj
    • 2023/10/8−9の日本社会学会
    • 磯先生、平石先生と同じ部会で報告(予定)
    2023/08/30 対応分析研究会第20回 3

    View Slide

  4. 本日の報告
    • 前回(19回)の内容を整理します。→ 第5章 2回目の復習。
    • 続けて(前回の宿題を!)
    • 組合せ論的枠組み、並べ替え検定(リサンプリング)の整理
    • Rouanet先生の名前が主にでてきますが:
    • 「組合せ論」と一緒にでてくる「集合論的方法」Set-Theoretic Methodsとはなにか。
    • そして質的比較分析(QCA)と集合論アプローチ の関係。
    • 関連するRouanet先生の論考。
    • ここを掘り下げていって、
    • 再度、第5章に戻ってきます。
    2023/08/30 対応分析研究会第20回 4

    View Slide

  5. ようやく全体が見えてきました!
    • IDA(帰納的データ解析)の面白さ
    • 第4章までは、MCAを中心に記述統計の展開。
    • 第5章は、MCAのresultをもとにした推測統計(inference)の
    話。
    • 推定、検定をめぐる方法論的な主張が展開されている。
    • ただ、IDA までつかった事例は少ない??(LeRoux先生たちも、GDA
    やってもχ2検定くらい、と)
    • BlueBook2004やCombinatorial Inferenceみても同じ事例ばかり…

    View Slide

  6. ともあれ、再度第5章の構成
    • 組み合わせ論的枠組み
    • 典型性検定
    • 軸ごと
    • 平面
    • 同質性検定
    • 軸ごと
    • 平面
    • 信頼楕円
    検定 -------- p 値をめぐって計算、考察。並べ替え検定
    信頼区間の二次元拡張 ------ これは、ブートストラッピングで?

    View Slide

  7. 組合せ論的枠組み
    • リサンプリング一般?
    • 並べ替え検定
    • 前回(第19回)、計算は追えました。
    • 手法としては、リサンプリング(並べ替え検定)であることはわかっ
    たが、その背景というかそれの理論的な特徴はなんなのだろう…。
    • つまり問題は、
    • 「組合せ論的枠組み」とはなにか。
    • 「典型性検定」「同質性検定」の概念の特徴はなにか。従来手法では
    なにに対応するのか。

    View Slide

  8. 計算機統計学(リサンプリング)
    • Rizzo, Maria L, 石井一夫、村田真樹. 2011. Rによる計算機統計学. Tokyo: オーム社.
    • 本書の原著は第2版がでている。内容的に大きな変更はない。Rのグラフィクフがggplotベースに
    なっている。サンプルコードは、著者のGitHubで公開されている。
    • 汪金芳・田栗正章・手塚集・樺島洋介・上田修功,2003,『計算統計I 確率統計の新しい
    手法』岩波書店、統計科学のフロンティア11(2018に新しい版?)
    • Bruce, Peter C, 1953-, Andrew Bruce 1958-, 黒川利明(1948-)・大橋真也. 2018. データ
    サイエンスのための統計学入門: 予測、分類、統計モデリング、統計的機械学習とRプロ
    グラミング.,オライリージャパン
    • 3.3リサンプリング、3.3.4 並べ替え検定:データサイエンスの基本
    • Greenacre, Michael(訳:藤本一男),『2020. 対応分析の理論と実践: 基礎・応用・展
    開』, 東京: オーム社.
    • 第30章「並べ替え検定」
    • CARME-N.orgのCAiP2のサンプルコードに「並べ替え検定」の部分がある。(CAiP3版
    のサンプルコードは、いつ出すのやら…)
    • # Permutation test of the positions of the books
    • http://carme-n.org/?sec=code2

    View Slide

  9. Greenacreのコメント(CAiP3 p235)
    このあたりに、GDA/MCA
    とIDAのつながりの「秘密」
    がありそうです。
    分布のtypo

    View Slide

  10. しかし、よくわからない…。
    • 組合せ論枠組み?
    • 典型性検定?
    • 同質性検定?
    • 手法としては、リサンプリング(並べ替え検定)を使うことは
    わかったが、その背景というかそれの理論的な特徴はなんなの
    だろう…。
    • Rouanetは、確率論に対して「アルゴリズム」という表現使っ
    ている。これは、計算アルゴリズムであり、非確率論というこ
    とを含意してもよう。

    View Slide

  11. 前回(19回)の宿題
    • IDAとGDA/MCAの関係
    • IDA(典型性検定、同質性検定)は、GDA/MCAを離れて一般化できる
    のか(リサンプリング手法として)。それとも、そうしたリサンプリ
    ング手法をGDA/MCAに適用したものがIDAなのか…。
    • IDAは推定・検定の系譜の中でどこに位置するのだろう…。
    • BlueBookの第8章、また、FreedmanのNonstacstic論文や
    Rouanet et al. の”New Ways in Statistical Methodology”、また、
    タイトルもそのものズバリのLe Roux & Bienaise,
    2019, ”Combinatorial Inference in Geometric Data Analysis”を読ん
    でみたい。
    2023/08/30 対応分析研究会第20回 11

    View Slide

  12. 読んでみました!
    2023/08/30 対応分析研究会第20回 12

    View Slide

  13. ヒントを探して(その1)
    • タイトルそのまま!『GDAにおける組合せ的推定』
    • 執筆者たち
    • Brigitte Roux
    • パリ・デカルト大学応用数学研究所(MAP5/CNRS)およびパ
    リ政治学院政治研究センター(CEVIPOF/CNRS)準研究員。
    1970年、パリ科学大学で応用数学の博士論文を執筆。
    • Solène Bienaise ⭐️
    • データサイエンティスト。2013年、パリ・ドフィーヌ大学でピ
    エール・カズとブリジット・ルルーの指導の下、応用数学の博
    士論文を完成。
    • JEAN-LUC DURAND
    • パリ第13大学心理学科の准教授。LEEC(Laboratoire
    d'Éthologie Expérimentale et Comparée)の研究員。1989年に
    パリ・デカルト大学で心理学の博士論文を執筆、アンリ・ルア
    ネの指導を受ける
    • 本書は、 Bienaiseさんの博士論文を発展させたもの(序章よ
    り)。
    • https://books.google.co.jp/books/about/Combinatorial_Inf
    erence_in_Geometric_Dat.html?id=ctqMDwAAQBAJ&redir_
    esc=y
    2023/08/30 対応分析研究会第20回 13

    View Slide

  14. Combinatorial Inference in Geometric Data
    Analysis,Perface(序章)抜粋
    • 本書の主な目的は、幾何学的データ解析(GDA)における、
    より一般的には探索的データ解析(EDA)における統計的推定
    の問題を直視することである。
    そのEDAでは、通常、仮説検定は、観測データの古典的な分布
    の仮定(正規分布、ランダムサンプリング、などなど)は有効
    ではなく、結び付けて考えらえていない。
    2023/08/30 対応分析研究会第20回 14

    View Slide

  15. 序章 (抜粋 つづき)
    • 我々の考えでは、統計的推論は帰納的データ分析(IDA)として実
    施されるべきであり、それは記述的データ分析の自然な拡張である
    (Rouanet et al 1990, 1998)1.
    実際、フィッシャー流の推論の伝統は、統計教育では(Tukeyの勇
    敢な努力にもかかわらず)軽視されていると言わざるを得ないが、
    研究室の実践ではいまだに生きている。この研究者の伝統では、有
    意性検定は効果の存在という記述的結論を拡張するための自然な道
    具である。
    まず最初にすべきことは、このような伝統的な推論方法を徹底させ
    ることである。
    • 1 実際、IDAは、FisherからTukeyに至るまで、Neyman-Pearson学派と強
    く対立しながら、統計的推測の長年にわたる(非支配的とはいえ)一部で
    あった。
    2023/08/30 対応分析研究会第20回 15

    View Slide

  16. はじめに introduction 抜粋
    • 1.1 組合せ推論について
    • 並べ替え検定はリサンプリング法の一群に属し,結果を得るためにデータが
    繰り返しリサンプリングされ,再調査されることからそう呼ばれる.これら
    はデータに依存し,分析に必要なすべての情報が観察されたデータに含まれ
    ていると考える.データの分布に関する仮定は必要ない。
    並べ替え検定は計算機集約的であるため、実用化には強力なコンピュータの
    出現が必要であり、そのため実際に使用されるようになったのはごく最近の
    ことである。
    • 並べ替え検定は,Fisher (1935)とPitman (1937)によって始められ,Romano
    (1989); Edgington (2007); Pesarin and Salmaso (2010); Good (2011)などに
    よってさらに開発された2.
    • 2 統計的並べ替え検定の歴史的発展については,Berry ら (2014)を参照.
    2023/08/30 対応分析研究会第20回 16

    View Slide

  17. はじめに introduction 抜粋 つづき
    • 4 観測値の検定統計量を並べ替え分布上に位置づけることによって、p-値
    を決定する。つまり、検定統計量の値が観測値分布のなかで極端である
    か、または観測値と同じくらい極端である再配置の割合を計算する3。
    • 3 有意水準に関するこの組み合わせ論的概念は,Freedman and Lane (1983)によっ
    て提示された「非確率論的解釈」に正確に対応する.(論文PDF取得可能)
    • 並べ替え検定は一般に,正確検定と近似検定の2種類からなる.
    正確検定では,検定統計量の並べ替え分布が,観測値のすべての可能な並
    べ替え(網羅的手法)で,または並べ替えの数が大きすぎる場合は,すべ
    ての可能な並べ替えの無作為部分集合(モンテ・カルロ手法)4について
    計算される.
    • 4 アルゴリズムによるシミュレーションを行うことは、有意水準に相当することに注
    意すべきである。
    2023/08/30 対応分析研究会第20回 17

    View Slide

  18. 組合せ論的枠組み
    • 「典型性検定」も「同質性検定」も厳密版は、並べ替え検定(permutation
    test)。
    • しかし、「並べ替え検定枠組み」と呼ばずに、「組合せ論的..」 と命名している
    のは、そこで用いられている手法が、並べ替えに限定されないからか。
    • それなら、「リサンプリング枠組み」といえば、ブートストラップも含まれてる
    のに、と思うが、そうは呼ばない。
    • それは、記述と推定を結ぶものとして「確率論」ではなく「割合」をおくという
    非確率論的推定論が位置している。
    • そこに現れるp値の考え方が、Neyman=PearsonではなくFisher流です。
    • なお、Combinatorial Inferenceは、 Ove Frankの命名らしい。NewWaysの4.3.4に
    ある。
    2023/08/30 対応分析研究会第20回 18

    View Slide

  19. ヒントを探して2
    New Ways in Statistical
    Methodplogy
    • 第4章が、Henry Rouanet による
    「Introduction to Combinatorial
    Inference」
    • 「組合せ推論入門」
    • ここに展開されていることがMCA
    第5章の説明の背後にあるものだ
    と理解していいと思います。
    • この4章を読んでわかったこと。最初
    からよむべき文献です!
    2023/08/30 対応分析研究会第20回 19

    View Slide

  20. Introduction to Combinatorial Inference
    (抜粋)
    • Introduction
    • この章では、80年代初頭から(我々)数学・心理学グループが開発してきた、頻度論的
    推論に代わる「組合せ推論」つまり「集合論的推論」Set-throretic Inference(セク
    ション4.3参照)を紹介する: Rouanet, Bernard, Lecoutre (1986) and Rouanet,
    Bernard, Le Roux (1990).
    その動機は、一般的な手順の「妥当性の仮定*」が満たされない場合に使用できるフレー
    ムワークを研究者に提供することである。組合せ論手順の作成では、アルゴリズムと統
    計的フレームワークの間にある、以前の章での解離(the dissociation)が使用される。
    大雑把に言えば、組合せ手順のアルゴリズム(計算結果?)は従来の検定(結果?)と
    一致し、確率論枠組みは破棄される。
    その結果、データ解析においては、多くの慣れ親しんだアルゴリズムを維持することが
    可能となり、一方、組合せ推論の結論は、典型性、同質性といった新しい概念で述べら
    れ、非確率的な方法で定式化されている。
    *分布の正規性、等分散性など。
    • まず、典型性検定(4.1節)、均質性検定(4.2節)を紹介する。そして、組合せ推論の作
    り方を概説し、関連する視点について議論する(4.3節)。
    2023/08/30 対応分析研究会第20回 20

    View Slide

  21. 4節が「典型性検定」
    • 4.1 典型性検定、4.1.1 典型性を問題にする状況(次ページにリ
    スト)
    • 4.1.2 典型性問題
    • 前述の状況(次ページ参照)は、我々が典型的な状況と呼ぶものの例
    である。このような状況では、与えられた観察のグループがあり、ま
    た既知の参照母集団がある。ある統計量、たとえば、興味のある変数
    の平均が注目される。そして,典型性問題が提起され,直観的に次の
    ように定式化される.「観察されたグループは,参照母集団に同化で
    きるか,またはそれの非典型あるか」,またはより具体的に.「観察
    されたグループについて,(興味のある統計量にしたがって,集団に
    関して)典型性レベル★をどのように評価できるか」。
    • ★ここにp値のFisher的解釈
    2023/08/30 対応分析研究会第20回 21

    View Slide

  22. 4.1.1 典型性を問題にする状況(項目)
    • 委員会
    • あるクラブのメンバー(N人)の中から委員会(n人)が選出任命される。この委員会は、平均年齢や男女比などに関し
    て、クラブの非典型的なものであると宣言できるだろうか。
    • 小学生
    • パリの地下鉄ルーブル駅で、20人の小学生のグループが降りたが、そのうち7人は赤毛である。フランス人の赤毛の割合
    は10%程度と仮定すると、この小学生グループはフランスの小学生の典型的な姿であると推測できるか。
    • 休暇
    • ある旅行者が8月に20日間をリゾート地で過ごしたが、そのうち7日間は雨の日であった。広告によると、8月の雨の日の
    割合は10%である。観光客は、その休暇期間が宣伝されている気候の非典型的なものであったと推論できるだろうか。
    • 才能のある子供たち
    • ある心理学者は、5人の才能ある子供の追跡調査において、ある課題に対する彼女のグループの平均成績が30で、SDが6
    であることを発見した、一方、同じ年齢の子供たちの参照集団では、平均は25であることが知られている。彼女は、自分
    の才能ある子供のグループが、平均して標準的な子供より優れていると主張する権利があるのか。
    ★頻度主義的方法だと、分布の正規性を確認して、それに応じて、検定項目のt-検定、Wilcoxson順位和検定?
    2023/08/30 対応分析研究会第20回 22

    View Slide

  23. 4.2節が「同質性検定」
    • 4.2 同質性検定、4.2.1 同質性を問題にする状況(次ページにリス
    ト)
    • 4.2.2 同質性問題
    • 前述の状況は,我々が同質性の問題状況と呼ぶものの例である.観測値の複
    数のグループがあり,興味のある統計量が検討される.直観的に定式化して
    しまうと,“グループをマージできるか,またはそれらは異質なのか?"; "同質
    性のレベルを評価できるか?" という同質性の問題が提起される.
    • 典型性問題と同様、従来の有意検定をしたくなる。しかし、ここでもデータ
    生成過程ではランダム性は仮定されていない。組合せ的同質性検定を得るに
    は、典型性の場合と同じように、もともと頻度論的な枠組みで考案された有
    意性検定を取り出して、そのアルゴリズムだけを保持すればよい。簡単な歴
    史的説明は,Edgington (1987, p. 17-21)を参照されたい.
    2023/08/30 対応分析研究会第20回 23

    View Slide

  24. 4.2.1 Homogeneity Situations 同質性状況
    • サマースクール。
    • あるサマースクールの参加者が、いくつかの指導グループに振り分けられる。コースの終わりに、参加者に試験
    が行われ、各グループの平均点の間にかなりの差があることが明らかになった。グループの平均点に関して異質
    であると言えるだろうか。
    • 賃金の修正
    • (Faverge, 1956, p. 88からの引用)。ある工場の作業場で賃金システムの修正が導入される。作業場の12人の労
    働者(「被験者」s1 から s12)について、生産高(1時間当たりの品目数)は以下の通りである(aは修正後、b
    は修正前):
    • s1: a 220, b 203 s2: a 226, b 222 s3: a 254, b 246 s4: a 246, b 221
    • s5: a 296, b 287 s6: a 222, b 224 s7: a 293, b 275 s8: a 247, b 246
    • s9: a 240, b 246 s10: a 269, b 258 s11: a 236, b 216 s12: a 199, b 197
    • 個々の生産高の差(“after”-“before”)の平均は8.92、(補正後の)S.D.は9.59である。このように、記述的に
    は、かなりの平均値の増加(S.D.の0.67倍)がある。2つの得点グループ(“before ”と “after”)は異質なのか?
    2023/08/30 対応分析研究会第20回 24

    View Slide

  25. 4.3 組合せ推論
    • ここで「確率論モデル」に対して「組合せモデル」が対置される。
    • 確率によって論じる
    • 割合によって論じる
    • 確率と相対度数は同型であり、より一般的な比率の計算の同じ形式規則に従う。
    しかし、確率の意味論は不確実性を意味し、度数の意味論は観測された統計デー
    タを意味する。同型だからと2つの実体を混同することは、構造的誤謬
    (structural fallacy)を犯すことになる。
    第1章の付録2で、確率と度数の誤謬的同化を論じた。Rouanet(1982)では、確率
    論的言語を用いて正規分布のような理論的分布を導入する際に起こる、誤った逆
    の同化を論じた。
    したがって、組合せ推論への第一歩は、このような分布を「確率」分布ではな
    く、「様式化された」度数分布として特徴づけることにある。これに沿って、
    P(Z > 1.96) = 0.025という表記は、「1.96より大きい標準得点の割合は2.5%であ
    る」と解釈される。このような非確率的な表現を採用している統計学の教科書は
    実際にあり、特にFaverge(1956)のような心理測定の伝統に基づいて書かれた
    教科書はそうである。私たちの統計教育では、Lecoutre and Lecoutre (1979)、
    そしてRouanet, Bernard, Le Roux (1990, chapters 2 and 3)に反映されているよ
    うに、常にこの伝統に忠実である。
    2023/08/30 対応分析研究会第20回 25

    View Slide

  26. 4.3.4 組合せデータ解析
    • ここ数年、統計学のトレンドは、確率モデルの代わりに(計算)アルゴリズムを
    重視する「組合せデータ解析」である。この傾向は特に分類の分野で活発で、半
    割(half-split)、ジャックナイフ(jacknife)、ブートストラップ(bootstrap)な
    ど、確率論的な表現がしばしば誤解を招くような技法も当然含まれると考えられ
    ている。
    すぐに、「集合論的推論」(“Set-theoretic inference”)がこの傾向の一部であるこ
    とが明らかになった。 - Arabieら(1996, p. 5)などはこの点をよく理解している。
    したがって、Rouanet他(1990)*は、「組合せデータ解析」の流れに沿って書
    かれた最初の統計的推論入門書であるように思われる。このつながりを強調する
    ために、Ove Frankはこのアプローチを 「組合せ論的推定」“Combinatorial
    Inference ”と呼ぶことを提案し**、私たちはこの歓迎すべき提案を確実に採用す
    ることになった。
    • * Rouanet H.Bernard J.M., Le Roux B,1990, Statistique en Scienec Humaines: Analyse
    Inductive des Données. Paris :Dunod
    • ** Ove Frank ? 文献表にはないが、統計学者らしい。例えば、
    https://www.jstor.org/stable/2287315 “Cluster Inference by Using Transitivity
    Indices in Empirical Graphs”
    2023/08/30 対応分析研究会第20回 26

    View Slide

  27. 4.3.6 関連する視点の紹介
    • モーリス・アレイズと非確率的モデル(Maurice Allais and nonprobabilistic
    models)
    • Edgingtonと非ランダムサンプル
    • David Freedmanと非統計的設定。Freedman and Lane (1982, 1983*)におい
    て、著者らは以下の問題を考えている。“非集中的な(すなわち非ランダムな)
    設定でデータが得られ、このデータのある属性について、この属性は人工物とし
    て棄却できるのか、それとももっと本質的な説明が必要なのか、という問題が提
    起される。” 著者らが提案し、セックスバイアスの例(セクション2.3)などの例
    を通して説明された解決策は、組合せ推論の精神に非常に近いものである。この
    ような示唆に富む論文が体系的な発展を遂げず、David Freedmanとその同僚が
    書いた統計入門書(Freedman et al, 1991**)が、あらゆる点で最も賞賛に値す
    る本でありながら、頻度論の視点にとどまっていることを残念に思うかもしれな
    い。
    * Freedman and Lane,1983,” A Nonstochastic Interpretation of Reported
    Significance Levels”,Journal of Business and Economic Statsitics 1(4)
    ** Freedman
    2023/08/30 対応分析研究会第20回 27

    View Slide

  28. 2023/08/30 対応分析研究会第20回 28

    View Slide

  29. Le Roux, Rouanetの文献から引き出す
    キーワード
    • 組合せ論的フレームワーク ⇔ 確率論的フレームワーク
    • 割合 ⇔ 確率
    • 組合せ推定 = 集合論推定
    • アルゴリズム ← 計算機統計学?(確率論に対置して)
    • David Freedman(非確率論推定), Ove Frank(Combinatorial
    Inference の命名者) , Patrick Suppes(GDAの命名者)
    • 集合論手法( Set-Theoretic Methods)から →
    QCA(質的比較分析)
    • QCAとKKV
    • 『社会科学の方法論争 原著第2版』勁草書房
    2023/08/30 対応分析研究会第20回 29

    View Slide

  30. あまり掘り下げられなかった
    • 集合論的方法(Set-Theoretic Method)
    • 質的比較分析(QCA)
    • Rouanet論文からはここへの流れがあるのかと思ったのだけど
    …。
    2023/08/30 対応分析研究会第20回 30

    View Slide

  31. 2023/08/30 対応分析研究会第20回 31

    View Slide

  32. 定量分析法vs定性分析法
    • 定量分析法(KKV:著者のイニシャル)
    は、回帰分析中心で、定性分析(カテゴ
    リカルデータ)はこれも、それに合わせ
    てこそ科学になる、という主張。論争の
    概要が記録されている。
    • 定性分析の重要性、事例:定量分析の延
    長にはなく、独自のアプローチが必要、
    と主張されていて、11章に、David
    Freedman が「科学的探究のタイプにつ
    いて −定性的推論の役割−」事例を並べ
    て書いている。
    Freedmanの名前は、第二版序論でも頻出。
    • 定量分析と定性分析の手法をめぐる論争。
    「変数の社会学」vs「関係性の社会学」
    と重なる議論。
    2023/08/30 対応分析研究会第20回 32

    View Slide

  33. この定量分析法 vs 定性分析法の論争は
    • 「変数の社会学」批判では、KKVへの批判を共有できそう。し
    かし、対置されるQCAとは異なる展開になりそうです。
    • CA/MCAによる数量化、構造化。
    • KKVの回帰分析中心主義?に対して、定性派は、QCAを対置し
    ている。しかし、そこでの定性データの扱いは:
    • 集合論的アプローチで分析可能、というもの
    • 対応分析、MCA/GDAが実践している形での「数量化」は参照されて
    いない。
    • その数量化のあとの構造化データ解析、帰納的データ解析は表れてこ
    ない。
    2023/08/30 対応分析研究会第20回 33

    View Slide

  34. QCAに関連して
    • SAGEのCase Based Methods HandBookには、対応分析に関
    連する論文が二本掲載されていました。
    • きちんと読んでないですが、Burt Matrix CAというような表現
    なので、MCAです。ただし、QCAの展開をみても、注目してい
    るのは「変数」「カテゴリ」であって、SDA(構造化データ解
    析)が強調する個体への言及はない(というか見つからない
    ….)。
    • Burt行列へのCAの適用によるMCAは、変数空間を生成。個体空間を生
    成するには、個体を変数空間に追加変数として追加することになりま
    す。これが指示行列(indicator Matrix)へのCAとの違いです。詳細は、
    Greenacre, 2017, CAiP3(『対応分析の理論と実践』参照)
    2023/08/30 対応分析研究会第20回 34

    View Slide

  35. 2023/08/30 対応分析研究会第20回 35

    View Slide

  36. 組合せ推定 関連文献
    • ◾️入口
    • Le Roux & Rouanet, 2020, Multiple Correspondence Analysis, SAGE (大隅、小
    野、鳰, 2021,『多重対応分析』オーム社)の第5章、帰納的データ解析
    (IDA)。典型性検定、同質性検定。
    • ◾️タイトルそのもので!
    • Brigitte Roux & Solene Bienaise & Jean-Luc Durand,2019, Combinatorial
    Inference in Geometric Data Analysis, CRC press
    • Le Roux & Rouanet,2004, Geometric Data Analysis Correspondence Analysis to
    Structured Data Analysis, chap8 Inductive Data Analysis, Kluwer Academic
    Publishers
    • Henry Rouanet &Marie-Claude Bert,2000(1998),"Chapter 4 Introduction to
    Combinatorial Inference", New Ways in Statistical Methodology From
    Significant Test to Bayesian Inference 2nd edition, Peter Lang (第4章 組合
    せ推論への導入)
    2023/08/30 対応分析研究会第20回 36

    View Slide

  37. ◾️非確率的統計推定
    • Freedman, David & Lane, David, 1983, A Nonstochastic
    Interpretation of Reported Significance Levels, Journal of Business
    & Economic Statistics, Vol.1 No4 Oct 1983,報告された有意水
    準の非確率的な解釈
    • Henry Rouanet, Jean-Marc Berard, and Bruno Lecoutre,
    1986, Nonprobabilistic Statistical Inference: A Set-Theoretic
    Approach, The American Statistician , Vol. 40, No. 1 (Feb.,
    1986), pp. 60-65 (6 pages), Published By: Taylor & Francis,
    Ltd. https://www.jstor.org/stable/2683134 非確率的統計的推
    定:集合理論(ST:A Set-Theoretic )アプローチ
    2023/08/30 対応分析研究会第20回 37

    View Slide

  38. ◾️QCA(質的比較分析)
    • (Re Thinking Social Inquiry,2010),デヴィッド・コリアー、
    ヘンリーブレイディ、ジェイソン・シーライト,「因果的推論に
    おける説得力の源泉−KKVとは異なる方法論の構築に向けて
    −」, 泉川泰博、宮下明聡,『社会科学の方法論争 多様な分析道
    具と共通の基準 [原著第2版]』勁草書房、177−217(用語解説
    も参照のこと)(chap11がDavid Freedmanによる「科学的探
    求のタイプについて−定性的推論の役割−」)
    • Ronald L. Breiger,2009 , On the Duality of Cases and
    Variables: Correspondence Analysis(CA) and Qualitative
    Comarative Analysis(QCA),David Byrne and Charles C.
    Ragin(eds.) The SAGE Handbook of Case-Based Methods,
    SAGE publications,2009, 243-259
    2023/08/30 対応分析研究会第20回 38

    View Slide

  39. ◾️QCA(質的比較分析)つづき
    • JICAのQCA解説
    • https://www.jica.go.jp/activities/evaluation/qca.html
    • 石田淳「テーマ別研究動向「質的比較分析[QCA]」」『社会学
    評論』61(1)90-99
    https://www.jstage.jst.go.jp/article/jsr/61/1/61_1_90/_pdf
    • 森大輔「質的比較分析(QCA)のソフトウェア」
    http://park18.wakwak.com/~mdai/qca/software.html
    2023/08/30 対応分析研究会第20回 39

    View Slide

  40. 関連しそうな論考
    • TukeyのJackKnife
    • Efonのブートストラップ
    • Efonの「21世紀のFisher」
    • Efronの三角形
    この三角形の上側と下側に
    線が引けそうです。
    個々の手法をどちらに含め
    るかは検討が必要ですが。

    View Slide

  41. FisherのP値(推論)vs
    Neyman=Pearson(判定)
    • 柳川尭2018『P値』近代科学社
    • 第5章「統計的推論と統計的判定:真の検定を求めて」
    • https://www.evernote.com/shard/s15/sh/fa2a67ce-6883-4cf4-
    81cf-
    c0c92f47a4ec/f4682NqQwWfUQniAsFQSEYYaeCwflxG2bqB6_fIY8Tt
    rJT5mha4XVf3vtg

    View Slide

  42. MCAの第5章に戻ります!
    2023/08/30 対応分析研究会第20回 42

    View Slide

  43. で、「組合せ論枠組み」とはなんなのか
    • 確率ではなく、割合でp値を出す。
    • p値は、Neyman=Peason体系のように判定基準ではなく、レ
    ベルを表すものとして解釈していく。
    • だから、非典型性の検定、非同質性の検定、ではなく、典型性検定、
    同質性検定、なのだろうか..。
    (シャピロウィクスの正規性検定のように、帰無仮説が「正規分布し
    ている」なので、正規性を(積極的には)確認できないので、組合せ
    論でできないか考えてみたが、そもそも正規性を仮定する必要がな
    かった..。)
    • Fisher派としては、p値によって「有意」が確認されたら、そ
    の先に検討に入る。(p値で有意が確認されたら、対立仮説が
    「正しい」ではないぞ、ということ。)
    2023/08/30 対応分析研究会第20回 43

    View Slide

  44. t-検定のaltenativeということでしょうか
    • 典型性検定
    • 参照母集団の平均とのズレ
    • 同質性検定
    • 二つの部分集合の平均のズレ
    • これを(もろもろの仮定を必要とする)「確率論」の枠組みで
    はなく、記述統計のresultの割合で解釈していく。
    2023/08/30 対応分析研究会第20回 44

    View Slide

  45. 典型性レベルを表す指標としてのp値?
    • 第4章のデータで、典型性検定を有意(非典型)/非有意(典
    型ではないとは言えない)の「判定」ではなく、典型性レベル
    でみるとどう見えるかを見てみる。
    • データは、嗜好データ(taste example)
    • GDAtools2.0のdimtypicality()を使う。
    • (前回やっている…)
    2023/08/30 対応分析研究会第20回 45

    View Slide

  46. GDAtoolsV2.0で加わったfunction
    dimtypicality(前回のスライドから)
    p117の+9.34はこの
    test.stat:検定統計量
    です。
    p値はゼロ。
    2023/08/30 対応分析研究会第20回 46
    コードを読んでみましたが、
    使われているのは「近似計
    算」つまり正規分布近似で
    計算してました。
    並べ替え計算をやるなら、
    繰り返し数の設定などが必
    要。それに、時間がかかり
    ます!

    View Slide

  47. GDAtoolsV2.0で加わったfunction
    dimtypicality(見どころ変更)
    2023/08/30 対応分析研究会第20回 47
    統計検定量(test.stat)
    は、典型からのズレの
    方向。
    p値は、典型性レベル。
    小さいほど、非典型、
    つまり特徴あり。
    大きいのは典型水準
    大。

    View Slide

  48. GDAtools::dimtypicalityは
    ANOVA?
    • dimtypicality(resmca, vars,dim=c(1,2), max.pval
    =1)
    2023/08/30 対応分析研究会第20回
    48
    dim1 dim2 dim… supval1 supval2 sumpval..
    resmca MCAのresult vars 追加変数
    cat1
    cat2
    cat3

    varsのcatでgroup化したdim1の平均値を
    dim1全体の平均値と比較。

    View Slide

  49. 同質性検定homog.test はMANOVA?
    • homog.test(resmca, vars,dim=c(1,2)
    2023/08/30 対応分析研究会第20回
    49
    dim1 dim2 dim… supval1 supval2 sumpval..
    resmca MCAのresult vars 追加変数
    cati



    catj
    varsの二つのcatでgroup化したdim1の平均値を
    比較。
    平均値
    cati
    平均値
    catj

    View Slide

  50. まとめ
    • こんな風に整理してみました。
    • ご意見いただければと思います。
    • t-検定、分散分析の非確率論的置き換え、と考えたら、使える
    場面がいくらでもありそうです。
    • 典型性、同質性のレベル指標としp値を使う(仮説の判定、判
    断ではなく)ということが、「統計的推測を現在よりも自由に
    用いることができるし、また用いるべきである」p113、にいう
    「自由に」の意味として理解できそうです。
    2023/08/30 対応分析研究会第20回 50

    View Slide

  51. 残っているのは…。
    • ベイジアン推定との連
    携。
    • これは(も)少し、時間
    をください!
    • 第6章の事例で、パーキ
    ンソン研究がでてきます
    が、New waysの6章の
    事例がやはりパーキンソ
    ン研究。
    2023/08/30 対応分析研究会第20回 51

    View Slide

  52. 今回は、ここまでです!
    でも、ここまでくれば、計算できるだけでなく、解釈にもトライ
    できると思います。事例を!
    次回は、第6章のケーススタディをやらせてください!
    9月末のCARME2023のあとでしょうか…。
    2023/08/30 対応分析研究会第20回 52

    View Slide