Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
対応分析研究会 第6回報告スライド
Search
419kfj
May 23, 2021
Research
0
7
対応分析研究会 第6回報告スライド
『対応分析の理論と実践』オーム社刊2020、の第10章、11方の報告
419kfj
May 23, 2021
Tweet
Share
More Decks by 419kfj
See All by 419kfj
Methods and Examples of Correspondence Analysis
419kfj
0
70
01 Introduction
419kfj
0
46
02 ベクトル行列演算とCAの数理
419kfj
0
55
03 CAの数理その2
419kfj
0
21
04 データの準備
419kfj
0
24
05 CAとMCA事例
419kfj
0
22
06 MCA_01
419kfj
0
23
07 MCAからGDAへ
419kfj
0
43
08 SDAからIDAへ
419kfj
0
20
Other Decks in Research
See All in Research
CSER 2024 Keynote
tsantalis
0
120
【ICASSP2024】音声変換に関する全論文まとめ【Parakeet株式会社】
supikiti
0
700
自動運転・AIシステムの問題を賢く探す・賢く直す / Smart Search & Repair Techniques for Automated Driving Systems and AI Systems
ishikawafyu
0
180
第60回名古屋CV・PRMU勉強会:CVPR2024論文紹介(Vision Transformer)
waka_90b
1
140
論文紹介/Expectations over Unspoken Alternatives Predict Pragmatic Inferences
chemical_tree
1
220
「並列化時代の乱数生成」
abap34
2
310
Matching 2D Images in 3D: Metric Relative Pose from Metric Correspondences
sgk
0
240
SSII2024 [OS1] 画像認識におけるモデル・データの共進化
ssii
PRO
0
460
医療分野におけるLLMの現状と応用可能性について
kento1109
11
3k
SSII2024 [OS3] 基盤モデル(オープニング)
ssii
PRO
0
320
LLMとの共同執筆は文章の多様性を減らすか?
kuri8ive
4
800
「確率的なオウム」にできること、またそれがなぜできるのかについて
eumesy
PRO
7
2.8k
Featured
See All Featured
The Illustrated Children's Guide to Kubernetes
chrisshort
47
48k
Designing for Performance
lara
604
68k
Why Our Code Smells
bkeepers
PRO
334
56k
How STYLIGHT went responsive
nonsquared
93
5.1k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
88
16k
[RailsConf 2023] Rails as a piece of cake
palkan
46
4.6k
A better future with KSS
kneath
235
17k
The Cult of Friendly URLs
andyhume
76
5.9k
Product Roadmaps are Hard
iamctodd
PRO
48
10k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.2k
The Power of CSS Pseudo Elements
geoffreycrofte
71
5.2k
Code Review Best Practice
trishagee
62
16k
Transcript
対応分析研究会 第6回 3つの特徴的な事例(第10章) と慣性の分解(第11章) 2021年5⽉22⽇ ver1.6 5/23 津⽥塾⼤学 数学・計算機科学研究所 藤本⼀男
[email protected]
本⽇の構成 • 第10章の事例3の解説 • あわせて、RでCAを⾏うステップ • 第11章の慣性の分解 • 第9章のsmokeデータの理解 2021/5/22
対応分析研究会 第6回 2
第7章 最適化尺度 法 第6章 次元を縮減 する 第5章 Χ2距離をプ ロットする 第4章
Χ2距離と慣 性 第1章 散布図と マップ 第2章 プロファイ ルとプロファイル 空間 第3章 質量と重⼼ 2つの量変数の関係を⾒る → 散布図 カテゴリカル変数をどう扱うか 距離! CAの基本概念:プロファイル それが位置するプロファイル 空間。三⾓座標でみていく。 プロファイル:周辺度数→質量 頂点とプロファイル、 平均プロファイル(期待値プロ ファイル)、重⼼ 距離: Χ2距離 慣性: Χ2値/n(プロファイル値で 表現) 最⼤慣性:頂点に⼀致 最⼩慣性:原点(重⼼)に⼀致 Χ2距離をユークリッド距離 に変換し図⽰する。 分布の同等性(分布的に等価) ここまで3次元。これからより 多数の次元を扱う。 低次元下位空間を同定する(回帰 との⽐較) SVD:特異値分解 近似:表⽰の質 第10章 さらに3つ の事例 DS5:科学研究者の評価 DS6:海底試料中海洋種 DS7:著者ごとの⽂字種 慣性の分解 ⾮対称マップ/対称マップ 慣性の⼤きさによる表⽰ の特徴 第9章 2次元表⽰ 主軸のネスティング プロファイルと頂点 ⾮対称マップ/対称マップ 第8章 ⾏分析と列 分析の対称性 頂点位置とプロファイル スケーリング係数 主座標と標準座標 正準相関:最⼤化 整数尺度(likert) 解釈の基準 プロファイル空間の幾何学(1) プロファイル空間の幾何学(2) 2021/5/22 対応分析研究会 第6回 3 DS1 DS2 DS3 DS4
DS5:科学研究者の評価 第10章 3つの典型 事例 2021/5/22 DS5:科学研究者の評価 DS6:海底試料中海洋種 DS7:著者ごとの⽂字種 慣性の分解 ⾮対称マップ/対称マップ
慣性の⼤きさによる表⽰ の特徴 第11章 慣性の分解 第12章 サプリメン タリ・ポイント 第13章 対応分析バ イプロット 第14章 推移と回帰 の関係 第15章 ⾏と列のク ラスタリング 第16章 多重表 第17章 積み重ね表 第18章 多重対応分 析 第19章 同時対応分 析 第20章MCAのス ケーリング特性 第21章 サブセット 対応分析 DS5:科学研究者の評価 DS5:科学研究者の評価 DS5:科学研究者の評価 DS5:科学研究者の評価 DS8:⾷品店における 年齢分布 DS3:健康⾃⼰評価 組み合わせコーディング DS9:働く⼥性に対する 態度 DS9:働く⼥性に対する 態度 DS9:働く⼥性に対する 態度 第21章 サブセット 対応分析 第21章 サブセット 対応分析 第21章 サブセット 対応分析 第21章 サブセット 対応分析 〜 30章まで 対応分析研究会 第6回 4
第10章 3つの典型事例 2021/5/22 対応分析研究会 第6回 5
3つの事例の概要 • データセット5 科学研究者の評価(10 x 5) • プロファイル・ポイントの分散は⼩さい(原点近くに密集) • ⾮対称マップと対称マップ
• 次元解釈の⼿順 • データセット6 海底資料中の海洋種の存在量(92 x 13) • 海洋⽣物学における典型的なデータセット • データセット7 6⼈の著者ごとの書籍にみる⽂字種の度数(12x 26) 2021/5/22 対応分析研究会 第6回 6
⼿順 • データを⽤意する • この事例はExcelファイル • データセット:http://www.carme-n.org/ • 読み込む •
PCにダウンロード • クロス表に対する基礎的分析はしておく。 • χ2検定、⾏分析、列分析(mosaic plot) • CAに投げる • res.CA <- CA(データ) • resultを評価する • スクリープロット(慣性の分解度合い) • ⾮対称マップ、対称マップで概要確認 • 空間(⾮対称マップの標準座標の⽅の軸)へのプロファイルポイントの寄与を確認。→ 軸の性格付 け • (このあと、サプリメタリ処理をして再度CAとか続く) 2021/5/22 対応分析研究会 第6回 7
CA処理前後の処理 CA(対応分析) CAを⾏う前処理 CAのresultの評価 分析の本体 2021/5/22 対応分析研究会 第6回 8 mosaic
plot factoextra explor etc.. このLoopをいかに効率よくまわすか。 tidyverse。
グラフ化 • reslutを描画する • 探索過程でのグラフ化 • 最終出⼒としてのグラフ化 • オプション •
対称マップ • ⾮対称マップ • インターラクティブ・グラフ • explor • グラフのポイントへの修飾 • ⽮印表⽰ • ポイント間を線分でつなぐ(形状、⾊、太さ) 2021/5/22 対応分析研究会 第6回 9
事例1 データセット5科学研究者評価 • 研究費の配分が⽬的 • 5つのカテゴリー:A〜E • 796⼈ • 10の専⾨分野
• Data set 5: funding.xls (74 KB) Evaluation of scientific researchers (chapter 10) 2021/5/22 対応分析研究会 第6回 10
funding.xls ダウンロードしたこのxlsファイルをRに取り込むスクリプトは、chap10.Rmd、chap10.htmlを参照 2021/5/22 対応分析研究会 第6回 11
CA投⼊まえグラフ(mosaic plot) 2021/5/22 対応分析研究会 第6回 12
CA実⾏!(この例はFactoMineR::CA) CAが出⼒したres.CAは、 内部が区分されている。 その区分にアクセスする ⽅法の⼀つが、$でその 項⽬を指定すること。 例)$eigを選ぶと固有値 つまり、慣性が⼿に⼊る 2021/5/22 対応分析研究会
第6回 13
スクリープロット:慣性の分解(1) 2021/5/22 対応分析研究会 第6回 14
2021/5/22 対応分析研究会 第6回 15
2021/5/22 対応分析研究会 第6回 16
事例2 データセット6 • 海底試料中の海洋種の存在量 • 92種 x 13地点 2021/5/22 対応分析研究会
第6回 17
2021/5/22 対応分析研究会 第6回 18
2021/5/22 対応分析研究会 第6回 19
2021/5/22 対応分析研究会 第6回 20
2021/5/22 対応分析研究会 第6回 21
2021/5/22 対応分析研究会 第6回 22
2021/5/22 対応分析研究会 第6回 23
事例3 データセット7 • 6⼈の著者ごとの書籍にみる⽂字種の度数 • 12書籍 x 26⽂字 2021/5/22 対応分析研究会
第6回 24
2021/5/22 対応分析研究会 第6回 25
2021/5/22 対応分析研究会 第6回 26
2021/5/22 対応分析研究会 第6回 27
第11章 慣性への寄与 「慣性は、個々の主軸に沿って⾏および列の成分に分解することができる。 これらの慣性部分の分析は、分散分析に似ており、対応分析(CA)の解釈 を⽀える重要な役割を果たす」 参照されるのは、第10章の事例1のデータセット 2021/5/22 対応分析研究会 第6回 28
慣性の分解 n⾏m列 の多次元 空間 min(n, m)-1 次元空間に再構成 各軸ごと(Dim1〜3…)に慣性が分解される(分解1) 固有値:スクリープロット 各軸が全体の何%を体現しているか
慣性=χ2/N Dim1 Dim2 Dim3 Dim1 Dim2 Dim3 各軸 (Dim1〜3…)の⽣成に各ポイントがどれだけ 寄与しているか(分解3) ポイントごとに各軸への寄与率を合計すると1にな る。 絶対的寄与率(CONTR) Dim1 Dim2 Dim3 ポイントが、各軸でどれだけ表現されているか。 (分解4) ポイントごとに各軸(Dim1〜3…)を合計すると1 になる。 表⽰の「質」相対的寄与率(COS2) 部分空間の表⽰の質は、部分空間を形成する軸ごと の相対的寄与率の合計。 2021/5/22 対応分析研究会 第6回 29 各プロファイルが体現している慣性(分解2−1) 各セルが体現している慣性(分解2−2) prof3 prof4 prof5 prof1 cell1.1 cell1,2 cell1.2 prof2 cell2.1 cell2.2 cell2.3 : : Exhibit11.1 Exhibit11.2 Exhibit11.3 Exhibit11.4 Exhibit11.5 Exhibit11.6 Exhibit11.8
データセット5 funding.xls ダウンロードしたこのxlsファイルをRに取り込むスクリプトは、chap10.Rmd、chap10.htmlを参照 2021/5/22 対応分析研究会 第6回 30
CA投⼊前にグラフ(mosaic plot)で確認 2021/5/22 対応分析研究会 第6回 31
2021/5/22 対応分析研究会 第6回 32 第2軸までで慣性の83.9%が体現されている ポイントの慣性 軸への寄与 軸からの寄与 χ2値とp値 これは、FactoMineR::CAの
result(summary) 個別の値は、リストへのアクセス で取得可能。
スクリープロット:慣性の分解(分解1) 2021/5/22 対応分析研究会 第6回 33
各ポイントの慣性(分解2−1) 2021/5/22 対応分析研究会 第6回 34
2021/5/22 対応分析研究会 第6回 35 分解2−2
Exhibit 11.2 セルのcontribution 2021/5/22 対応分析研究会 第6回 36
2021/5/22 対応分析研究会 第6回 37 分解2−2
⼆つの寄与率 (分解3、4) • 絶対的寄与(分解3) • 座標軸へのプロファイル・ポイントの寄与 • 軸の解釈の根拠 • 相対的寄与(分解4)
• 各軸がプロファイル・ポイントをどれだけ表現しているか • 注⽬している軸でそのポイントの何%が表現されているか。 • ポイントと軸の相関係数 • 1−2軸(部分空間)でのポイントの表現の「質」 • 1軸、2軸での相対的寄与(cos2θ)の和 2021/5/22 対応分析研究会 第6回 38
2021/5/22 対応分析研究会 第6回 39
⾏プロファイル、列プロファイルが、各軸の⽣成にどれだけ寄与しているか、を表すのが contribution(寄与率)。 Dim i の列和が100(%)になっている 2021/5/22 対応分析研究会 第6回 40
2021/5/22 対応分析研究会 第6回 41
2021/5/22 対応分析研究会 第6回 42
0.055 + 0.861 + 0.072 = 1.000 2021/5/22 対応分析研究会 第6回
43 分解4
2021/5/22 対応分析研究会 第6回 44 横⽅向に分割 本当は転置して 縦⽅向に分割 したい..(⼿抜き) 合計1000
2021/5/22 対応分析研究会 第6回 45 横⽅向に分割 本当は転置して 縦⽅向に分割 したい..(⼿抜き) 合計1000
Dim 1とDim2のcos2 を加算して、Quality となる。 2021/5/22 対応分析研究会 第6回 46
p87−88の「因⼦分析による類推」 • ごめんなさい、因⼦分析を使ってないので、よくわからず、で す。 • 詳しい⽅、コメントいただけると助かります! 2021/5/22 対応分析研究会 第6回 47
第9章のデータセット4再考 smokeを⾒てみましょう! 2021/5/22 対応分析研究会 第6回 48
データセット4:: smoke • 職員群の喫煙習慣 2021/5/22 対応分析研究会 第6回 49
2021/5/22 対応分析研究会 第6回 50
smokeの⾮対称マップ 2021/5/22 対応分析研究会 第6回 51
慣性の分解(1) 2021/5/22 対応分析研究会 第6回 52
慣性の分解(2) 2021/5/22 対応分析研究会 第6回 53
2021/5/22 対応分析研究会 第6回 54
2021/5/22 対応分析研究会 第6回 55 列⽅向に分割されているように転置して表⽰
2021/5/22 対応分析研究会 第6回 56
次回、第7回は • 第12章、サプリメンタリ・ポイント、第13章対応分析バイプ ロットをやらせていただきます。 2021/5/22 対応分析研究会 第6回 57