Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
対応分析研究会 第6回報告スライド
Search
419kfj
May 23, 2021
Research
0
7
対応分析研究会 第6回報告スライド
『対応分析の理論と実践』オーム社刊2020、の第10章、11方の報告
419kfj
May 23, 2021
Tweet
Share
More Decks by 419kfj
See All by 419kfj
多重対応分析/構造化データ解析の原理と研究者視点の介在点「文化と不平等」調査データの分析(1)
419kfj
0
27
Methods and Examples of Correspondence Analysis
419kfj
0
80
01 Introduction
419kfj
0
56
02 ベクトル行列演算とCAの数理
419kfj
0
66
03 CAの数理その2
419kfj
0
23
04 データの準備
419kfj
0
29
05 CAとMCA事例
419kfj
0
24
06 MCA_01
419kfj
0
27
07 MCAからGDAへ
419kfj
0
54
Other Decks in Research
See All in Research
大規模言語モデルのバイアス
yukinobaba
PRO
4
700
ミニ四駆AI用制御装置の事例紹介
aks3g
0
160
[依頼講演] 適応的実験計画法に基づく効率的無線システム設計
k_sato
0
130
Matching 2D Images in 3D: Metric Relative Pose from Metric Correspondences
sgk
1
320
Tietovuoto Social Design Agency (SDA) -trollitehtaasta
hponka
0
2.5k
[CV勉強会@関東 CVPR2024] Visual Layout Composer: Image-Vector Dual Diffusion Model for Design Layout Generation / kantocv 61th CVPR 2024
shunk031
1
460
Physics of Language Models: Part 3.1, Knowledge Storage and Extraction
sosk
1
950
MetricSifter:クラウドアプリケーションにおける故障箇所特定の効率化のための多変量時系列データの特徴量削減 / FIT 2024
yuukit
2
120
渋谷Well-beingアンケート調査結果
shibuyasmartcityassociation
0
260
熊本から日本の都市交通政策を立て直す~「車1割削減、渋滞半減、公共交通2倍」の実現へ~@公共交通マーケティング研究会リスタートセミナー
trafficbrain
0
140
情報処理学会関西支部2024年度定期講演会「自然言語処理と大規模言語モデルの基礎」
ksudoh
6
830
20240820: Minimum Bayes Risk Decoding for High-Quality Text Generation Beyond High-Probability Text
de9uch1
0
120
Featured
See All Featured
A Modern Web Designer's Workflow
chriscoyier
693
190k
Building Flexible Design Systems
yeseniaperezcruz
327
38k
Done Done
chrislema
181
16k
4 Signs Your Business is Dying
shpigford
180
21k
[RailsConf 2023] Rails as a piece of cake
palkan
52
4.9k
Unsuck your backbone
ammeep
668
57k
RailsConf 2023
tenderlove
29
900
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
44
6.8k
Mobile First: as difficult as doing things right
swwweet
222
8.9k
Making the Leap to Tech Lead
cromwellryan
133
8.9k
Adopting Sorbet at Scale
ufuk
73
9.1k
A designer walks into a library…
pauljervisheath
204
24k
Transcript
対応分析研究会 第6回 3つの特徴的な事例(第10章) と慣性の分解(第11章) 2021年5⽉22⽇ ver1.6 5/23 津⽥塾⼤学 数学・計算機科学研究所 藤本⼀男
[email protected]
本⽇の構成 • 第10章の事例3の解説 • あわせて、RでCAを⾏うステップ • 第11章の慣性の分解 • 第9章のsmokeデータの理解 2021/5/22
対応分析研究会 第6回 2
第7章 最適化尺度 法 第6章 次元を縮減 する 第5章 Χ2距離をプ ロットする 第4章
Χ2距離と慣 性 第1章 散布図と マップ 第2章 プロファイ ルとプロファイル 空間 第3章 質量と重⼼ 2つの量変数の関係を⾒る → 散布図 カテゴリカル変数をどう扱うか 距離! CAの基本概念:プロファイル それが位置するプロファイル 空間。三⾓座標でみていく。 プロファイル:周辺度数→質量 頂点とプロファイル、 平均プロファイル(期待値プロ ファイル)、重⼼ 距離: Χ2距離 慣性: Χ2値/n(プロファイル値で 表現) 最⼤慣性:頂点に⼀致 最⼩慣性:原点(重⼼)に⼀致 Χ2距離をユークリッド距離 に変換し図⽰する。 分布の同等性(分布的に等価) ここまで3次元。これからより 多数の次元を扱う。 低次元下位空間を同定する(回帰 との⽐較) SVD:特異値分解 近似:表⽰の質 第10章 さらに3つ の事例 DS5:科学研究者の評価 DS6:海底試料中海洋種 DS7:著者ごとの⽂字種 慣性の分解 ⾮対称マップ/対称マップ 慣性の⼤きさによる表⽰ の特徴 第9章 2次元表⽰ 主軸のネスティング プロファイルと頂点 ⾮対称マップ/対称マップ 第8章 ⾏分析と列 分析の対称性 頂点位置とプロファイル スケーリング係数 主座標と標準座標 正準相関:最⼤化 整数尺度(likert) 解釈の基準 プロファイル空間の幾何学(1) プロファイル空間の幾何学(2) 2021/5/22 対応分析研究会 第6回 3 DS1 DS2 DS3 DS4
DS5:科学研究者の評価 第10章 3つの典型 事例 2021/5/22 DS5:科学研究者の評価 DS6:海底試料中海洋種 DS7:著者ごとの⽂字種 慣性の分解 ⾮対称マップ/対称マップ
慣性の⼤きさによる表⽰ の特徴 第11章 慣性の分解 第12章 サプリメン タリ・ポイント 第13章 対応分析バ イプロット 第14章 推移と回帰 の関係 第15章 ⾏と列のク ラスタリング 第16章 多重表 第17章 積み重ね表 第18章 多重対応分 析 第19章 同時対応分 析 第20章MCAのス ケーリング特性 第21章 サブセット 対応分析 DS5:科学研究者の評価 DS5:科学研究者の評価 DS5:科学研究者の評価 DS5:科学研究者の評価 DS8:⾷品店における 年齢分布 DS3:健康⾃⼰評価 組み合わせコーディング DS9:働く⼥性に対する 態度 DS9:働く⼥性に対する 態度 DS9:働く⼥性に対する 態度 第21章 サブセット 対応分析 第21章 サブセット 対応分析 第21章 サブセット 対応分析 第21章 サブセット 対応分析 〜 30章まで 対応分析研究会 第6回 4
第10章 3つの典型事例 2021/5/22 対応分析研究会 第6回 5
3つの事例の概要 • データセット5 科学研究者の評価(10 x 5) • プロファイル・ポイントの分散は⼩さい(原点近くに密集) • ⾮対称マップと対称マップ
• 次元解釈の⼿順 • データセット6 海底資料中の海洋種の存在量(92 x 13) • 海洋⽣物学における典型的なデータセット • データセット7 6⼈の著者ごとの書籍にみる⽂字種の度数(12x 26) 2021/5/22 対応分析研究会 第6回 6
⼿順 • データを⽤意する • この事例はExcelファイル • データセット:http://www.carme-n.org/ • 読み込む •
PCにダウンロード • クロス表に対する基礎的分析はしておく。 • χ2検定、⾏分析、列分析(mosaic plot) • CAに投げる • res.CA <- CA(データ) • resultを評価する • スクリープロット(慣性の分解度合い) • ⾮対称マップ、対称マップで概要確認 • 空間(⾮対称マップの標準座標の⽅の軸)へのプロファイルポイントの寄与を確認。→ 軸の性格付 け • (このあと、サプリメタリ処理をして再度CAとか続く) 2021/5/22 対応分析研究会 第6回 7
CA処理前後の処理 CA(対応分析) CAを⾏う前処理 CAのresultの評価 分析の本体 2021/5/22 対応分析研究会 第6回 8 mosaic
plot factoextra explor etc.. このLoopをいかに効率よくまわすか。 tidyverse。
グラフ化 • reslutを描画する • 探索過程でのグラフ化 • 最終出⼒としてのグラフ化 • オプション •
対称マップ • ⾮対称マップ • インターラクティブ・グラフ • explor • グラフのポイントへの修飾 • ⽮印表⽰ • ポイント間を線分でつなぐ(形状、⾊、太さ) 2021/5/22 対応分析研究会 第6回 9
事例1 データセット5科学研究者評価 • 研究費の配分が⽬的 • 5つのカテゴリー:A〜E • 796⼈ • 10の専⾨分野
• Data set 5: funding.xls (74 KB) Evaluation of scientific researchers (chapter 10) 2021/5/22 対応分析研究会 第6回 10
funding.xls ダウンロードしたこのxlsファイルをRに取り込むスクリプトは、chap10.Rmd、chap10.htmlを参照 2021/5/22 対応分析研究会 第6回 11
CA投⼊まえグラフ(mosaic plot) 2021/5/22 対応分析研究会 第6回 12
CA実⾏!(この例はFactoMineR::CA) CAが出⼒したres.CAは、 内部が区分されている。 その区分にアクセスする ⽅法の⼀つが、$でその 項⽬を指定すること。 例)$eigを選ぶと固有値 つまり、慣性が⼿に⼊る 2021/5/22 対応分析研究会
第6回 13
スクリープロット:慣性の分解(1) 2021/5/22 対応分析研究会 第6回 14
2021/5/22 対応分析研究会 第6回 15
2021/5/22 対応分析研究会 第6回 16
事例2 データセット6 • 海底試料中の海洋種の存在量 • 92種 x 13地点 2021/5/22 対応分析研究会
第6回 17
2021/5/22 対応分析研究会 第6回 18
2021/5/22 対応分析研究会 第6回 19
2021/5/22 対応分析研究会 第6回 20
2021/5/22 対応分析研究会 第6回 21
2021/5/22 対応分析研究会 第6回 22
2021/5/22 対応分析研究会 第6回 23
事例3 データセット7 • 6⼈の著者ごとの書籍にみる⽂字種の度数 • 12書籍 x 26⽂字 2021/5/22 対応分析研究会
第6回 24
2021/5/22 対応分析研究会 第6回 25
2021/5/22 対応分析研究会 第6回 26
2021/5/22 対応分析研究会 第6回 27
第11章 慣性への寄与 「慣性は、個々の主軸に沿って⾏および列の成分に分解することができる。 これらの慣性部分の分析は、分散分析に似ており、対応分析(CA)の解釈 を⽀える重要な役割を果たす」 参照されるのは、第10章の事例1のデータセット 2021/5/22 対応分析研究会 第6回 28
慣性の分解 n⾏m列 の多次元 空間 min(n, m)-1 次元空間に再構成 各軸ごと(Dim1〜3…)に慣性が分解される(分解1) 固有値:スクリープロット 各軸が全体の何%を体現しているか
慣性=χ2/N Dim1 Dim2 Dim3 Dim1 Dim2 Dim3 各軸 (Dim1〜3…)の⽣成に各ポイントがどれだけ 寄与しているか(分解3) ポイントごとに各軸への寄与率を合計すると1にな る。 絶対的寄与率(CONTR) Dim1 Dim2 Dim3 ポイントが、各軸でどれだけ表現されているか。 (分解4) ポイントごとに各軸(Dim1〜3…)を合計すると1 になる。 表⽰の「質」相対的寄与率(COS2) 部分空間の表⽰の質は、部分空間を形成する軸ごと の相対的寄与率の合計。 2021/5/22 対応分析研究会 第6回 29 各プロファイルが体現している慣性(分解2−1) 各セルが体現している慣性(分解2−2) prof3 prof4 prof5 prof1 cell1.1 cell1,2 cell1.2 prof2 cell2.1 cell2.2 cell2.3 : : Exhibit11.1 Exhibit11.2 Exhibit11.3 Exhibit11.4 Exhibit11.5 Exhibit11.6 Exhibit11.8
データセット5 funding.xls ダウンロードしたこのxlsファイルをRに取り込むスクリプトは、chap10.Rmd、chap10.htmlを参照 2021/5/22 対応分析研究会 第6回 30
CA投⼊前にグラフ(mosaic plot)で確認 2021/5/22 対応分析研究会 第6回 31
2021/5/22 対応分析研究会 第6回 32 第2軸までで慣性の83.9%が体現されている ポイントの慣性 軸への寄与 軸からの寄与 χ2値とp値 これは、FactoMineR::CAの
result(summary) 個別の値は、リストへのアクセス で取得可能。
スクリープロット:慣性の分解(分解1) 2021/5/22 対応分析研究会 第6回 33
各ポイントの慣性(分解2−1) 2021/5/22 対応分析研究会 第6回 34
2021/5/22 対応分析研究会 第6回 35 分解2−2
Exhibit 11.2 セルのcontribution 2021/5/22 対応分析研究会 第6回 36
2021/5/22 対応分析研究会 第6回 37 分解2−2
⼆つの寄与率 (分解3、4) • 絶対的寄与(分解3) • 座標軸へのプロファイル・ポイントの寄与 • 軸の解釈の根拠 • 相対的寄与(分解4)
• 各軸がプロファイル・ポイントをどれだけ表現しているか • 注⽬している軸でそのポイントの何%が表現されているか。 • ポイントと軸の相関係数 • 1−2軸(部分空間)でのポイントの表現の「質」 • 1軸、2軸での相対的寄与(cos2θ)の和 2021/5/22 対応分析研究会 第6回 38
2021/5/22 対応分析研究会 第6回 39
⾏プロファイル、列プロファイルが、各軸の⽣成にどれだけ寄与しているか、を表すのが contribution(寄与率)。 Dim i の列和が100(%)になっている 2021/5/22 対応分析研究会 第6回 40
2021/5/22 対応分析研究会 第6回 41
2021/5/22 対応分析研究会 第6回 42
0.055 + 0.861 + 0.072 = 1.000 2021/5/22 対応分析研究会 第6回
43 分解4
2021/5/22 対応分析研究会 第6回 44 横⽅向に分割 本当は転置して 縦⽅向に分割 したい..(⼿抜き) 合計1000
2021/5/22 対応分析研究会 第6回 45 横⽅向に分割 本当は転置して 縦⽅向に分割 したい..(⼿抜き) 合計1000
Dim 1とDim2のcos2 を加算して、Quality となる。 2021/5/22 対応分析研究会 第6回 46
p87−88の「因⼦分析による類推」 • ごめんなさい、因⼦分析を使ってないので、よくわからず、で す。 • 詳しい⽅、コメントいただけると助かります! 2021/5/22 対応分析研究会 第6回 47
第9章のデータセット4再考 smokeを⾒てみましょう! 2021/5/22 対応分析研究会 第6回 48
データセット4:: smoke • 職員群の喫煙習慣 2021/5/22 対応分析研究会 第6回 49
2021/5/22 対応分析研究会 第6回 50
smokeの⾮対称マップ 2021/5/22 対応分析研究会 第6回 51
慣性の分解(1) 2021/5/22 対応分析研究会 第6回 52
慣性の分解(2) 2021/5/22 対応分析研究会 第6回 53
2021/5/22 対応分析研究会 第6回 54
2021/5/22 対応分析研究会 第6回 55 列⽅向に分割されているように転置して表⽰
2021/5/22 対応分析研究会 第6回 56
次回、第7回は • 第12章、サプリメンタリ・ポイント、第13章対応分析バイプ ロットをやらせていただきます。 2021/5/22 対応分析研究会 第6回 57