Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
三原高校模擬授業/2023-mihara-demo
Search
Takahiro Sumiya
October 31, 2023
Education
0
70
三原高校模擬授業/2023-mihara-demo
Takahiro Sumiya
October 31, 2023
Tweet
Share
More Decks by Takahiro Sumiya
See All by Takahiro Sumiya
卒論・修論執筆における生成AI 活用とAI 不安:広島大学での実態調査/CE176
gnutar
0
73
大学教育現場と著作権/University education and copyright
gnutar
0
14
SNSなど情報教育と著作権について/SNS and Copyright
gnutar
0
61
オンライン授業と著作権/Online class and copyright
gnutar
0
130
ChatGPTによる問い合わせサイトの構築に向けて/Developing a ChatGPT-powered Helpdesk Site
gnutar
0
160
sss2023-pie
gnutar
0
190
2023-03-09 suzuka
gnutar
1
75
ユーザカスタマイズ可能なMoodleとSISの連携/Moodle and SIS
gnutar
0
100
広島大学における全学LMSの移行/Migration of Hiroshima University LMS
gnutar
0
480
Other Decks in Education
See All in Education
Semantic Web and Web 3.0 - Lecture 9 - Web Technologies (1019888BNR)
signer
PRO
1
2.5k
Ch2_-_Partie_1.pdf
bernhardsvt
0
110
Introduction - Lecture 1 - Human-Computer Interaction (1023841ANR)
signer
PRO
0
1.7k
1030
cbtlibrary
0
300
The Gender Gap in the Technology Field and Efforts to Address It
codeforeveryone
0
200
20240810_ワンオペ社内勉強会のノウハウ
ponponmikankan
2
880
Flinga
matleenalaakso
2
13k
Medicare 101 for 2025
robinlee
PRO
0
230
CompTIA Security+ SY0-601 Resumo
mariliarochas
2
2.6k
PSYC-560 R and R Studio Setup
jdbedics
0
520
Beispiel einer Fortbildung für "Soziales Lernen"
gsgoethe
0
110
SQL初級中級_トレーニング【株式会社ニジボックス】
nbkouhou
0
19k
Featured
See All Featured
Navigating Team Friction
lara
183
14k
Java REST API Framework Comparison - PWX 2021
mraible
PRO
28
8.2k
The Power of CSS Pseudo Elements
geoffreycrofte
73
5.3k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
8
860
Unsuck your backbone
ammeep
668
57k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Stop Working from a Prison Cell
hatefulcrawdad
267
20k
Typedesign – Prime Four
hannesfritz
40
2.4k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
28
2k
Code Review Best Practice
trishagee
64
17k
RailsConf 2023
tenderlove
29
900
A Modern Web Designer's Workflow
chriscoyier
693
190k
Transcript
データ科学入門 〜クラスター分析で、複数の属性をもつデータを分類してみよう 広島大学 情報メディア教育研究センター/情報科学部 隅谷孝洋 2023/11/01
‣ 広島大学 情報科学部 ‣ 2018年開設
1 ࣍ 2 ࣍ ϓϩάϥϜհ Program جૅཤमϞσϧ ࣍ʹͭͷϓϩάϥϜ͔ΒͭΛબ ࣍ʹͭͷϓϩάϥϜ͔ΒͭΛબ ࣍ʹ̏ͭͷཤमϞσϧ͔ΒͭΛબ
࣍ʹ̏ͭͷཤमϞσϧ͔ΒͭΛબ ใՊֶ෦Ͱɺ ྩ̐ೖֶੜΑΓɺ ैདྷͷ ڭҭ՝ఔͰ͋ΔϓϩάϥϜίʔε੍ ʢใՊֶ ϓϩάϥϜ ɿ σʔλαΠΤϯείʔεɺ ΠϯϑΥ ϚςΟ Ϋείʔεʣ ͔Βɺ ϓϩάϥϜ੍ ʢܭࢉػ ՊֶϓϩάϥϜɺ σʔλՊֶϓϩάϥϜɺ ೳՊֶ ϓϩάϥϜʣ ʹ࠶ฤ͠·ͨ͠ɻ ·ͨɺ ̏ཤमϞσϧ ʢجૅཤमϞσϧɺ ༥߹ཤमϞσϧɺ ࣮ફཤ मϞσϧʣ Λ৽ͨʹಋೖ͠·ͨ͠ɻ ࣍ʹͦΕͧΕͷϓϩάϥϜʹ͔Εɺ ࣍ ʹͭͷཤमϞσϧΛબ͠·͢ɻ ৽ͨͳཤम ϞσϧͷಋೖʹΑΓɺ ʮํੜʯ ʹࢿ͢Δਓࡐ ҭΛߦ͍ɺ ֶੜͷΩϟϦΞࢤʹԠͨ͡ΧϦ ΩϡϥϜฤΛ࣮ݱ͠·͢ɻ ϓϩάϥϜ ཤमϞσϧ ܭࢉػՊֶ ϓϩάϥϜ ຊϓϩάϥϜͰɺ ࣾձΛࢧ͑Δ*$5 ʢใ௨৴ٕज़ʣ ͷ ϋʔυΣΞ͔ΒιϑτΣΞɺ ωοτϫʔΫʹؔ͢Δجૅ͔ ΒԠ༻·Ͱମܥతʹֶͼ·͢ɻ ͜ΕʹΑΓɺ ͞·͟·ͳใ ॲཧγεςϜ ɾ ΞϓϦέʔγϣϯΛاըఏҊ ɾ ݚڀ։ൃ ɾ ҡ ࣋ӡ༻Ͱ͖Δٕज़ऀΛཆ͠·͢ɻ *$5Λཧղ͠ɺ ։ൃɾӡ༻Ͱ͖ΔೳྗΛशಘ ܭࢉػγεςϜ ௨৴γεςϜ ɾ Πϯλʔωο τ ใωο τ ϫʔΫηΩϡ Ϧς Ο ΞϧΰϦζϜ ɾ ܭࢉཧ ιϑ τ ΣΞ։ൃख๏ ฒྻࢄγεςϜ ɾ ߴੑೳܭࢉ Ϗοάσʔλॲཧ ɾ σʔλϕʔε ը૾ॲཧ ɾ ػցֶश Keyword ͜Μͳਓʹ͓͢͢Ί ৽ͳΞϓϦΛࣗͰ։ൃ͍ͨ͠ *P5ʹΑͬͯੜ׆Λͬͱศརʹ͍ͨ͠ ࣾձΠϯϑϥΛࢧ͑ΔγεςϜΛ։ൃ͍ͨ͠ Πϯλʔωοτͷར༻Λշదʹ͍ͨ͠ σʔλαΠΤϯεΠϯϑΥϚςΟ Ϋεɺ "*ʹ͓͚Δ෯ ͍ใՊֶʹؔ࿈͢ΔઐߨٛՊͷཤमΛ௨ͯ͡ɺ جૅ ͔ΒԠ༻ʹࢸΔ෯͍ࣝΛֶͼ·͢ɻ ݚڀʹର͢Δܭըੑ ɾ ੵۃੑ ɾ ڠಇੑ ɾ ܧଓੑʹؔ͢ΔೳྗΛ౷ ߹తʹߴΊΔ͜ͱͰɺ ৽ͨͳ՝ΛࣗΒൃݟ͠՝Λղܾ͢Δೳ ྗΛഓ͍·͢ɻ ࠷ऴֶͰɺ ݸผݚڀ՝Λઃఆ͠ɺ ୲ڭһ ͷࢦಋͷԼͰɺ ݚڀ ɾ ࣮ݧ ɾ ٞΛਐΊɺ ՌΛ·ͱΊͯଔۀ จͱ͠ ͯൃද͠·͢ɻ Moreabout 03 3 ࣍ 4 ࣍ ༥߹ཤमϞσϧ ࣮ફཤमϞσϧ σʔλՊֶ ϓϩάϥϜ ຊϓϩάϥϜͰɺ ίϯϐϡʔλใॲཧٕज़ΛֶΜͩ ্Ͱɺ ϏοάσʔλΛؚΉ͞ ·͟·ͳσʔλͷॲཧ ɾ ੳ ɾ ཧղ Λޮྑ͘ߦ͏ͨΊͷઐՊΛମܥతʹֶͼ·͢ɻ ͜Ε ʹΑΓɺ ଞͷԠ༻ੑ ɾ ༗༻ੑΛेʹཧղ͠ɺ ੳྗ ͷߴ͍ਓࡐΛཆ͠·͢ɻ σʔλੳͷج൫ͱ Ԡ༻ೳྗΛशಘ ཧ౷ܭ ܦࡁ౷ܭ όΠΦ౷ܭ ۚ༥ֶ ਓؒҩֶ ࣾձ৺ཧֶ Ϗοάσʔλ ใཧֶ ཧ࠷దԽ Keyword ͜Μͳਓʹ͓͢͢Ί σʔλαΠΤϯςΟετͯ͠׆༂͍ͨ͠ ࣏ྍ๏ༀͷ༗ޮੑΛධՁ͍ͨ͠ גՁ༧ଌ ɾ ੳΛߦ͍͍ͨ 4/4Λར༻ͨ͠ϚʔέςΟϯάΛߦ͍͍ͨ ೳՊֶ ϓϩάϥϜ ຊϓϩάϥϜͰɺ ਓೳػցֶशɺ *P5ͳͲʹؔ͢Δ ઐࣝΛجૅ͔ΒԠ༻·Ͱମܥతʹֶͼ·͢ɻ ͜ΕʹΑ Γɺ ೳՊֶͷ෯͍ࣝʹج͍ͮͨଟ֯తͳࢹͱੳ ख๏Λۦ͠ ͯ՝Λղܾ͢ΔೳྗΛʹ͚ٕͭͨज़ऀ ݚڀऀΛཆ͠·͢ɻ "*࣌ʹٻΊΒΕΔ ઐతͳೳྗΛशಘ ਓೳ ػցֶश ೳγεςϜ ೝՊֶ ύλʔϯೝࣝ ҩ༻ֶ ը૾ใॲཧ ֶशֶ 4/4ੳ Keyword ͜Μͳਓʹ͓͢͢Ί ਓೳΛຊ֨తʹֶͼ͍ͨ σΟʔϓϥʔχϯάΛ࣮͍ͨ͠ ը૾ೝࣝԻೝࣝͷݪཧΛΓ͍ͨ ͷΈΛ࠶ݱ͍ͨ͠ ใՊֶٕज़͕͋ΒΏΔֶྖҬʹ͓͍ͯඞཁͱ ͞Ε ͍ͯΔ͜ͱΛߟྀ͠ɺ ใՊֶͷֶతഎܠΛ࣋ͪͳ͕Βɺ *$5ʹݶΒͣ͞ · ͟·ͳͰ׆༂Ͱ͖ ΔೳྗΛ֫ಘ͠ ·͢ ɻ ຊֶͷଞֶ෦Ͱ։ߨ͞Ε͍ͯΔߨٛΛબඞमՊͱ͠ ͯཤम ͢Δ͜ͱ͕ՄೳͰ͋Γɺ ෯͍ࣝɺ ٕೳ͓ΑͼੳྗΛʹͭ ͚Δ͜ͱ͕Ͱ͖·͢ɻ ࠷ऴֶͰɺ ݸผݚڀ՝Λઃఆ͠ɺ ୲ ڭһͷࢦಋͷԼͰɺ ݚڀ ɾ ࣮ݧ ɾ ٞΛਐΊɺ ՌΛ·ͱΊͯ ଔۀจͱ͠ ͯൃද͠·͢ɻ Moreabout اۀͷظݣܦݧΛ௨ͯ͡ɺ େֶͰͷֶͼΛ࠶ߟ͢Δͱ ͱ ʹɺ ࢈ۀքͰٻΊΒΕ͍ͯΔࣝεΩϧΛֶͼ·͢ɻ ใՊֶ෦ڭһͱຽؒاۀɺ ࣏ࣗମʹΑΓݚڀ։ൃௐࠪʹର ͢Δ۩ମతͳܭըΛઃఆ͠ɺ ݚڀ ɾ ࣮ݧ ɾ ٞΛਐΊͳ͕Βݚڀ ඪΛୡ͢Δ͜ͱͰ৽͍͠ՃՁΛੜΉٕज़ͷ֫ಘΛΑΓ͔֬ ͳͷͱ͠·͢ɻ ଔۀจͷΘΓʹɺ ظϑ ΟʔϧυϫʔΫΛཤ म͠ɺ ֶ֎Ͱͷݚڀ։ൃϓϩδΣ Ϋτௐࠪϑ Ο ʔϧυϫʔΫʹࢀ Ճ͢Δ͜ͱͰɺ ࣮ફతͳ՝ղܾʹ׆༻͢ΔೳྗΛʹ͚ͭ·͢ɻ Moreabout 04
` 数理統計学のための確率論の基礎:事象の非独立性の視覚化 音楽的特徴量を用いたBillboardチャートイン予測 ロジスティックモデルとその拡張について Bradley-Terryモデルを用いたプロ野球の勝敗データの解析 我が国の喫煙状況を用いた肺がんマイクロシミュレーション SurvCARTアルゴリズムの概要と既存アルゴリズムとの比較 モランのI統計量のバウンズについて:パスグラフの場合を中心にして 投資環境に応じた最適ポートフォリオ選択 HPVワクチンの接種意図に両面呈示の呈示順序が及ぼす影響:直後効果と抵抗効果からの検討
フードファディズムを引き起こしにくい広告の検討:効果性の認識と企業への信頼の観点から Improvement of Neural Radiance Fields by Using Pixels Neighboring Relations 数の概念の追加学習による勾配加重クラス活性化マッピング (Grad-CAM)の妥当性の向上 グラフの辺の変動に頑健なグラフの識別のためのグラフニューラルネットワークの学習法 画像の変動に対する対象検出手法の頑健性の評価 カテゴリ特化型感情極性辞書を用いたカテゴリ評価値予測の改良 適応的支援を指向した三角ロジック組立演習の解答プロセスの分析 最適数値相関ルールを利用したSHAPの予測モデル解釈の補完 SHAPを用いたMLBの配球分析 属性情報を考慮したサプライチェーンネットワークの埋め込み表現学習 変分拡散モデルによる多変量時系列予測 分散・共分散正則化を用いたニューラルトピックモデルの自己教師あり学習 広島県の主要都市における人口変動分析 Normalizing Flowによる周辺尤度推定 気候と検索件数のデータに基づくガウス過程の説明変数選択を使用したCOVID-19要因推定 集団軌跡モデルとテロデータへの適用 ベーチェット病治療のメタアナリシス:古典的手法とベイズ手法の比較 日本におけるCOVID-19流行前後の生活満足度変化に関する考察 4
None
クラスター分析 6 変数 サンプル サンプル(もしくは変数)同士の距離を用いて, いくつかのクラスター(群)に分類する。
データを作ってみましょう 7 https://bit.ly/mihara-enq
人数分 変量(40コ)
2変数の例 9 身長 体重 身長 体重 身長 体重 このようなグループ分けを 合理的に行うにはどうすべきか
二つの手法 10 身長 体重 階層的クラスタリング 非階層的クラスタリング 二点間の距離が近いものをまとめていく まとめるのをやめた時点でクラスタ数が決まる 先にクラスタ数を決める その数に最も収まりが良いように点を分ける
階層的クラスタリング 11 A B C D E F 1 2
3 4 5 D E F C A B 1 2 3 4 5 6 デンドログラム (樹形図)
階層的クラスタリング/クラスターを併合する方法 ‣ 最短距離法 (single) ‣ 最長距離法 (complete) ‣ 群平均法 (average)
‣ 重心法 (centroid) ‣ メディアン法 (median) ‣ Ward法 (ward.D) 12
階層的クラスタリング/クラスターを併合する方法/Ward法 ‣ Ward法が性能が良いと言われており,よ く利用される ✓ L(X)を,クラスタXの重心からの距離の 平方和とした時,以下を最小にするよう なクラスタを併合する 13 d(Ci
, Cj ) = L(Ci ∪ Cj ) − {L(Ci ) + L(Cj )}
階層的クラスタリング/やってみよう ユークリッド距離+最長距離法 14 A B C D E F X
Y A 1 1 B 2 2 C 1 5 D 4 6 E 5 5 F 6 5
階層的クラスタリング/やってみよう ユークリッド距離+最長距離法 15 A B C D E F A
B C D E F A 0.0 1.4 4.0 5.8 5.7 6.4 B 1.4 0.0 3.2 4.5 4.2 5.0 C 4.0 3.2 0.0 3.2 4.0 5.0 D 5.8 4.5 3.2 0.0 1.4 2.2 E 5.7 4.2 4.0 1.4 0.0 1.0 F 6.4 5.0 5.0 2.2 1.0 0.0
Rでやってみる https://bit.ly/mihara-r
クラスター分析関係のコマンド (1) ‣ d=dist(data) ✓ 距離行列を計算。dataはmatrixでも dataframe でもどちらでも良い。 ‣ hc=hculst(d,method="手法")
✓ 階層的クラスター分析を実行 ✓ methodには,simple, complete, average, ward.D などが指定できる ‣ cn=cutree(hc,n) ✓ クラスタをn個にした時,サンプルに対応 するクラスタ番号のリストを取得 17
クラスター分析のサンプル (1) # 練習問題のデータを作成 sample = matrix(c(1,1, 2,2, 1,5, 4,6,
5,5, 6,5),byrow=T,ncol=2) rownames(sample) = c("A","B","C","D","E","F") colnames(sample) = c("X","Y") plot(sample) 18
クラスター分析のサンプル (2) # 距離行列の計算 sample_dist = dist(sample) # クラスタリング実行 sample_hc
= hclust ( sample_dist, method="complete") # デンドログラム描画 plot(sample_hc,hang=-1) # 各サンプルに対応するクラスタ番号を取得 sample_cn = cutree(sample_hc,2) # クラスタごとに色分けして散布図を描く plot(sample, pch=16, col=sample_cn) 19 1 2 3 4 5 6 7 8 既定の色番号
クラスター分析のサンプル (3) # 非階層的クラスター分析 (k-meansを実施) sample_nhc = kmeans( sample, 2
) # クラスタごとに色分けして散布図を描く plot(sample, pch=16, col=sample_nhc$cluster) 20