Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
oku-slide-20210129
Search
Makito Oku
January 29, 2021
Education
0
48
oku-slide-20210129
東西医薬学I
奥 牧人
2021/01/29
2022/01/28
2023/01/27
2024/02/02
2024/06/21
Makito Oku
January 29, 2021
Tweet
Share
More Decks by Makito Oku
See All by Makito Oku
oku-slide-20240802
okumakito
0
73
oku-slide-20231129
okumakito
0
100
oku-slide-20230827
okumakito
0
110
oku-slide-20230213
okumakito
0
210
oku-slide-20221212
okumakito
0
79
oku-slide-20221129
okumakito
0
150
oku-slide-20221115
okumakito
0
290
oku-slide-20220820
okumakito
0
270
oku-slide-stat1-1
okumakito
0
270
Other Decks in Education
See All in Education
Flinga
matleenalaakso
2
13k
Qualtricsで相互作用実験する「SMARTRIQS」入門編
kscscr
0
320
Web Architectures - Lecture 2 - Web Technologies (1019888BNR)
signer
PRO
0
2.7k
SQL初級中級_トレーニング【株式会社ニジボックス】
nbkouhou
0
20k
Medicare 101 for 2025
robinlee
PRO
0
230
Human Perception and Cognition - Lecture 4 - Human-Computer Interaction (1023841ANR)
signer
PRO
0
710
Image Processing 1 : 1.Introduction
hachama
0
260
Nodiレクチャー 「CGと数学」講義資料 2024/11/19
masatatsu
2
190
不登校予防・再登校支援プログラムを提供するToCo (トーコ) の会社紹介資料 toco.mom
toco3week
0
400
勉強する必要ある?
mineo_matsuya
2
1.6k
Introduction - Lecture 1 - Web Technologies (1019888BNR)
signer
PRO
0
4.9k
【COPILOT無料セミナー】エンゲージメントと自律性の高いプロジェクト型人材育成に向けて~プロジェクト・ベースド・ラーニング(PBL)という選択肢~
copilot
PRO
0
130
Featured
See All Featured
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
506
140k
How to Think Like a Performance Engineer
csswizardry
20
1.1k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
26
1.4k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
42
9.2k
Fontdeck: Realign not Redesign
paulrobertlloyd
82
5.2k
Practical Orchestrator
shlominoach
186
10k
How to train your dragon (web standard)
notwaldorf
88
5.7k
KATA
mclloyd
29
14k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Stop Working from a Prison Cell
hatefulcrawdad
267
20k
Making Projects Easy
brettharned
115
5.9k
Transcript
東西医薬学I 今回担当: 奥 牧人 (未病研究センター) 2024/06/21 1 / 45
今回のテーマと学習目標 和漢薬とデータ科学 和漢薬に関するデータベース 和漢薬に関するデータ解析事例 学習目標 データベースの基本的な使い方や注意点について理解する データ解析の主な流れと必要な知識やスキルについて理解する 2 / 45
クイズ Q. 次のうち、ネットで検索しても分からないものはどれでしょう? 1. 肥満症に頻用される漢方処方は? 2. 防風の基原植物の学名は? 3. ペオニフロリンの構造式は? 3
/ 45
クイズ Q. 次のうち、ネットで検索しても分からないものはどれでしょう? 1. 肥満症に頻用される漢方処方は? 2. 防風の基原植物の学名は? 3. ペオニフロリンの構造式は? A.
??? 4 / 45
和漢薬に関するデータベース 5 / 45
伝統医薬データベースとは? 和漢研が管理 漢方処方、生薬、天然化合物に関する情報 月に1万回程度のページ閲覧 6 / 45
まずは知っている単語を入力 知っている単語を検索 (甘草、葛根湯、アコニチン、など) どのような情報が得られるか把握 将来、何か調べ物をする際に「あのデータベースに書いてあ ったかも?」と思い出せる程度に覚えておけばOK 7 / 45
検索機能は賢くない ネット検索と違って、データベースに登録されている表記と少し でも違うとヒットしない場合もよくある。 8 / 45
困った時は空欄のまま検索 うまく検索出来ない場合は、空欄のまま検索してみる。 全てのデータがヒットする場合がある。 どうしてかな? 理由を考えてみよう 9 / 45
限界に挑戦してみる わざと知名度の低い単語を検索してみる。 そのデータベースの限界を把握 10 / 45
メニュー項目を押してみる メニュー項目を一つずつ押して、何が表示されるか確認 11 / 45
ユーザ登録が必要なページ 伝統医薬DBの一部のページは登録ユーザのみが閲覧可能 主に専門家向けのページ 登録は無料 主に誰がアクセスしたかを把握するために実施 12 / 45
見た目が地味なページ 左と右は同じ論文の検索結果です。右の表示スタイルは一体何のため に存在しているのでしょうか? 13 / 45
ここまでのまとめ まずは普通にネット検索すべし 初めて使うデータベースでは、とにかく色々検索してみる 本気で使いたい時は、メニュー項目の意味を全部調べる 情報そのもの よりも 情報にアクセスする方法 を覚える 14 /
45
クイズ 問題. データベースの開発で必要な、データベースを操作するための 言語を何と呼ぶでしょう? 15 / 45
クイズ 問題. データベースの開発で必要な、データベースを操作するための 言語を何と呼ぶでしょう? 答え. ??? 16 / 45
Part 2. データ解析事例 以下の論文を例に、データ解析の主な流れと必要な知識やスキルにつ いて説明します。 M. Oku: Network analysis of
kampo formulas based on crude drug composition and indications, Trad. Kampo Med., 6(3):139-147 (2019). https://doi.org/10.1002/tkm2.1229 17 / 45
目標設定とデータ入手 和漢研で職を得たものの、漢方の知識は素人同然 理解しやすいよう、全ての漢方処方を1枚の絵にまとめたいと考 えた。 そのためには漢方処方の一覧データが必要 ツムラにする? → 138処方 (+α) 医療用にする?
→ 148処方 一般用にする? → 294処方 まず目的を決め、その後で必要なデータを探すべし 18 / 45
ちゃんとしたデータを探そう 19 / 45
データ研磨 データ研磨は面倒だけど非常に大事な工程 20 / 45
データ研磨の具体例 21 / 45
罠がいっぱい! 構成生薬が文章で書いてある奴がいる 区切りは全部「、」と見せかけて、「・」の箇所がある 湯と散をまとめて書いてある奴がいて、そこだけ形式が違う 同じ生薬なのに別名で書いてある所がある (例、別甲と土別甲) 結局、人間が一つ一つ丁寧に確かめないとダメ 22 / 45
手法の選択 構成生薬の似たもの同士を線で結 んでネットワークを描いてみよう と考えた。 「似ているかどうか」の判定はど うしたら良いか? 取り敢えず、フィッシャーの正確 検定 統計学の知識はもちろん必要です 23
/ 45
問題が発生 フィッシャーの正確検定は、2つの集合の重複が「偶然起こりえ る程度かどうか」を判定するもの 大抵の漢方処方には甘草が入っているため、多くのペアが有意な 重複ありとなってしまい、ネットワークが密になる。 24 / 45
密なネットワーク 密なネットワークは、そこから何も読み取れないという意味で情報量 は実質ゼロ、すなわち研究結果の図として価値が無い。 25 / 45
ここで伝えたいこと p値は万能じゃない データ解析には、解析対象固有の知識 (ドメイン知識) が必須 例) 多くの漢方処方には甘草が含まれている データ解析は途中で失敗を繰り返しながら試行錯誤するもの 26 /
45
別の方法を検討 甘草を除外すれば? → 他にも出現頻度が高い生薬がいた 他のも除外すれば? → なかなか枝数が減っていかない 比較実験では、注目する条件以外は揃えるのが基本 27 /
45
コンフィグモデル 各生薬の出現頻度もそのまま、割り当てのみシャッフルする方法 28 / 45
どうやって計算? 既存のツールを探すと見つかった でも、実際に使ってみると多重辺が出現していた 仕方ないので自分で修正用のコードを書いた 29 / 45
ここで伝えたいこと 既にある道具は積極的に使うべし (車輪の再発明はダメ) 欲しい道具が無ければ自分で作るべし プログラミングのスキルはもちろん必要です 30 / 45
クイズ 問題. アルゴリズムの説明として正しいのはどれ? 1. コンピュータに指示を伝えるための言語のこと 2. 計算を実行するための手順や方法のこと 3. 実験を実行するための手順や方法のこと 4.
身体や心の調子の周期的な変化のこと 31 / 45
クイズ 問題. アルゴリズムの説明として正しいのはどれ? 1. コンピュータに指示を伝えるための言語のこと 2. 計算を実行するための手順や方法のこと 3. 実験を実行するための手順や方法のこと 4.
身体や心の調子の周期的な変化のこと 答え. ???番 32 / 45
結果の可視化 結果をそのまま表示したら、ラベルが重なって全然読めない 33 / 45
結果の可視化 (改良版) 頂点の配置を頑張って調節した (半日かかった) 34 / 45
色の付け方 全ての地図は4色で塗り分けられる (四色定理) 原色の黄色(例)と緑(例)は明る過ぎて見づらいのでNG 大きめの連結成分は部分クラスタ (コミュニティ) に分割 計算法はLouvain法とinfomap法の2つが有名 両方試したところ、ほとんど結果が同じだった 論文には片方の結果のみ載せることにした
どのやり方にすべきか迷った時は全部試すのが基本 35 / 45
結果の解釈 桂枝湯、小柴胡湯、六君子湯を中心とする3グループが出てきた 納得感はあるが、この結果が本当に正しい保証は無い おかしな点は無いか、色々とチェック 例えば、関連する処方がちゃんと繋がっているか? 36 / 45
関連する処方 大抵は名前から判断出来る 桂枝湯 → 桂枝加葛根湯 大柴胡湯 → 大柴胡湯去大黄 四君子湯 →
六君子湯 中には全然名前が違うものも 桂枝湯 → 小建中湯 八味地黄丸 → 牛車腎気丸 桂枝茯苓丸 → 甲字湯 麻杏甘石湯 → 五虎湯 37 / 45
余談 名前が似ていても構成生薬が全然違う場合もある 38 / 45
予想外の結果は理由を考える 人参湯と四君子湯が繋がらなかったのは何故? 39 / 45
色々調べた結果分かったこと 「新 一般用漢方処方の手引き」の四君子湯の解説文 (P. 124) 古方の人参湯の類似方,人参湯より乾姜を去り茯苓を加えた処方である。一般的には生 姜,大棗を加えて用いることが多い。 どうやら、元々は生姜と大棗は無かったらしい 40 /
45
予想外の結果その2 生薬の種類は似ているのに作用部位がバラバラ 41 / 45
データ解析の主な流れのまとめ 42 / 45
必要な知識やスキルのまとめ 数学や統計学の基礎知識 PCやソフトウェアの操作 プログラミング言語 様々な解析手法について知っていること ドメイン知識 伝わるデザインの基本ルールを知ってい ること (主にデータ研磨で必要) 注意力、集中
力、根気 etc. 43 / 45
最後に格言を一つ紹介 44 / 45
出席確認のためレポートを書いて提出して下さい。 45 / 45