Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Mathematical statistics and the fun that are useful in the AI ​​era

Mathematical statistics and the fun that are useful in the AI ​​era

AI/MLの分野ではデータを元に複雑なモデルを構築することで新たに与えられたデータに対し、目的に沿った精度の高い予測を行います。
一般的にはモデルから予測結果を得ることができても予測に至るまでの根拠や導出過程といった解釈性を得ることはできません。

一方でヘルスケアというドメインでは、人の“生”にまつわる事柄を扱うため
説明のできない予測結果のみを用いることは許容されずAI/MLの低い解釈性がネックになってしまいます。

近年ではExplainable AI (XAI) という「説明可能なAI」を開発するというアプローチも注目されていますがヘルスケアドメインにおいてはモデル解釈性の高さを理由に、依然として古典的数理統計に基づいて分析が行われています。
今回のイベントでは、古典的数理統計と AI/ML の対比によってそれぞれの強みや活用領域についての説明を試みます。

ヘルスケア業界のデータサイエンティストは病気や医療制度などのドメイン知識や生物統計などの数理知識が求められるため、一般業界における AI/ML サイエンティストとは異なる難しさがあります。
本イベントが、データサイエンティストとしての生存戦略として
「価値の源泉として何を学びどの領域で活躍するか」を考えるきっかけになるかもしれません。

kotaroito

May 17, 2022
Tweet

More Decks by kotaroito

Other Decks in Science

Transcript

  1. AI時代にこそ活きる数理統計とその面白さ DeNAのヘルスケア事業を支えるデータサイエンス hashtag: #denatech

  2. 目的と自己紹介 分析とはなにか データ分析が価値を持つ前提条件 ML/AI vs. 古典統計数理  解釈とはなにか  それぞれの役割  サイエンティストのキャリア形成 まとめ

    hashtag: #denatech
  3. 自己紹介 - DeSCヘルスケア/DataSciGr Mgr/青木智広 3 目的と自己紹介 2007-2012 2012-2015 2015-2019 2019-2020

    2020-Now 時期 証券会社 生命保険会社 再保険会社 ITコンサル会社 DeSCヘルスケア 会社 財務 商品開発(分析) 商品開発支援(分 析) ヘルスケア事業開発 ヘルスケアデータ 事業開発 主な 役割 クオンツ部門が 閉鎖して数理業務 できない。 流行りのビッグデータ 分析したいのに 手元にビッグデータが ない。 多くても年1回しか 商品開発経験が 積めない。 自分の能力不足で 分析で事業を動かす ことができない。 データを持たない AI企業に入ったが データ保有会社で 数理分析したい。 背景 と 課題 アクチュアリー (数理分析のプロ)に 転職。 ビッグデータを確率的 乱数生成し、 SQL+Pythonで 確率パラメタを推定す る遊び。 再保険会社で高頻度 の開発支援経験。 コンサルで 事業開発を学ぶ。 DeSCヘルスケア に転職。 アクショ ン 将来を予見し、自身の課題を見極め、課題を解決するためにできることを全てやる! 自身のアクションのためにWhyが重要! hashtag: #denatech
  4. 今回の目的 4 目的と自己紹介 自身のアクションのためにWhyが重要! 本日の目的 ヘルスケア業界/数理統計サイエンティストへの転職者を増やすこと 青木のアクション あなたはなぜヘルスケア業界/数理統計サイエンティストに転職するのか、その理由を話したい。 hashtag: #denatech

  5. 免責事項 5 目的と自己紹介 • この資料は講演者の意見を表明するものであり、学術的な正しさを保証するものではなく、また株式会 社ディー・エヌ・エーおよびDeSCヘルスケア株式会社の公式な見解を示すものではありません。 • 転職にかかる最終決定は聴講者ご自身の判断と責任において行われるようお願いいたします。 • 当資料はパーソナルイノベーション株式会社運営の

    TECH PLAY における講演「DeNAのヘルスケア 事業を支えるデータサイエンス - AI時代にこそ活きる数理統計とそのおもしろさ -」のために作成された ものです。この資料をDeSCヘルスケア株式会社の同意なく貴社の事業に用いることはできません。ま た同意したとしても、この資料に基づく判断の結果について、DeSCヘルスケア株式会社および講演者 は何ら責任を負いません。 hashtag: #denatech
  6. 目的と自己紹介 分析とはなにか データ分析が価値を持つ前提条件 ML/AI vs. 古典統計数理  解釈とはなにか  それぞれの役割  サイエンティストのキャリア形成 まとめ

    hashtag: #denatech
  7. よくある分析の説明 7 分析とはなにか よくある分析の Value Chain (よくある)分析の定義 ここにフォーカス当たりすぎ! • これはEDA(探索的分析)

    • 分析とはビジネス課題を解くための1手段でしかない。 • トンネルを掘れる場所から無邪気に掘ると出口に繋がるんですか? • 手元のデータを無邪気にいじるとビジネス課題の解決につながるんですか? • EDAはデータの構造や特性を理解するために重要だがビジネス課題の解決に繋がらない。 SQL Python, R μ (t | x) = exp {wTx} データ 分析環境 コーディング 分析手法 分析アウトプット ビジネス課題 hashtag: #denatech
  8. 意思決定者の ビジネス課題を 理解する。 何をアウトプットとすれ ばビジネス課題を解決 できるのか意思決定者 と握る。 ビジネス課題を 解決するために 適切な分析モデルを

    選択する。 適切な分析モデルを 適用するための手順を 設計し、適切な言語を 選択する。 データサイズ・分析手順 ・期限・コストに沿って分 析環境を用意する。 データの生成背景・構 造を理解して適切な データを選択する。 分析活動の本質 8 分析とはなにか 本当の分析 Value Chain は逆向き SQL Python, R μ (t | x) = exp {wTx} データ 分析環境 コーディング 分析手法 分析アウトプット ビジネス課題 • 分析の目的はビジネス課題解決なので、分析はビジネス課題からスタートする。 • 「課題解決のためにどんな分析結果を出せば良いのか」を意思決定者と握ること、および適切なデータ の選択で、分析成果の8割が決まる。 • 「モデル選択➡コーディング➡可視化」の修行を積んでも仕事ができるようにならない。 hashtag: #denatech
  9. 目的と自己紹介 分析とはなにか データ分析が価値を持つ前提条件 ML/AI vs. 古典統計数理  解釈とはなにか  それぞれの役割  サイエンティストのキャリア形成 まとめ

    hashtag: #denatech
  10. データ分析が価値を持つ前提条件 10 データ分析が価値を持つ前提条件 創造主 過去 現在 確率的因果率 分析者 データ 記録

    予測能力 意思決定者 分析結果 受け入れ ① ② ③ ④ その世界の過去情報を 十分知ることができ 世界というシステムは確率的 因果律によって支配され ② ① かつ分析者の予測能力が 十分高ければ将来の 確率的予測が可能であり ③ 私達はその予測結果を 受容できる ④ という期待のもとで私達は 分析を行っている。 分析が価値を持つ前提条件 データの 生成背景 事象の 生成背景 予測精度 解釈性 キーワード 業界知識 分析 スキル 分析者能力 ? 未来 hashtag: #denatech
  11. 意思決定者の ビジネス課題を 理解する。 何をアウトプットとすれ ばビジネス課題を解決 できるのか意思決定者 と握る。 ビジネス課題を 解決するために 適切な分析モデルを

    選択する。 適切な分析モデルを 適用するための手順を 設計し、適切な言語を 選択する。 データサイズ・分析手順 ・期限・コストに沿って分 析環境を用意する。 データの生成背景・構 造を理解して適切な データを選択する。 分析活動の本質 11 分析とはなにか 本当の分析 Value Chain は逆向き SQL Python, R μ (t | x) = exp {wTx} データ 分析環境 コーディング 分析手法 分析アウトプット ビジネス課題 業界知識 事象・データの生成背景 分析スキル 予測精度+解釈性 分析制約 工数・時間・コスト ② ① ③ ④ ヘルスケア分析は広い業界知識を有する 事象: 傷病に関する知識(危険因子・他覚症状・自覚症状・重症化・治療方法 etc) データ:社会保障制度に関する知識(健康診断・レセプト・データ構造 etc)     データ入力者(医療関係者)のクセ(診断病名偽陽性・デフォルト値バイアス) 次スライド「ML/AI vs. 古典統計数理」で議論 Analytics Engineer の仕事 hashtag: #denatech
  12. 目的と自己紹介 分析とはなにか データ分析が価値を持つ前提条件 ML/AI vs. 古典統計数理  解釈とはなにか  それぞれの役割  サイエンティストのキャリア形成 まとめ

    hashtag: #denatech
  13. ML/AI vs. 古典統計数理 13 ML/AI vs. 古典統計数理 ML/AI 新しい 非線形

    高い 計算不可能 予測結果に解釈を求める アタリの確率を上げたい 古典統計数理 古い 線形 低い 計算可能 数理モデルに内包 ハズレの確率を減らしたい 分類名 歴史 モデル 予測精度 信頼区間 解釈性 利用目的 古典統計数理では解けない課題 OR ハズレでも責任を取る必要がない課題 ➡失敗の影響を小さくできる課題 古典統計数理で解ける AND ハズレの責任を誰かが取る必要がある課題 ➡失敗の影響を小さくできない課題 適用課題 画像データ・文字データ etc OR ヘルスケア・軍事産業以外 数値データ AND ヘルスケア・軍事産業 課題例 ➡それぞれの役割 ➡解釈とはなにか
  14. 目的と自己紹介 分析とはなにか データ分析が価値を持つ前提条件 ML/AI vs. 古典統計数理  解釈とはなにか  それぞれの役割  サイエンティストのキャリア形成 まとめ

    hashtag: #denatech
  15. これってこういう ことだよね 𝕩 i =f(𝕩 0 , 𝕩 1 ,

    … ,𝕩 i-1 ) (i<t) 𝕩 t =f(𝕩 0 , 𝕩 1 , … ,𝕩 t-1 ) 𝕩 t+1 =f(𝕩 0 , 𝕩 1 , … ,𝕩 t ) 〜 〜 例 医師が患者に         自分の言葉で説明しやすい 記録 解釈とはなにか(古典統計数理の場合) 15 ML/AI vs. 古典統計数理 過去 現在 確率的因果率 データ 記録 事象 意味論 自然言語 記号論 数学 自然言語 これまでこういう 歴史があったんだ (𝕩 0 , 𝕩 1 , … ,𝕩 t-1 ) だから将来 こうなると 考えられるよね 〜 一般化 因果律 f の発見 将来予測 外挿・将来予測 ? 未来 古典統計数理はモデルが分かりやすさ を内包している。ただし事象がそのモデ ルに fit するか検証が必要。 (受け入れられやすい結果を出すモデル を選んでいるとも言える) 解釈 解釈 解釈しやすいと 結果を 受け入れやすい 例 µ(t|𝕩)=µ 0 (t)exp{𝕨T𝕩} 死亡しやすい 血圧が高いと 記号論の役割: 1. 真実を語る(再現性の発見) 2. 納得感を作る(再現性がなく検証できないことを真実かのよ うに語る、eg: 経済学) =責任を持ちやすい 解釈 = 意味論と記号論をつなぐもの ML/AI 古典統計数理 分類名 予測結果に解釈を求める 数理モデルに内包 解釈性
  16. 𝕩 t+1 =f(𝕩 0 , 𝕩 1 , … ,𝕩

    t ) 〜 〜 𝕩 t =f(𝕩 0 , 𝕩 1 , … ,𝕩 t-1 ) 例 DARPA XAI project で提言されているように なぜその予測をしたのか 解釈できるようにする 記録 解釈とはなにか(ML/AIの場合) 16 ML/AI vs. 古典統計数理 過去 現在 確率的因果率 データ 記録 事象 意味論 自然言語 記号論 数学 自然言語 これまでこういう 歴史があったんだ X=(𝕩 0 , 𝕩 1 , … ,𝕩 t-1 ) これって どういうこと? 𝕩 i =f(𝕩 0 , 𝕩 1 , … ,𝕩 i-1 ) (i<t) 将来こうなると 考えられるって ほんと? 〜 一般化 因果律 f の発見 将来予測 外挿・将来予測 ? 未来 ML/AIはモデルが分かりやすさを内包し ない(犠牲にする)代わりに予測精度を 高めている。(over-fit の検証が必要) 解釈不能 解釈 解釈しにくいと 結果を 受け入れにくい 例 Y 1 =g(W 0 X+B 0 ) 解釈 = 意味論と記号論をつなぐもの Y i+1 =g(W i Y i +B i ) 𝕩 t =Y k (g:活性化関数) 〜 厚生労働省 保健医療分野AI開発加速コンソーシアム で議論される ように、ヘルスケア分野でも責任の所在を起点として AI の解釈性具 備の要否が議論されている。 ML/AI 古典統計数理 分類名 予測結果に解釈を求める 数理モデルに内包 解釈性
  17. 目的と自己紹介 分析とはなにか データ分析が価値を持つ前提条件 ML/AI vs. 古典統計数理  解釈とはなにか  それぞれの役割  サイエンティストのキャリア形成 まとめ

    hashtag: #denatech
  18. それぞれの役割 18 ML/AI vs. 古典統計数理 ML/AI 計算不可能 アタリの確率を上げたい 古典統計数理 計算可能

    ハズレの確率を減らしたい 分類名 信頼区間 利用目的   :線形回帰(古典数理統計)   :線形回帰 95%信頼区間   :非線形回帰( ML/AI) 曲線あてはめの例 古典統計数理はデータ分布を仮定して曲線の当てはめを行 うため、仮定を誤るとあてはまりが悪くなる。しかしながら 95%信頼区間を計算できるため、予測が外れるリスクテイク の判断材料となりうる。 ➡ハズレの確率を減らす目的で使われる ➡ハズレのリスクが高いときに使われる ML/AIは手法によってはデータ分布の仮定を行うことなく任意 の非線形な曲線を当てはめることができる。非常にあてはま りが良くなるが、リスクテイクの判断材料となりえない。 ➡アタリの確率を上げる目的で使われる ➡ハズレのリスクが少ないときに使われる hashtag: #denatech
  19. 目的と自己紹介 分析とはなにか データ分析が価値を持つ前提条件 ML/AI vs. 古典統計数理  解釈とはなにか  それぞれの役割  サイエンティストのキャリア形成 まとめ

    hashtag: #denatech
  20. サイエンティストのキャリア形成 20 ML/AI vs. 古典統計数理 古典統計数理はデータ分布を仮定して 曲線の当てはめを行 うため、仮定を誤るとあてはまりが悪くなる。しかしながら 95%信頼区間を計算できるため、予測が外れるリスクテイク の判断材料となりうる。

    ➡ハズレの確率を減らす目的で使われる ➡ハズレのリスクが高いときに使われる ML/AI 古典統計数理 • 多くのモデルや最適化手法に関する幅広い引き出しを持つ • 数理能力に応じて3段階のキャリア形成が可能 (1) AIモデル(アルゴリズム)を開発する (2) AIモデルを数理的に説明する (3) AIモデルを当てはめる • 分析によって得られる予測モデルを API 等で実装するエン ジニアリング周辺技術を身につける。 基本戦略 • 活躍の場は広く技術の獲得によって quick に価値創造が 可能 • ただし上記キャリア (3) については red ocean キャリア 形成 イメージ • データ・課題・数理モデルについての深い理解 を持つ ◦ データの生成背景(日本の医療制度、保険制度) ◦ 分析対象疾病に関する疫学的知識 ◦ 業界の典型課題に対する適切な解決手段 • 意思決定のために分析結果をレポートにまとめる能力を身 につける • データ・課題・数理モデルについて、業界関連知識を獲得す る必要があるためキャリア形成に時間がかかる • ただし他業界からの参入障壁が高く blue ocean 免責事項 • この資料は講演者の意見を表明するものであり(中略) hashtag: #denatech
  21. 目的と自己紹介 分析とはなにか データ分析が価値を持つ前提条件 ML/AI vs. 古典統計数理  解釈とはなにか  それぞれの役割  サイエンティストのキャリア形成 まとめ

    hashtag: #denatech
  22. まとめ 22 まとめ • ヘルスケアサイエンティストは、データ生成背景や患者のジャーニーを考えながら分析デザイン するんだ。それが楽しいですよ! • 社会保障・傷病に関する知識は陳腐化しないから、努力がハイレバレッジですよ! • DeSCヘルスケアでは実は

    AI 関連事業もやってますよ! • 気さくなメンバーを集めているよ、楽しいチームだから転職してきてください! 「Pythonによる医療データ分析入門」 *1 って書籍を2020年7月に出版しました。 ヘルスケアビッグデータを手元で疑似生成して分析するから、 RWDを触れない人でも分析体験でき るよ。良かったら手にとってみてください! *1: https://gihyo.jp/book/2020/978-4-297-11517-3 hashtag: #denatech
  23. Analytics Engineer 募集! 23 まとめ エンジニア能力のあるサイエンティスト募集します! • 業界典型的なデータ分析プロセスを理解し、業務を可能な限りシステム化、 分析スクリプトをモジュール化することで再利用可を進める、計算効率性を考 慮してDM(データマート)を構築することでサイエンティストの業務負荷を下げ

    ヒューマンエラーを低減する。 • データ分析環境を最適化し分析にかかる時間を最小化する。 • 分析のための環境構築における要求定義を行う。(もしくは与えられたシステ ム条件のもとで分析業務をデザインする。) • 部門横断的なDQM(Data Quality Management)活動において、データ分析 者の観点からデータ品質改善方針を提案する。 もちろんEA以外にも募集しています! hashtag: #denatech
  24. Thank you! hashtag: #denatech