実践的データサイエンス演習分析・実験・検証の実践的管理方法@神奈川大学 (2025年度)

実践的データサイエンス演習分析・実験・検証の実践的管理方法 (2025年度神奈川大学講義) 日本IBMシステムズ・エンジニアリング株式会社 DXセンターデータサイエンスラボ川口
英俊 1

自己紹介 • 講師名: 川口英俊 (かわぐちひでとし) • 所属: •
日本IBMシステムズエンジニアリング(株) DXセンターデータサイエンスラボ（Experienced Data Scientist) • 情報処理学会論文誌ジャーナル編集委員会知能グループ（編集委員, メタ査読者) • 神奈川大学情報学部システム数理学科（非常勤講師） • 学位: 博士（情報科学） • 経歴 • 2010年-2014年広島工業大学情報学部知的情報システム学科 (学士) • 2014年-2016年東京工業大学総合理工学研究科知能システム科学専攻博士前期課程 (修士) • 2016年-2023年日本電信電話株式会社(現: NTT株式会社) • 在籍中2019年-2023年: 北陸先端科学技術大学院大学先端科学技術研究科先端情報科学プログラム博士後期課程(博士) • 2023年 7月より現職 • 専門: 機械学習, データ分析, 自然言語処理, ソフトウェア開発, AWS • 代表的な仕事: • IPSのシグネチャ設定を支援する機械学習の応用研究 • 生成AIと機械学習を利用したVoC (Voice of Customers) 分析パイプライン処理の開発 2 github.com/HidetoshiKawaguchi | 𝕏 @Hidetoshi_RM | in linkedin.com/in/hidetoshi-kawaguchi-380a93281

本資料の注意事項 • 本資料は教育目的で公開しています。 • 本資料は、2025年に神奈川大学で開講された「実践的データサイエンス演習」のうち、川口担当分の資料をほぼそのまま公開したものです • 資料内容はすべて川口個人の見解によるものであり、所属組織の公式見解と異なることがあることにご注意ください
3

前回学んだこと前回は、データサイエンティストの成果である「ドキュメント」について、その背景と、それを書く上で基本的な考え方を学びました。 • ドキュメントコミュニケーションとは何か • ビジネスで使われるドキュメント • ドキュメント作成方法 •
パラグラフ・ライティング 4

本日学ぶこと今回は、分析・実験・検証といった、データサイエンティストの主要タスクを管理するための実践的な方法論について学びます。 • データサイエンティストには、以下のような専門知識が必要 • プログラミング • 確率統計 •
機械学習 • データ加工 • これらの専門知識を駆使して有用な知見を生み出すための、実践的な方法論を学ぶことも重要 5

本日の流れ • 一般的なデータ分析プロセスのフレームワークである、CRISP-DMの紹介 • データサイエンティストの分析について解説 • 分析・実験・検証の管理方法の紹介 • 演習
• コードの修正 6

CRISP-DMとは (1): 概要 CRISP-DMとは、Cross-Industry Standard Process For Data Mining の略称で、データ分析プロセスのフレームワークです。
7 1.ビジネス理解 2.データ理解 3.データ準備 4.モデリング 5.評価 6.デプロイメントデータ

CRISP-DMとは (2): 各フェーズの説明 1. ビジネス理解解決すべき課題や目的を整理し、データ分析のゴールを明確にする。 2. データ理解入手したデータを確認し、品質や特徴を把握して分析に使える状態かを判断する。
3. データ準備必要なデータを収集・加工・クレンジングして、モデリングに適した形に整える。 4. モデリング機械学習や統計的手法を用いて、目的に合ったモデルを構築する。 5. 評価モデルの性能を評価し、ビジネス課題の解決に十分かどうかを確認する。 6. デプロイメント実運用に組み込むための開発作業 8 1.ビジネス理解 2.データ理解 3.データ準備 4.モデリング 5.評価 6.デプロイメントデータ

CRISP-DMとは (3): 実際矢印は最も頻度の高い移動の典型例を示しています。各フェーズの順序は厳密ではなく、実際は自由に行き来します。 9 1.ビジネス理解 2.データ理解 3.データ準備 4.モデリング
5.評価 6.デプロイメントデータ実際には、全フェーズから全フェーズに矢印が伸びます・・・（書ききれないが）

CRISP-DMの各フェーズでの責任者 CRISP-DMはデータサイエンティストが使うフレームワークですが、他の役割のメンバーも関わりがあります。 • 1. ビジネス理解 → 営業やITコンサルタントが主導 • 6.
デプロイメント → ITエンジニア(AIエンジニア・MLエンジニア)が主導 • 2.データ理解~5.評価 → データサイエンティストが主導 10

[参考] データエンジニアの役割最近はデータエンジニアという役割も登場します。データエンジニアは、3.データ準備までを円滑に行えるようにデータ基盤を整えることが仕事です。実は、実務においてそもそもデータが取り出しやすい形になっていることはかなり少ないです。 • いろいろなシステム（データベース）が社内に乱立 •
フォーマットの決まっていないデータの散乱 • 手書きの書類しかないということは往々にしてあります。 11

この講義で学ぶこと今日これから学ぶことは、CRISP-DMのうち、以下の４つを円滑に進めるための、分析・実験・検証に関する管理方法論について学びます。 2. データ理解入手したデータを確認し、品質や特徴を把握して分析に使える状態かを判断する。 3. データ準備必要なデータを収集・加工・クレンジングして、モデリングに適した形
に整える。 4. モデリング機械学習や統計的手法を用いて、目的に合ったモデルを構築する。 5. 評価モデルの性能を評価し、ビジネス課題の解決に十分かどうかを確認する。 12

分析・実験・検証の管理方法論について注意データ分析や機械学習そのものの技術に関する本は、昨今の流行もあり本当にたくさんの本が出ています。ただし、これらを駆使する方法論やエンジニアリングに関する書籍は意外と少ないです。最近出版された以下の本は、それらに関連しておりおすすめです。 • 書名先輩データサイエンティストからの指南書 ―実務で生き抜くためのエンジニアリングスキル
• 著者: 浅野純季，木村真也，田中冬馬，武藤克大，栁泉穂 • 出版技術評論社 13

管理方法は人による世の中全体としてあまり体系化もされていない内容なので、現時点では人によって考え方も違うかと思います。ただ、川口も10年くらいこのあたりのことについて工夫を考えて実行してきたので、皆さんに何かしらのヒントを与えることはできると信じています。何らかの参考になれば幸い 14

データサイエンティストの分析データサイエンティストの分析にはいろいろありますが、ここではあえて２種類にざっくりと分けて考えます。 • EDA (Exploratory Data Analysis, 探索的データ分析) データセットの中身を調査してその特徴をまとめること
• 実験ある仮説や理論を立てて、それが正しいかを人為的に確かめること 15

EDAの詳細 EDAとは、データセットの中身を調査してその特徴をまとめることを指します。多くの場合、データの可視化手法を使用します。具体的には、PythonやR等のプログラミング言語を使って、以下の操作を行いながらデータセットの内容を理解します。 • 欠損値や外れ値の確認 • データ型や分布の確認（平均・中央値・分散など） •
変数間の関係性の把握（相関の確認） • 可視化による特徴の把握（ヒストグラム・散布図など） • データのグループ化による特徴確認（クラスタリングなど） 16

＜ここで実際にデモをするデモは後ほど＞ 17

EDAはCRISP-DMのどこにあたるか EDAは、CRISP-DMにおける 2.データ理解にあたります。 18 1.ビジネス理解 2.データ理解 3.データ準備 4.モデリング 5.評価 6.デプロイメント
データ EDAはここにあたる

実験の詳細実験とは、ある仮説や理論を立てて、それが正しいかを人為的に確かめることを指します。すごくざっくり言うと、作ってみて効果を確かめる、ことです。データサイエンティストが行う実験は、例えば以下のようなことを実施します。 • 機械学習モデルの作成と評価 • アルゴリズムの設計と評価
• 計算機シミュレーション • 数理最適化 19

実験はCRISP-DMのどこにあたるか実験は、CRISP-DMにおける3.データ準備, 4.モデリング, 5.評価にあたります。 20 1.ビジネス理解 2.データ理解 3.データ準備 4.モデリング
5.評価 6.デプロイメントデータ実験はこれらにあたる

EDAと実験の関係 EDAと実験は有機的につながっており、やはり行ったり来たりしながら仕事をすることも多くあります。 CRISP-DMの説明でもお伝えしたとおり、実際には順序は厳密ではありません。理屈の上では、EDAだけで仕事が終わることはあります。というのも、得たデータの特徴にビジネスに役立つ知見があれば、それでも良いので、もしEDAでそれが見つかれば、それで良いです。ただ多くの場合、データサイエンティストの仕事は何らかのソリューションを形にする必要があるため、EDAだけでなく実験も必須となり
ます。 21

管理手法の紹介以下の３ステップに分けて、管理手法を紹介します。 • 前置き・共通事項 • Jupyter Notebookの紹介 • Jupyter Notebookの弱点
• 残念な管理例 • 管理ルールを作っておくことの意義 • Notebook VS Pythonコード • EDAの管理方法 • コツ（ボリューム小） • 実験の管理方法 • Jupyter Notebookを使わない方法（ボリューム大） 22

管理手法の紹介以下の３ステップに分けて、管理手法を紹介します。 • 前置き・共通事項 • Jupyter Notebookの紹介 • Jupyter Notebookの弱点
• 残念な管理例 • 管理ルールを作っておくことの意義 • Notebook VS Pythonコード • EDAの管理方法 • コツ（ボリューム小） • 実験の管理方法 • Jupyter Notebookを使わない方法（ボリューム大） 23

Jupyter Notebookの紹介 Jupyter Notebook とは、プログラミングコードを含んだドキュメントを作成・共有するための、WEBアプリケーションです。 ※ JupyterLabという、高機能版のツールもありますが、この講義では説明をシンプルにするためにJupyter Notebookという前提で説明しま
す。なお、Jupyter NotebookでできることはすべてJupyterLabでできます。 ※ VSCodeの拡張機能として同様のことも可能 24

Jupyter Notebookの特徴 Jupyter Notebookでは、ひとつのファイルの中でプログラミング言語（PythonやR）とドキュメントの両方を記述できる。 • 対話形式での実行が可能 • セルという単位でコードと文章を管理 •
よく使うライブラリの表示をサポート（例えばグラフ等） 25

Jupyter Notebookのデモ 26

Jupyter Notebookの立ち位置 Jupyter Notebookは、データサイエンティストの代表的なツールとして知られています。ただし、より詳細に語ると、以下のことは頭に入れておきましょう。〇:データサイエンティストはJupyter Notebookを使いこなすのは必須 ×:データサイエンティストはJupyter Notebookだけ使えればよい
27 Jupyter Notebook以外のツールも使える必要あり

世間のJupyter Notebookの扱いに関する小言世の中の多くのデータサイエンスに関する技術書は、Jupyter Notebookを前提に説明されることが多いですし、あたかも多くの仕事をこれでこなすという説明がされます。しかし、実際はJupyter Notebookで実施した方が良い仕事は一部であり、そのイメージは早めに捨てたほうが良いです。学生の皆さんは、データサイエンティストの使うツール
= Jupyter Notebook というイメージはここで捨てておいてください。 28

Jupyter Notebookの弱点 (1) Jupyter Notebookは手軽な一方で、実務においては限界があります。それについて紹介していきます。本当にたくさんあります・・・。 1. 不要な処理が多くなりがち実験的なコードを用いて試行錯誤を行いながら実装することが多いです。結果として最終的なコードとの区別が曖昧になり、不要な
コードが残りがちです 2. コードが複雑化するセル単位の順次処理をする都合上、全体の構造を見通しづらいです。関数やクラスのような構造化も難しく、コードが複雑化します。 29

Jupyter Notebookの弱点 (2) 3. チーム開発に向かない Notebookは差分が表示しづらいため、Git等を使ったバージョン管理が難しく、チームでの共同開発に向きません。また、特定のソフトがないと開けないので閲覧も面倒です。 4. 大規模な実験に向かない
大規模な実験をする場合、複数の計算機を使用して実験することもあります。しかし、Notebook単体だとそういった制御ができず、単一マシン上での実行しかできません。 5. ドキュメントのストーリーの質も低くなりがちコードが混在するため、慣れないうちはストーリーをうまく構築できな傾向があり、ドキュメントとしての質を確保するのが難しいです。 30

Jupyter Notebookの弱点 (3) 以上の弱点はJupyter Notebookそのものというよりは、利用者のスキル・意識の問題の方が大きいです。ただし、こういった問題を発生させる一因にはなっているはずです。 Jupyter Notebookだけでは、働き方に限界が出てくるので、別の方法（Pythonコードを直接書くこと）もマスターする必要があることは肝
に銘じましょう。 31

残念な管理例最も残念な管理例は、各々のパソコンに以下のようなフォルダ・ Jupyter Notebookのファイルがあることでしょうか • 小売店Aのアンケート分析結果（フォルダ） • B支店のアンケート結果EDAとアンケート分類モデルの実験.ipynb • 電力企業Bの金融分析（フォルダ）
• EDAと需要予測モデルの実験.ipynb これの問題点 • 各々のパソコンに保存されているので、他の人が閲覧できない • EDAと実験が同じファイル内で行われており、それぞれの品質が低くなりがち 32

管理ルールを作っておくことの意義 EDA・分析の管理ルールを作っておかないと、以下のような問題が発生します。 1. 数日前・数週間・数ヶ月の分析・実験結果を引用したいのに、行方不明になる 2. 先輩データサイエンティストのレビューを受けづらくなる 3. 他のメンバーに引き継げなくなる
いずれも、趣味で一人でやっている分には気にしなくて良いですが、仕事ではかなり深刻な問題です。 → これらの問題を起こさないためにも、ルールを作っておく事が大事 33

管理方法の前提 Jupyter Notebookはデータサイエンティストの代表的ツールであることに間違いはありませんが、常に最適とは限りません。以下のことは覚えておきましょう。 • データサイエンティストの代表的なツールであるJupyter Notebook が必ずしも最適ではないこと •
実験の場合はPythonコードを使う方が良い場合が多いが、いろいろな工夫が必要なこと 34

Notebook と Pythonコードの特性 NotebookとPythonコードという2つの手段がありますが、それぞれの特性は以下のとおりです。 • Notebook アドホックな集計や可視化、試行錯誤を繰り返す必要がある初期段階で活用することに適している。 •
Pythonコード大規模な実験・チームでの共有や継続的なメンテナンスが必要な、最終的なアウトプットの作成に向いています。ざっくりというと、分析序盤は Notebook, 後半に行くにつれてピュアなPythonコードが向いている、ということになります。 35

観点 Notebook Pythonコード再現性セルの実行順序に依存するため、再現性が保てない可能性がある。スクリプト全体が一貫して実行されるため、再現性が高いコラボレーション変更点の追跡が難しく、Gitなどでのバージョ
ン管理が難しい変更点の追跡が容易で、Gitなどのバージョン管理システムで管理がしやすい構造化関数やクラスをNotebook内に定義することが多く、コード全体の見通しが悪くなる事が多い関数やクラスとして外部ファイルに分割できるため、コード全体の構造化や再利用が可能試行錯誤インタラクティブな開発が可能で、試行錯誤を繰り返しやすいスクリプト全体を実行する必要があり、試行錯誤が難しい（デバッグツールを活用することで緩和できる）適した段階試行錯誤を繰り返す必要がある初期段階の作業に適しているチームでの開発や継続的なメンテナンスが求められる最終アウトプットに適している適した用途データ探索、データ可視化データ前処理、機械学習モデルの開発、プロトタイプ開発 Notebook VS Pythonコード 36 ※ 書籍『先輩データサイエンティストからの指南書―実務で生き抜くためのエンジニアリングスキル』に記載されている表をかなり参考にしています。

EDAの管理方法（１） EDAの管理についてはただ一つのルールを徹底するだけです。自分が試行錯誤的に（探索的に）分析する用途の Notebookファイル（.ipynb）と、他人に説明するためのファイルは別にしましょう。つまり、ドキュメントをちゃんと書く、と言うことです。 EDAはNotebookが向いていますが、先に説明したように汚くなりやすいので、得られた知見はドキュメントとして別ファイルにした方が良いです。 37

EDAの管理ルール（２） • ビギナーのうちは自分がやったことを全部説明したくなる → 身近な先輩であれば良いかもですが、お客さんに説明するときは我慢して、伝えるべきことを厳選しましょう • Notebook はレビューが難しい →
マークダウン形式のドキュメントにすることで、Github等を使えばレビューしやすくなります。Wordとかであれば、コメントを残す機能もあります。 • 実験の報告と分けるべきか？ → 実験の結果報告とまとめたドキュメントを作るでもOKです 38

EDAの管理ルールは終わり！でも実験の管理ルールはコードを書くためすごくボリューミーです 39

実験の管理方法実験は、Notebookを使うことはほとんどなく、ピュアなPythonコードを書いて行います。今日説明するのは、以下の２点です。 1. 実験の管理ルール 2. Pythonコードの工夫 40

実験の管理を意識しないと・・・気をつけないと以下の恐ろしいことが起きます • お客さんへの説明資料を作成しているときに、実験コードのバグに気付く。しかもそれが締め切り直前 • コードが複雑過ぎて解読不能になる • 実験結果はあるが何の実験の結果かわからなくなる。 •
自分のコードを信じられなくなる • コードを継ぎ足していった結果、過去の実験を再現できなくなる。 • そもそも実験結果がデータとして残っていない • 中間処理のコードを書き換えてしまったため、再検証ができない • 数日実行していたプログアムが結果を吐かずにエラーで停止 41

実験の管理ルールー手順ー実験は、以下のステップを１回分として、ID管理をします。 1. 実験の目的をテキストファイルに書く 2. 実験用のコードを書く (Pythonコード） 3. 実験用のコードを実行する
4. 実施事項や実行した結果の考察等、実験に関するすべてのことをテキストファイルに書く 5. 実験の改善があればそのこともテキストファイルに書くとにかくテキストファイルに書いておくことが大事です。書いていないことはやらなかった、くらいに思いましょう。 42

実験の管理ルールー原則ー手順に加えて、以下の原則を守ります。 • 順序を守る実験用のコードを実行したときは、再実行の前に実験結果のファイルをすべて破棄しましょう。違う処理を得た実験結果のファイルを混ぜないためです。 • 完了した実験のコード・データは修正しない
どんな些細な修正でも、それは別の実験として実施する。このとき過去のコードはコピペしてOK。ただしこれは、ソフトウェアエンジニアリングにおいてはNGな行為であり、データサイエンティスト特有のこととして理解してください。再利用できるコードを書く方が望ましいです。 43

川口の場合は、以下のように実験用のフォルダを作り、１回の実験を1 つのフォルダ(フォルダ名はexp<ID>)として管理しています。具体的に、川口はどうしているのか 44 ・1つのテーマに関して1つのフォルダ内で管理・１回の実験はその回と前回までの実験用フォルダ内で完結（過去のデータ・コードを参照することがある）・実験用のコードの詳細は後述・実験での実施事項や結論はマークダ
ウンテキストでその実験のフォルダ内に保存しておく（これが一番大事） sample-codes

README.mdの中身各実験用フォルダの中のREADME.mdに、その実験に関する様々な事項を書きます。例えば、以下のことです。 • 実験の背景 • 自身が実施した作業や分析の概要 • 実験の再現方法 •
データのダウンロード方法 • 環境構築方法（仮想環境等） • 実験コードやスクリプトの実行方法 • 実験を通じて得た知見（結論）書かないよりは書いておきましょう。 45

README.mdの中身ー具体例ー (1) 46 最初に、実験の概要・背景・目的・位置付け等を説明します。フォルダ内で大事なファイルは何なのかを説明します。後のサンプルコードの都合上、ファイル名が一部不自然です（level_6_.pyなど）

README.mdの中身ー具体例ー (2) 47 他人が、自分が実施したことと同様のことを再現できる方法を書いておくことはとても大事なことです。明日の自分＝他人と思っておきましょう

README.mdの中身ー具体例ー (3) 48

README.mdの中身ー具体例ー (4) 49 結局何がわかったかもしっかりと書きましょう。この例では、実験前のEDAの結論もこの中に書いています。

README.mdの中身ー具体例ー (5) 50 実験の結果、何がわかったのかを書きましょう。例えば自分の作った機械学習モデルで良いのか悪いのか、を残すことが大事です。

README.mdの中身ー具体例ー (6) 51 それから、実験に関して何でも反省点をメモ書きしておくのは大事です。

実験管理ルールの補足川口は、以上のフォルダをGitで管理し、社内のGithubリポジトリにアップロードしてメンバーとレビューしあっています。 • Git: バージョン管理ソフト • Github: Gitを有効に使うためのWEBサービス 52

実験管理ルールのまとめ以上のドキュメントを実験１回ごとに書き、フォルダで管理します。ポイントは、まとめて１回で全てを明らかにしようとしないことです。１回ずつ、着実に進めて物事を明らかにしましょう。大きくなった実験IDが進捗の証です。ちなみに川口は過去128番まで行ったことがあります。が、これはかなり特殊な事例なのと、川口もそんなに慣れていなかったこともあり無駄なこともかなりやった結果です。 53

Pythonコードの工夫実験用のPythonコードにも工夫が必要です。そもそも、実験コードは正しいという前提でないと実験の意味が全くありませんし、大量のデータを管理するのも大変です。 54

残念な実験コード 55 この講義では、右にある残念実験コードの問題を指摘しながら、それらを段階的に改善していきます。コード自体は、回帰の機械学習モデルの性能評価
さて、このコードの問題は何でしょうか？ exp001/level_0.py

残念な実験コードー実行結果ー 56

残念な実験コードー実行結果ー 57

残念な実験コードの問題点 • 乱数で実行のたびに違う結果になる • ログが標準出力のみでどこにも残らない • 実験結果が取り出しやすい形で残っていない • パラメータを変更・保存できない •
大量のパラメータに対応できていない • コードの再利用性が考慮されていない 58

残念な実験コードの改善 • 乱数で実行のたびに違う結果になる → Level1: 乱数シードを設定する • ログが標準出力のみでどこにも残らない → Level2:
ロガーを使ってログを残す • 実験結果が取り出しやすい形で残っていない → Level3: JSON等の構造化された形式で結果を保存する • パラメータを変更・保存できない → Level4: パラメータを管理・保存する • 大量のパラメータに対応できていない → Level5: 色々なパターンのパラメータで大量に実行する • コードの再利用性が考慮されていない → Level6: 処理の一部を関数化する 59

サンプルコードと解説これから、段階的に実際のコードを見せながら、実装例を示していきます。フォルダ構成は右のようになっており、実行の前提としてください。 60 • README.md
• exp001 (フォルダ) • level_0.py • level_1.py • level_2.py • level_3.py • level_4.py • level_5_.py • level_5_exp.py • level_6.py • level_6_lib.py • level_6_exp.py • exp002（フォルダ） • exp002.py • svr_exp.py

問題点1: 乱数で実行のたびに違う結果になる乱数シードを設定していないため、全く同じ結果を再現できません。 61

乱数シードとは？プログラムで疑似乱数（コンピュータで生成される乱数）を生成する際の初期化用の数値のことです。擬似乱数生成に関する内容はあまりにも奥深いので割愛 62

Level1: 乱数シードを設定する内部で乱数生成を行うパッケージ内のシードを初期化する処理を挟みます。このプログラムでは標準モジュール(random)とNumpyの乱数を設定しています。 63 追記 exp001/level_1.py

どうして複数の乱数シードを設定するのか使っているパッケージごとに、乱数生成に使っているパッケージが違うことがあります。今回はscikit-learnという機械学習ライブラリを使っており、その中では主に Numpyという数値演算ライブラリの乱数生成モジュールを使っています。そのため、Numpyの乱数シードを初期化する必要があります。 64

注意すること今回は randomとNumpyを使っていますが、使うパッケージによってはさらに違う場合もあります。ご自身が実施する実験に応じて初期化方法は調べて再現性を取れるか確認しましょう。意外と面倒なケースもあります・・・。 65

Level1の結果このように何度実行しても同じ結果になります。 66

問題点2:ログが標準出力のみでどこにも残らない今のままでは、ログや実行結果が標準出力として表示されるだけで、結果をコピペする必要がありますし、うっかり閉じちゃうと履歴がなくなります。 67 これらのログ・結果は表示されているだけです。 exp001/level_1.py

Level2: ロガーを使ってログを残す print文は手軽ですが、せっかくならロガーを使ってログファイルにも残すようにしましょう。これでうっかり実行画面を消しても大丈夫
68 exp001/level_2.py

69 exp001/level_2.py

Level2の結果標準出力された結果が、ログファイル(logs/experiment.log)にも追記で出力され保存されるようになりました。 70

問題点3: 実験結果が取り出しやすい形で残っていないログには性能評価の結果が残っているが、ここから取り出すのはすごく面倒 71 結果はログファイルに残っているものの、この形式だと取り出して分析をするのが面倒（例えば手法間の性能比較をするグラフを書きたいときに面倒

Level3: JSON等の構造化された形式で結果を保存する結果をJSONとしてファイルに保存する 72 exp001/level_3.py

Level3の結果結果をJSONとしてファイルに保存するようになりました。 73

問題点4:パラメータを変えるためにコードを直接編集する必要がある機械学習のハイパーパラメータの調整が必要だが、コードを直接書き換えないと変更できない。また、実験結果のファイルに、どのようなパラメータで実行したか書かれていないため、後でどのパラメータで実験したかわからなく
なる。 74 exp001/level_3.py exp001/data/results/experiment_result.json

Level4: パラメータを管理・保存する ArgumentParserを使って、実行時にパラメータの設定をできるように書き直します。 75 ArgumentParserと必要なモジュールを import パラメータを外から変えられるように
メイン処理を関数化しておく後のファイル保存のために、パラメータの組み合わせを示す文字列を作っておく exp001/level_4.py

76 ログファイルは、パラメータの組み合わせごとに別にするハイパーパラメータのベタ書きをやめて、引数から参照する exp001/level_4.py

77 パラメータを結果ファイルの内容とファイル名の中に入れておく。 → パラメータの取り違いリスクを抑制 ArgumentParserで、実行時にパラメータを設定できるようにする。デフォルト値も設定するとより便利 exp001/level_4.py

78 ArgumentParserで、取得したパラメータで実験のメイン関数を実行 exp001/level_4.py

Level4の結果 79 パラメータの設定をコマンド実行時にできるようになり、結果ファイルの中にパラメータも書き込まれた。これにより、 • パラメータを変えての実行が容易になった。 • パラメータの取り違いが抑制された。

問題点5:大量のパラメータに対応できていない手動でたくさんのパラメータの組み合わせを実行するのは大変（都度コマンドを書き換えないといけない） 80

Level5: 色々なパターンのパラメータで大量に実行する実験用関数を読み込んで、いろいろなパターンのパラメータで何度も実行するスクリプトを別途用意する。 81 関数化した実験の処理を読み込む（Level4からは多少修正している。詳細は後述）総当たりするようのパラメータ（引数）を設定パラメータの総当たりを繰り返しながら、それぞれで
複数の乱数シードを生成して実行 exp001/level_5.py

82 ロガーの名前が衝突しないように、 uuid5を使って一意なIDを取得する。 exp001/level_5_exp.py

83 標準出力に大量にログが表示されて邪魔なので今回は表示しない（別に表示しても良い） exp001/level_5_exp.py

84 exp関数の最後に、Warning 用のロガーに何度もファイルハンドラーが追加されることを防ぐために、１回の実行ごとに削除 exp001/level_5_exp.py

Level5の結果 85

Level5の結果大量のJSONで読み込み可能な実行結果ができた。あとはスクリプトを書いて結果の分析が容易にできます 86

問題点6:コードの再利用性が考慮されていない各処理が関数化・クラス化されていないので、別の似たような実験を行うときに再利用ができない。 87 exp001/level_6_exp.py

Level6: 処理の一部を関数化する再利用する用の関数を別のファイルとする(level_6_lib.py)。例えば今回だと、以下の関数を作成 • experiment_loggers 実験で使うロガーを返す • init_random_seed 乱数シードを初期化する
• load_Xy データセットを取得する • evaluate 正解データと予測結果から評価結果を算出する • save_out_json 出力結果をJSONとして保存する 88

89 exp001/level_6_lib.py

90 exp001/level_6_lib.py

91 作った関数を読み込み作った関数で乱数シードを初期化 exp001/level_6_exp.py

92 作った関数を呼び出し exp001/level_6_exp.py

93 作った関数を呼び出し exp001/level_6_exp.py

Level6の結果別の実験から処理を流用できるようになります。 94 exp001/level_6.py

残念な実験コードの改善（再掲） • 乱数で実行のたびに違う結果になる → Level1: 乱数シードを設定する • ログが標準出力のみでどこにも残らない → Level2:
ロガーを使ってログを残す • 実験結果が取り出しやすい形で残っていない → Level3: JSON等の構造化された形式で結果を保存する • パラメータを変更・保存できない → Level4: パラメータを管理・保存する • 大量のパラメータに対応できていない → Level5: 色々なパターンのパラメータで大量に実行する • コードの再利用性が考慮されていない → Level6: 処理の一部を関数化する 95

実験の管理方法（再掲）実験は、Notebookを使うことはほとんどなく、ピュアなPythonコードを書いて行います。今日説明するのは、以下の２点です。 1. 実験の管理ルール 2. Pythonコードの工夫 96

本日の流れ（再掲） • 一般的なデータ分析プロセスのフレームワークである、CRISP-DMの紹介 • データサイエンティストの分析について解説 • 分析・実験・検証の管理方法の紹介 • 演習
• コードの修正 97

演習・課題今回の演習では、実験用コードの改善にチャレンジしてもらいます。 • 提出方法: WebClassのレポート機能 • 締め切り: 11/20木 17:09 (次回講義の開始まで)
• 課題の内容 WebClassからZipファイル (class08_exercise.zip)をダウンロードし、その中にあるlevel_0.py のコードを、以下の段階に分けて改善して別ファイルとして保存し、提出すること。 • 備考 • 最低でも1.の提出を義務とする • 作業はZipファイルを展開してできたフォルダ内で行う • 最終的にはできたコードは、データやログとまとめてzipに圧縮して保存・提出すること 1. 乱数シードを設定することで、何度実行しても同じ結果となるように修正して、 level_1.pyとして保存すること。 2. すべての標準出力(print)をログファイルとして残すようにlevel_1_.pyを修正して、level_2.pyとして保存すること。 98

課題 3. 実験結果を、JSON等の構造化された形式の結果ファイルとして残すように、level_2.pyを修正して、level_3.pyとして保存すること。 4. 実行時にMLPRegressorのハイパーパラメータを設定できるように、 level_3.pyを修正して、level_4.pyとして保存すること 5. level_4.pyで以下のハイパーパラメータの組み合わせを総当たり実行するプログラムを書き、level_5.pyとして保存すること
• learning_rate_init: 0.001, 0.01, 0.1 • hidden_layer_sizes: (100,), (1000, 100), (10,) • activation: “relu”, “tanh”, “logistic”, “identity” 6. 5.までで作成されたプログラムを対象に、処理の一部を再利用できる関数として同様の処理をできるようにすること。最低2つ以上の関数を作成するものとする。ファイル名はlevel_6.pyとして保存すること。この時、関数は別ファイルにしても良いが同じファイル内に入れるでも良い 99

課題 3. 実験結果を、JSON等の構造化された形式の結果ファイルとして残すように、level_2.pyを修正して、level_3.pyとして保存すること。 4. 実行時にMLPRegressorのハイパーパラメータを設定できるように、 level_3.pyを修正して、level_4.pyとして保存すること 5. level_4.pyで以下のハイパーパラメータの組み合わせを総当たり実行するプログラムを書き、level_5.pyとして保存すること
• learning_rate_init: 0.001, 0.01, 0.1 • hidden_layer_sizes: (100,), (1000, 100), (10,) • activation: “relu”, “tanh”, “logistic”, “identity” 6. 5.までで作成されたプログラムを対象に、処理の一部を再利用できる関数として同様の処理をできるようにすること。最低2つ以上の関数を作成するものとする。ファイル名はlevel_6.pyとして保存すること。この時、関数は別ファイルにしても良いが同じファイル内に入れるでも良い 100

101 from pathlib import Path import pandas as pd from
sklearn.metrics import mean_absolute_error, r2_score, root_mean_squared_error from sklearn.model_selection import train_test_split from sklearn.neural_network import MLPRegressor from sklearn.pipeline import Pipeline from sklearn.preprocessing import StandardScaler # データの準備 print("Data preparation...") csv_path = Path(__file__).parent / "data" / "wine+quality" / "winequality-red.csv" df = pd.read_csv(csv_path, sep=";") X = df.drop(columns=["quality"]) y = df["quality"].astype(float) X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, random_state=42 ) # モデルの準備・学習 print("Model preparation and training...") pipe_list = [ ("scaler", StandardScaler()), ( "mlp", MLPRegressor( learning_rate_init=0.001, hidden_layer_sizes=(100,), # 1層100ノード activation="relu", ), ), ] pipe = Pipeline(pipe_list) pipe.fit(X_train, y_train) # 予測と評価 print("Prediction and evaluation...") pred = pipe.predict(X_test) print(f"RMSE: {root_mean_squared_error(y_test, pred):.4f}") print(f"MAE : {mean_absolute_error(y_test, pred):.4f}") print(f"R^2 : {r2_score(y_test, pred):.4f}") level_0.py

level_0.pyの実行方法以下の手順で実行できます。 • Zipファイルを展開し、作成されるフォルダに移動 • `unzip class08_exercise.zip -d class08_exercise` •
`cd class08_exercise` • `python -m venv .venv_class08`を実行 • `source .venv_class08/bin/activate`を実行 • `pip install -r requirements.txt` を実行 • `python level_0.py`を実行 102

演習・課題の補足 • 講義で紹介したサンプルプログラムを参考にしても良い • 講義で紹介した方法でなくても、意図に沿っていれば問題ない • 例えば、 • 3. の演習ではJSONでなくてもYAMLでも構わない
• 4. の演習では必ずしも ArgumentParserでなくても構わない • 5. の演習では必ずしもPythonで総当たりしなくても構わない 103

実践的データサイエンス演習 分析・実験・検証の実践的管理方法@神奈川大学 (2025年度)

実践的データサイエンス演習 分析・実験・検証の実践的管理方法@神奈川大学 (2025年度)

More Decks by Hidetoshi Kawaguchi

Other Decks in Education

Featured

Transcript

実践的データサイエンス演習分析・実験・検証の実践的管理方法@神奈川大学 (2025年度)

実践的データサイエンス演習分析・実験・検証の実践的管理方法@神奈川大学 (2025年度)