[堅牢.py #1] テストを書かない研究者に送る、最初にテストを書く実験コード入門 / Let's start your ML project by writing tests

Slide 1

Slide 1 text

© LY Corporation テストを書かない研究者に送る “最初にテストを書く” 実験コード入門 – オレオレ最強 main.py から抜け出すために – サンプルレポジトリ: github.com/shunk031/pytest-ml-tdd-example AI Corporate Business Unit / Visual Generation Div. Shunsuke Kitada, Ph.D. HP: shunk031.me / 𝕏: @shunk031 堅牢.py #1 招待講演 @ 株式会社ユーザベース #kenro_py

Slide 2

Slide 2 text

© LY Corporation 経歴 ● ‘23/04 LINE ➜ ‘23/10 LINEヤフー Research Scientist ● ‘23/03 法政大学大学院彌冨研博士 (工学) / 学振 DC2 研究分野 ● 自然言語処理 (NLP) / 画像処理 (CV) ○ 摂動に頑健で解釈可能な深層学習 [Kitada+ IEEE Access’21, Appl. Intell.’22] ● 計算機広告 (Multi-modal / Vision & Language) ○ 効果の高いデジタル広告の作成支援 [Kitada+ KDD’19] ○ 効果の低いデジタル広告の停止支援 [Kitada+ Appl. Sci.’22] ● デザイン生成 AI ○ 離散拡散モデルで生成されたレイアウトの再調整 [Iwai+ ECCV’24] ○ LLMによるレイアウトの生成に対する自己修正 [Zhang+ arXiv’24] 自己紹介: 北田俊輔 Shunsuke KITADA 2  🏠: shunk031.me / 𝕏: @shunk031 画像生成AIにおける拡散モデルの理論と実践リサーチサイエンティスト北田俊輔 www.youtube.com/watch?v =-IPEUOcPTas Pythonで学ぶ画像生成北田俊輔インプレス社 https://book.impress.co.j p/books/1123101104

Slide 3

Slide 3 text

© LY Corporation 経歴 ● ‘23/04 LINE ➜ ‘23/10 LINEヤフー Research Scientist ● ‘23/03 法政大学大学院彌冨研博士 (工学) / 学振 DC2 研究分野 ● 自然言語処理 (NLP) / 画像処理 (CV) ○ 摂動に頑健で解釈可能な深層学習 [Kitada+ IEEE Access’21, Appl. Intell.’22] ● 計算機広告 (Multi-modal / Vision & Language) ○ 効果の高いデジタル広告の作成支援 [Kitada+ KDD’19] ○ 効果の低いデジタル広告の停止支援 [Kitada+ Appl. Sci.’22] ● デザイン生成 AI ○ 離散拡散モデルで生成されたレイアウトの再調整 [Iwai+ ECCV’24] ○ LLMによるレイアウトの生成に対する自己修正 [Zhang+ arXiv’24] 自己紹介: 北田俊輔 Shunsuke KITADA 3  🏠: shunk031.me / 𝕏: @shunk031 画像生成AIにおける拡散モデルの理論と実践リサーチサイエンティスト北田俊輔 www.youtube.com/watch?v =-IPEUOcPTas Pythonで学ぶ画像生成北田俊輔インプレス社 https://book.impress.co.j p/books/1123101104

Slide 4

Slide 4 text

© LY Corporation 経歴 ● ‘23/04 LINE ➜ ‘23/10 LINEヤフー Research Scientist ● ‘23/03 法政大学大学院彌冨研博士 (工学) / 学振 DC2 研究分野 ● 自然言語処理 (NLP) / 画像処理 (CV) ○ 摂動に頑健で解釈可能な深層学習 [Kitada+ IEEE Access’21, Appl. Intell.’22] ● 計算機広告 (Multi-modal / Vision & Language) ○ 効果の高いデジタル広告の作成支援 [Kitada+ KDD’19] ○ 効果の低いデジタル広告の停止支援 [Kitada+ Appl. Sci.’22] ● デザイン生成 AI ○ 離散拡散モデルで生成されたレイアウトの再調整 [Iwai+ ECCV’24] ○ LLMによるレイアウトの生成に対する自己修正 [Zhang+ arXiv’24] 自己紹介: 北田俊輔 Shunsuke KITADA 4  🏠: shunk031.me / 𝕏: @shunk031 画像生成AIにおける拡散モデルの理論と実践リサーチサイエンティスト北田俊輔 www.youtube.com/watch?v =-IPEUOcPTas Pythonで学ぶ画像生成北田俊輔インプレス社 https://book.impress.co.j p/books/1123101104 “Python で学ぶ” 画像生成なので ● 筋の良い Python コードを読者の人に書いてほしい ● 研究始めたての大学生や我流でコードを書いてきた研究者や機械学習エンジニアに送りたいという気持ちがあった

Slide 5

Slide 5 text

Slide 6

Slide 6 text

© LY Corporation # --- 俺の考えた最強の main.py --- # torch.manual_seed(0) # FIXME: よくわかんないけどコメントアウト # TODO: config.json にしたい（いつか） EPOCHS = 20; BATCH_SIZE = 128; LR = 0.0003; USE_CUDA = True # モデル定義（ファイル分けるのが面倒だった） class Net(nn.Module): def __init__(self): super(Net, self).__init__() self.fc1 = nn.Linear(28*28, 256) self.fc2 = nn.Linear(256, 256) # self.fc3 = nn.Linear(256, 10) # わからん def forward(self, x): x = x.view(-1, 28*28) ... model = Net().device("cuda") # 決め打ち！ train_loader = # ここに最強のデータローダーが爆誕 ... for epoch in range(EPOCHS): # \突然現れる train loop/ total_loss = 0 for i, (x, y) in enumerate(train_loader): x, y = x.device("cuda"), y.device("cuda") optimizer.zero_grad() out = model(x) loss = F.cross_entropy(out, y) loss.backward() optimizer.step() 6  こんな main.py 書いてませんか？そもそも “Jupyter Notebook 書き散らしですごめんなさい！” の人は心を改めてくださいね

Slide 7

Slide 7 text

© LY Corporation # --- 俺の考えた最強の main.py --- # torch.manual_seed(0) # FIXME: よくわかんないけどコメントアウト # TODO: config.json にしたい（いつか） EPOCHS = 20; BATCH_SIZE = 128; LR = 0.0003; USE_CUDA = True # モデル定義（ファイル分けるのが面倒だった） class Net(nn.Module): def __init__(self): super(Net, self).__init__() self.fc1 = nn.Linear(28*28, 256) self.fc2 = nn.Linear(256, 256) # self.fc3 = nn.Linear(256, 10) # わからん def forward(self, x): x = x.view(-1, 28*28) ... model = Net().device("cuda") # 決め打ち！ train_loader = # ここに最強のデータローダーが爆誕 ... for epoch in range(EPOCHS): # \突然現れる train loop/ total_loss = 0 for i, (x, y) in enumerate(train_loader): x, y = x.device("cuda"), y.device("cuda") optimizer.zero_grad() out = model(x) loss = F.cross_entropy(out, y) loss.backward() optimizer.step() 7  こんな main.py 書いてませんか？とりあえず深夜テンションでここまで書いた！これは SoTA だな（確信）

Slide 8

Slide 8 text

© LY Corporation # --- 俺の考えた最強の main.py --- # torch.manual_seed(0) # FIXME: よくわかんないけどコメントアウト # TODO: config.json にしたい（いつか） EPOCHS = 20; BATCH_SIZE = 128; LR = 0.0003; USE_CUDA = True # モデル定義（ファイル分けるのが面倒だった） class Net(nn.Module): def __init__(self): super(Net, self).__init__() self.fc1 = nn.Linear(28*28, 256) self.fc2 = nn.Linear(256, 256) # self.fc3 = nn.Linear(256, 10) # わからん def forward(self, x): x = x.view(-1, 28*28) ... model = Net().device("cuda") # 決め打ち！ train_loader = # ここに最強のデータローダーが爆誕 ... for epoch in range(EPOCHS): # \突然現れる train loop/ total_loss = 0 for i, (x, y) in enumerate(train_loader): x, y = x.device("cuda"), y.device("cuda") optimizer.zero_grad() out = model(x) loss = F.cross_entropy(out, y) loss.backward() optimizer.step() 8  こんな main.py 書いてませんか？とりあえず深夜テンションでここまで書いた！これは SoTA だな（確信）ちょっとだけ実験するつもりが 1ヶ月後には誰も触れられないコードに大変身

Slide 9

Slide 9 text

© LY Corporation # --- 俺の考えた最強の main.py --- # torch.manual_seed(0) # FIXME: よくわかんないけどコメントアウト # TODO: config.json にしたい（いつか） EPOCHS = 20; BATCH_SIZE = 128; LR = 0.0003; USE_CUDA = True # モデル定義（ファイル分けるのが面倒だった） class Net(nn.Module): def __init__(self): super(Net, self).__init__() self.fc1 = nn.Linear(28*28, 256) self.fc2 = nn.Linear(256, 256) # self.fc3 = nn.Linear(256, 10) # わからん def forward(self, x): x = x.view(-1, 28*28) ... model = Net().device("cuda") # 決め打ち！ train_loader = # ここに最強のデータローダーが爆誕 ... for epoch in range(EPOCHS): # \突然現れる train loop/ total_loss = 0 for i, (x, y) in enumerate(train_loader): x, y = x.device("cuda"), y.device("cuda") optimizer.zero_grad() out = model(x) loss = F.cross_entropy(out, y) loss.backward() optimizer.step() 9  こんな main.py 書いてませんか？とりあえず深夜テンションでここまで書いた！これは SoTA だな（確信）ちょっとだけ実験するつもりが 1ヶ月後には誰も触れられないコードに大変身適当にハードコードしたネ申パラメータ

Slide 10

Slide 10 text

© LY Corporation # --- 俺の考えた最強の main.py --- # torch.manual_seed(0) # FIXME: よくわかんないけどコメントアウト # TODO: config.json にしたい（いつか） EPOCHS = 20; BATCH_SIZE = 128; LR = 0.0003; USE_CUDA = True # モデル定義（ファイル分けるのが面倒だった） class Net(nn.Module): def __init__(self): super(Net, self).__init__() self.fc1 = nn.Linear(28*28, 256) self.fc2 = nn.Linear(256, 256) # self.fc3 = nn.Linear(256, 10) # わからん def forward(self, x): x = x.view(-1, 28*28) ... model = Net().device("cuda") # 決め打ち！ train_loader = # ここに最強のデータローダーが爆誕 ... for epoch in range(EPOCHS): # \突然現れる train loop/ total_loss = 0 for i, (x, y) in enumerate(train_loader): x, y = x.device("cuda"), y.device("cuda") optimizer.zero_grad() out = model(x) loss = F.cross_entropy(out, y) loss.backward() optimizer.step() 10  こんな main.py 書いてませんか？とりあえず深夜テンションでここまで書いた！これは SoTA だな（確信）ちょっとだけ実験するつもりが 1ヶ月後には誰も触れられないコードに大変身適当にハードコードしたネ申パラメータ適切に処理が分離されておらず入出力がよくわからん

Slide 11

Slide 11 text

© LY Corporation # FIXME: とりあえず動かすために seed はコメントアウト（なぜ） # torch.manual_seed(0) # TODO: config.json にしたい（いつか） EPOCHS = 20; BATCH_SIZE = 128; LR = 0.0003; USE_CUDA = True class Net(nn.Module): # モデル定義（ファイル分けるのが面倒だった） def __init__(self): super(Net, self).__init__() self.fc1 = nn.Linear(28*28, 256) self.fc2 = nn.Linear(256, 256) # self.fc3 = nn.Linear(256, 10) # わからん def forward(self, x): x = x.view(-1, 28*28) ... model = Net().device("cuda") # 決め打ち！ train_loader = # ここに最強のデータローダーが爆誕 ... for epoch in range(EPOCHS): # \突然現れる train loop/ total_loss = 0 for i, (x, y) in enumerate(train_loader): x, y = x.device("cuda"), y.device("cuda") optimizer.zero_grad() out = model(x) loss = F.cross_entropy(out, y) loss.backward() optimizer.step() “再現性” の罠 ● 環境・乱数・設定がバラバラ ○ どのように実行したか忘れる ○ 環境は uv ✨ で幸せになれるが… “拡張性” の罠 ● モデルを差し替えるたびにコード修正 ○ モデルを比較するだけで一苦労 “テスト” の罠 ● いつのまにか壊れている ○ どこが壊れたかわからないこれら、pytest で解決できるかも？ 11  main.py が “最強” になる 3 つの罠

Slide 12

Slide 12 text

© LY Corporation # train 時の依存は model, data_loader, epochs, … etc. def train( model: nn.Module, data_loader: DataLoader, epochs: int, lr: float ) -> nn.Module: optimizer = optim.Adam(model.parameters(), lr=lr) for _ in range(epochs): for x, y in data_loader: optimizer.zero_grad() loss = F.cross_entropy(model(x), y) loss.backward() optimizer.step() return loss def test_train_smoke(): # pytest 実行時はこの関数が動作対象 model = Net() dataset = make_fake_dataset(size=128) loss = train(model, dataset, epochs=1, lr=1e-3) assert loss <= 0.01 # loss が十分小さくなっているかテストテストを書くことで “何が入力で” “何を期待するか” を明示できる ● 実験設計と同じ行為 ● コードの設計 = 研究の再現設計 train 関数への切り出しとテスト実行 ● 機械学習モデルの実験で重要な train のフェーズを明示 ○ 関数の入出力が決まることで実験の設計が明らかになる 12  テストを書く = 実験設計を明示する

Slide 13

Slide 13 text

© LY Corporation “依存性注入” と呼ばれているが要は “オブジェクト注入” ● オブジェクトの「作成」と「利用」を分ける “外から渡す” ことでコードを柔軟に保つ ● train 関数に注目 ● model, data_loader 等に依存 pytest の fixture 機構が DI 機能を提供 ● オブジェクトの作成を ﬁxture 化 ● 作成・利用と分離で見通しup 13  依存性注入 (dependency injection; DI) の発想 def train( model : nn.Module, data_loader : DataLoader, epochs : int, lr: float ) -> nn.Module: optimizer = optim.Adam(model.parameters(), lr=lr) for _ in range(epochs): for x, y in data_loader: optimizer.zero_grad() loss = F.cross_entropy(model(x), y) loss.backward() optimizer.step() return loss def test_train_smoke(): model = Net() dataset = make_fake_dataset(size=128) loss = train(model, dataset, epochs=1, lr=1e-3) assert loss <= 0.01 # loss が十分小さくなっているかテスト model data_loader epochs lr

Slide 14

Slide 14 text

© LY Corporation 実験条件を ﬁxture に明示 ● seed, dataset, model ... pytest により以下が容易に ● 実験環境準備 ○ fix_seed によるシード値固定 ● 依存注入 ○ 実験したいパラメータの比較 ● 実験再実行・並列実行 ○ test_ 関数を起点とした実行 ○ parametrize + pytest-xdist でテストの並列実行が可能 14  テストを書くことが研究を再現可能にする @pytest.fixture def seed() -> int: return 19950815 # シード値は小倉唯さんの誕生日 @pytest.fixture(autouse=True) def fix_seed(seed: int): # シード値を受け取って固定 random.seed(seed); np.random.seed(seed); torch.manual_seed(seed) @pytest.fixture def dataset(transform: transforms.Compose) -> Dataset: return datasets.MNIST(train=True, transform=transform) @pytest.fixture def model(device: torch.device) -> nn.Module: return nn.Sequential(nn.Flatten(), nn.Linear(28*28, 10)) @pytest.mark.parametrize("lr", [1e-2, 1e-3, 1e-4]) @pytest.mark.parametrize("batch_size", [32, 64]) def test_train_smoke(dataset, model, lr, bs, device): # 適宜型付けしてね data_loader = DataLoader(dataset, batch_size=bs, shuffle=True) optim = torch.optim.Adam(model.parameters(), lr=lr) for x, y in loader: x, y = x.to(device), y.to(device) opt.zero_grad() … # 以降 train loop

Slide 15

Slide 15 text

© LY Corporation pytest をテストだけでなく実験のタスクランナーとして使う特徴 ● 依存を ﬁxture / 引数で明示可能 ● テスト単位で切り替えが簡単 ➜ @pytest.mark.parametrize ● pytest 1 コマンドだけ覚えていれば全実験を再現可能 ○ python main.py --hoge fuga … のようなコマンドを忘れていてもOK 15  pytest は軽量な実験実行くん @pytest.fixture def seed() -> int: return 19950815 # シード値は小倉唯さんの誕生日 @pytest.fixture(autouse=True) def fix_seed(seed: int): # シード値を受け取って固定 random.seed(seed); np.random.seed(seed); torch.manual_seed(seed) @pytest.fixture def dataset(transform: transforms.Compose) -> Dataset: return datasets.MNIST(train=True, transform=transform) @pytest.fixture def model(device: torch.device) -> nn.Module: return nn.Sequential(nn.Flatten(), nn.Linear(28*28, 10)) @pytest.mark.parametrize("lr", [1e-2, 1e-3, 1e-4]) @pytest.mark.parametrize("batch_size", [32, 64]) def test_train_smoke(dataset, model, lr, bs, device): # 適宜型付けしてね data_loader = DataLoader(dataset, batch_size=bs, shuffle=True) optim = torch.optim.Adam(model.parameters(), lr=lr) for x, y in loader: x, y = x.to(device), y.to(device) opt.zero_grad() … # 以降 train loop $ pytest # もしくは uv run pytest

Slide 16

Slide 16 text

© LY Corporation MNIST 訓練コードのスモークテスト ● とりあえず動くか確かめる最小のテストのこと元はハードウェアの用語：「電源を入れて煙が出なければOK」動作説明 ● test_ とつけるだけで、pytest が実験環境を自動で構築 ● tmp_path に実験用のディレクトリが自動生成 ● テストは実行の最小単位= 研究の最小構成単位その他 pytest のチュートリアルは：Get Started - pytest documentation https://docs.pytest.org/en/stable/getting-started.html 16  main.py の代わりに書く最小実験 def test_train_smoke( tmp_path: pathlib.Path # 自動で実験用ディレクトリが作成されて注入される ): cfg = make_cfg() ds = make_dataloaders(cfg, tmp_path) model = make_model(cfg) trainer = make_trainer(cfg) metrics = trainer.train(model, ds) assert "loss" in metrics

Slide 17

Slide 17 text

© LY Corporation ● @pytest.mark.parametrize(“lr, epochs”, [(1e-3, 1), (1e-4, 3)]) 説明 ● 設定の組み合わせを自動で総当り ● 実験探索とテストが同じ構文で書ける各パラメータの組み合わせを実行可能 17  pytest の parametrize で実験探索 ... @pytest.mark.parametrize("lr", [1e-2, 1e-3, 1e-4]) @pytest.mark.parametrize("batch_size", [32, 64]) def test_train_smoke(dataset, model, lr, bs, device): # 適宜型付けしてね data_loader = DataLoader(dataset, batch_size=bs, shuffle=True) optim = torch.optim.Adam(model.parameters(), lr=lr) for x, y in loader: x, y = x.to(device), y.to(device) opt.zero_grad() … # 以降 train loop 学習率の候補を列挙バッチサイズの候補を列挙

Slide 18

Slide 18 text

© LY Corporation ● 以下のように段階を踏んで実験コードを育てていくのをおすすめします 18  実験コードを育てる 5 フェーズ段階内容目的 1 pytest でスモークテストを回す実験の再現性を確保 2 パラメータを注入実験探索を自動化 3 関数化・共通化再利用性を担保 4 モジュール抽出設計を安定化 5 ライブラリ化・CLI 化論文公開と同時に使ってもらえるように main.py tests/main_test.py src/module.py

Slide 19

Slide 19 text

© LY Corporation pytest を使うと ● ﬁxture を通じて依存を分離 ● 関数が純粋関数化 ● 実験が小さく再現可能に 19  pytest で始めると自然に設計が良くなる # 依存が中に埋まっている model = nn.Sequential(nn.Flatten(), nn.Linear(784, 10)) optimizer = optim.Adam(model.parameters(), lr=1e-3) dataset = MNIST(train=True, transform=transforms.ToTensor()) train_loader = DataLoader(dataset, batch_size=64, shuffle=True) for epoch in range(5): for x, y in train_loader: optimizer.zero_grad() loss = nn.functional.cross_entropy(model(x), y) loss.backward() optimizer.step() @pytest.fixture def dataset() -> Dataset: return MNIST(train=True, transform=transforms.ToTensor()) @pytest.fixture def model() -> nn.Module: return nn.Sequential(nn.Flatten(), nn.Linear(784, 10)) def train(model: nn.Module, loader: DataLoader) -> float: opt = torch.optim.Adam(model.parameters(), lr=1e-3) for x, y in loader: opt.zero_grad() loss = F.cross_entropy(model(x), y) loss.backward(); opt.step() return loss.item() def test_train_smoke(model: nn.Module, dataset: Dataset): loader = DataLoader(dataset, batch_size=64, shuffle=True) loss = train(model, loader) assert loss < 10 ✅ After：pytest スタイル（依存が明示され、構造が見える） 🧨 Before：main.py スタイル（手続き的・密結合）

Slide 20

Slide 20 text

© LY Corporation 実行は pytest コマンドだけ！ ● 1ヶ月後、半年後でも覚えていられる ● 実行パラメータは ﬁxture として残されている ● 誰でも簡単に動かせる・コードも読める 20  何も覚えていなくても動く実行環境 $ pytest # もしくは uv run pytest Prompt: 「何も覚えていなくても動く Python 実行環境」に関して、研究者が困っていそうな感じの画像を生成してください。文字は書かなくていいです。もやもやを出してください。

Slide 21

Slide 21 text

© LY Corporation Before After 依存が隠蔽されている ﬁxture / 引数で明示コードが壊れやすいテストで守られている再現が困難 pytest で実験構成を固定実行手順が不透明 pytest コマンドだけで動く ● テストを書くことは研究を設計することである ● オレオレ最強 main.py から抜け出して、 pytest を最初の実験ランナーにしようおすすめ pytest plugin ● pytest-sugar: pytest の結果を見やすくしてくれる君 ● pytest-xdist: pytest のテストケースを並列で実行してくれる君 ● pytest-lazy-ﬁxture: pytest.fixture を pytest.mark.paramtrize に渡せるようにする君関連研究 ● Pinjected: 研究開発向けPythonライブラリ(Dependency Injection等) https://zenn.dev/proboscis/articles/4a10d26b13a940 21  🍵 まとめ