主専攻実験（深層学習を用いたCG・画像処理）最終成果報告

Slide 1

Slide 1 text

2 1 最終成果報告情報科学類浅田睦葉学籍番号: 202210897

Slide 2

Slide 2 text

2 取り組んだタスク・筑波大学の学内で撮影した写真からエリアを推定する　・最終的には10クラス分類　・一の矢、第三エリア、第二エリア、石の広場、第一エリア、　　総合研究棟B、大学会館、体芸エリア、平砂、春日 ▲ さまざまな角度からの大学会館

Slide 3

Slide 3 text

3 実験1 (ResNet) ・まずはResNetによる多クラス分類を行うためResNetを実装した・入力: 画像・出力: one-hot表現・ネットワークアーキテクチャ: UNet + Residual Block ・損失関数: 交差エントロピー・評価方法: F1値（適合率と再現率の調和平均）・データセット: 次ページ以降で説明・最適化手法: （特記ない場合は）sgd

Slide 4

Slide 4 text

4 データセットの作成・Google Map の Street View Static API を使用して画像を取得・緯度、経度、方向（東西南北）、視野、カメラ角度を設定・方向は0〜360°、視野は100（広め）、カメラ角度は0°に固定 ▲ 春日エリアから取得

Slide 5

Slide 5 text

5 データセットの作成・画像を取得するには、　緯度と経度を決定する必要がある・ラベル（エリア）を自動で決定するために、　あらかじめ領域を定めてからその内側の緯度経度　をランダムに選んだ・エリアは境界となる各点を選んでおいて、　shapely を使って多角形内の座標を計算した

Slide 6

Slide 6 text

6 データセットの作成・ウォーターマークが入っているので前処理のため、610x610 に切り取った・また、処理を高速にするために、 256x256 にリサイズした ▲その座標に写真が存在しない場合

Slide 7

Slide 7 text

7 データセットの作成・最後に、パスと緯度経度、ラベル情報を持つjsonデータに変換　・これを訓練用（training.json）と検証用（test.json）で2つ作成　・訓練用と検証用を 8:2 に分割・作成したデータセットをDataLoaderで読み出す

Slide 8

Slide 8 text

8 学習① ・当初は以下の4クラス分類を行った　・春日エリア　・平砂　・石の広場　・第三エリア・各エリア 100枚の画像を用いて、　学習率 1e-3で、100エポック学習させた・F1値は 0.52

Slide 9

Slide 9 text

9 学習① ・正規化を行うように変更・最適化手法をadamに変更・F1値が 0.64 に改善した

Slide 10

Slide 10 text

10 ・データセットを作成する際にデータ拡張を行った・torchvision.transforms を利用　・一定の確率で左右反転　・ランダムに回転・拡大縮小　・ランダムにノイズ付加　・ランダムに透視変換　・ランダムに色変換　　　　　　↓ ・すれば性能が上がるわけではないデータ拡張

Slide 11

Slide 11 text

7項目でデータ拡張 precision recall f1-score support kasuga 0.25 0.20 0.22 10 hirasuna 0.40 0.40 0.40 10 ishinohiroba 0.36 0.40 0.38 10 sangaku 0.45 0.50 0.48 10 accuracy 0.38 40 macro avg 0.37 0.38 0.37 40 weighted avg 0.37 0.38 0.37 40 ・F1値が激減した　・半分くらいの正答率に 11

Slide 12

Slide 12 text

7項目でデータ拡張・F1値が激減した　・半分くらいの正答率に → 考察　・データが1/10になっている　・クロップサイズが大きすぎる　　・256x256に対して32x32 　・回転することで建物が認識され　　辛くなっている？　　（特に春日が 0.22 になっている） 12

Slide 13

Slide 13 text

3項目でデータ拡張・反転、色変換、正規化に絞った　・データは1/10だが　　F1値が元の水準まで良くなった precision recall f1-score support kasuga 0.64 0.70 0.67 10 hirasuna 0.58 0.70 0.64 10 ishinohiroba 1.00 0.80 0.89 10 sangaku 0.67 0.60 0.63 10 accuracy 0.70 40 macro avg 0.72 0.70 0.71 40 weighted avg 0.72 0.70 0.71 40 13

Slide 14

Slide 14 text

・10クラスに変更・300エポック、学習率 1e-5 ・各クラス訓練40枚, テスト10枚　→ 全体では 400枚 / 100枚 ↓ ・F1値が0.12で非常に悪くなった　→ ほとんどのエリアで正解できていない学習② 14

Slide 15

Slide 15 text

・Vision Transformer入門を読んで学習・PyTorchからImagenet 1kで事前学習された　モデルを利用する・先述したデータセットを使って　ファインチューニングする・全結合層を変更・ドロップアウト(p=0.1)を追加 ViTの導入 15 ▲ ViTのアーキテクチャ

Slide 16

Slide 16 text

・入力: 画像・出力: one-hot表現・ネットワークアーキテクチャ　ViT（Imagenet 1kで事前学習）・評価指標: F1値・前処理で 224x224 に変換・学習率 1e-3 ・収束がすごく早い・F1値は0.24で若干良くなった学習③ 16

Slide 17

Slide 17 text

・ImageNet-21kを用いて事前学習したモデルも試したがさほど改善せず・連続したエリアで、かつエリアごとにはっきりと統一された建物が　多いわけではないので精度が出にくい？ → 小さいデータセットで実験を繰り返したので、最後に学習を試す学習③ 17

Slide 18

Slide 18 text

・10クラス分類　→ 訓練データ4000枚、　　テストデータ1000枚（API制限の上限）・150エポック、学習率 1e-3 　→ 収束し切ってない・バッチサイズ 2048 学習④ 18

Slide 19

Slide 19 text

▲ 実際には平砂だが総合研究棟Bと認識失敗した例 19 ▲ 実際には第三エリアだが春日と認識 → 全て確認したわけではないが、学内に緑が多すぎて自然が多いと失敗していたまた、情報量が少ないと推論し辛いように思える

Slide 20

Slide 20 text

・10クラス分類　→ 訓練データ4000枚、　　テストデータ1000枚（API制限の上限）・20エポック、学習率 1e-1 ・バッチサイズ 2048 　→ F1値が0.75に・120エポック　→ F1値が0.86に学習⑤ 20

Slide 21

Slide 21 text

・データ拡張においてはどの手法を行っても必ず性能が良くなるわけでは　なく、タスクの性質によって効果がある拡張方法は異なると考えられる　・今回は左右反転、色変換、正規化に絞ると性能が僅かに良くなった　・エリアの判定には風景だけでなく建物の情報も使われており、　　回転や透視変換、ノイズの負荷は正しく学習できない　　要因になったと考えられる考察① 21

Slide 22

Slide 22 text

・4クラス分類から10クラス分類に変更するとF1値が大きく減少した　・4クラスは春日・石の広場・第三エリア・春日であったが、それぞれ　　似ているエリアは除外していた　・10クラスのうち、第二エリアと第三エリアは建物が似ているため、　　F1値が低かったと考えられる　・異なるエリアの木々や広々とした道路を　　認識して区別することは難しいと思われる　・平砂や体芸はエリアが広く、　　特徴を掴むことが難しかったと考えられる考察② 22

Slide 23

Slide 23 text

・深層学習　・F1値が人間のスコアを超えるように性能を高めたい　　まずは学習率を1e-1にしてエポック数を増やして収束させる　　→ 適切な前処理（学内/学外の分別など）　　→ 10分割ではエリアの特徴が十分でない可能性がある　・ViTへの理解をさらに深めて本タスクに効果的なモデルの修正をしたい　・回帰問題として、写真から座標を得たい　　→ エリアをさらに数百種類に分割する多クラス分類が成功したら可能性があると考えている・オンライン学習　・ResNetで簡単に実装してみたが、10クラス分類からF1値が狂ったので最後まで　　手をつけられなかった。これをするとより実用的になるので性能が高まったら手をつけたい今後の課題 23

Slide 24

Slide 24 text

・データセットの実装　・画像を取得する際に画像が存在しない座標を20%程度の確率で選び取る　　ため使用枠を大幅に消費していた。これを修正したい　・iPhoneのGPSロガーアプリが不安定で散歩して撮影した動画は使えなかった　　→ 第一エリアを石の広場と認識するなど無視できない影響があった今後の課題② 24 ▲ ぼんやりしていたら課金されていた

Slide 25

Slide 25 text

・筑波大学の学内写真からエリアを推測するタスクに取り組んだ・最終的に10クラス分類となった・ネットワークアーキテクチャにはResNet、Vision Transformerを使用した・左右反転、色変換、正規化に絞ってデータ拡張を行った・ResNetの4クラス分類ではF1値（400/100）は 0.64 になった　→ データ拡張によりF1値（40/10）は0.72まで向上した・ResNetの10クラス分類（400/100）ではF1値は0.12になった・Vision TransformerはResNetと比べて損失関数の収束が非常に速かった　→ 10クラス分類（240/30）ではF1値は0.24で若干良くなった・ViTの10クラス分類（4000/1000）ではF1値は0.40になった　→ 学習率 1e-1に大きくすることでF1値は0.86になったまとめ 25