Slide 1

Slide 1 text

Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation DATE 1/xx サマリ:概要欄に解法リンク • 参加コンペ: – Vesuvius Challenge - Ink Detection | Kaggle • 概要: – 課題:多チャンネル入力のセマセグ。 • 炭化した巻物をx線で撮影し3D⇒2Dに展開した65ch画像から、インクのし みこみを認識して文字領域を検出する(次ページ詳細) • 順位: – 56位/1289チーム(シルバー) • アプローチ概要: – Unet改の2.5D CNN(seresnext_26t) • 65chから32chを前処理で切り出し。 ネットワーク内でさらに5chごとに分割し、 Backboneを通った後にそれぞれのAttentionを計算。 • VSainteuf/utae-paps: PyTorch implementation of U-TAE and PaPs for satellite image time series panoptic segmentation. (github.com) • チームについて: – 社内勉強会メンバを収集。(全員で実装、相談。手話から引き続き。) • 所感: – 全体: • シェイクアップし良い結果になった。様々な実験をしたが、途中から何も分からなくなった・・・ – Refine Networkをセグの後に付けたり、、、、モデルアンサンブルしたり、、、 • シンプルに分析力の低さを反省。 • 解像度に強い方針で作ったモデルを提出できてたら20位くらいだった😢 – コンペでムズイと感じたところ: • 何が主課題か読めなかったトコロ。 • 仮説をもって様々な実験をしたが分からないに行きついた。。。 コンペ 概要 炭化した巻物をx線で撮影し、3D⇒2Dに展開した65ch画像から インクのしみこみを認識して文字領域を検出する 結果 65ch

Slide 2

Slide 2 text

Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation DATE 2/xx コンペ概要 • このKaggleコンペティションでは、「インク検出進歩賞」(賞金10万ドル)が開催されており、発掘された巻物から 取り外されたパピルスの破片の3D X線スキャンからインクを検出するというサブ問題に取り組んでいます。このサブコン テストは、既知のグラウンドトゥルースデータと照らし合わせてモデルの精度を検証できる、より伝統的なデータサイエン ス・機械学習の問題であるため、Kaggleで開催されています。 • ヘルクラネウムの巻物に使用されているインクは、X線スキャンではすぐには見つけられませんが、機械学習モデルを用 いることで検出が可能になりました。幸いにも、グラウンドトゥルースデータが存在しています。ヘルクラネウム・パピルス が約300年前に発見されて以来、人々はそれらを開封しようと試みてきましたが、その過程で多くの巻物が破壊され てしまいました。しかし、赤外線光の下では、破片に見えるインクが確認できます。 • データセットには、粒子加速器を使用して作成された4つの破片の3D X線スキャン(4µm解像度)が含まれており、 インクが可視化された赤外線写真と共に提供されています。これらの写真はX線スキャンと位置合わせされています。 また、写真内のインクの存在を示す手作業でラベル付けされたバイナリマスクも提供されています。

Slide 3

Slide 3 text

Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation DATE 3/xx Our Inference and Train flow diagram Seresnext26t Mean attention Unet (GMACs: 6.4) Crop tile Size224, stride64 Depth32ch preprocessing Network TTA Rotate 4, scale [0.7,0.8,0.9,1] Post processing Average Ensemble Inference phase (base network:@hengck23) Vesuvius Challenge - Ink Detection Seresnext26t Mean attention Unet (GMACs: 6.4) Crop tile Size224, stride112 Depth32ch preprocessing Network Train phase Base notebook:@TK 2.5d segmentaion baseline Split Image Horizon 2 Vertical 2 [a, b] [c, d] Data is 4fold Used a&b fold a b c d Training data : Split horizontally straight for each image 2 : Our Original Point!

Slide 4

Slide 4 text

Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation DATE 4/xx 解法見てのコンペ振り返り: • 非現実的だけど、データに対して理想解だったこと: – 3D Convで、画像全体を一気に認識!!が最高性能!!! • リソース制約にかかる条件: – 65chの多チャンネル、6000x8000の超でかい画像 • チャネル選択、画像のスライディングウィンドウは必須。。。 ⇒①チャネル方向の効率的な学習(もしくは高速に3DConv)、②解像度対策が必要かも? • 分析(中堅kagglerレベルの予測なので信憑性は。): – 金圏内:(2023/6/15 12時時点) • 2位:Deconvを消して軽量化(このレベルのセグメンテーションだったらEncorderのマップで十分やで!) – ①モデル:2.5Dで3D情報をうまく抽出できる構造 + 3D conv、②解像度は標準。 – 閾値問題をデータ分布から予測して決める方式(90%パーセンタイルで決定のような形) • 6位:横回転と、でかい解像度、複数のモデルでの学習! – ①チャネルの選択は、細かく分けてバッチに入れるタイプ。(なるほど。。。)②解像度は大きめ – 閾値決定は2位と同じ。 – 銀圏内: • 普通にUnetベース、だけどバックボーンは軽量なモノ。チャネル選択にちょい工夫あるくらいかも。 • 複数モデルアンサンブル、データの作り方ちょい工夫程度。 • 閾値はエイヤ固定がほとんどなはず。 – 銅圏内: • 公開ノートブックレベル or LBフィッティング

Slide 5

Slide 5 text

Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation DATE 5/xx 解法たち • 2位: – Vesuvius Challenge - Ink Detection | Kaggle • 6位: – Vesuvius Challenge - Ink Detection | Kaggle • 11位: – Vesuvius Challenge - Ink Detection | Kaggle • 33位: – Vesuvius Challenge - Ink Detection | Kaggle • 37位: – Vesuvius Challenge - Ink Detection | Kaggle • 75位: – Vesuvius Challenge - Ink Detection | Kaggle

Slide 6

Slide 6 text

Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation DATE 6/xx うまくいかなかったこと • 閾値問題対策 • otsu's binalization for threshold free prediction • ポスプロ • Morphology • 学習 • multi model ensemble (regnety 032) • pretraining with IR image • insert Residual Refinment Module (BASNet) • multi veiw modlel (https://valeoai.github.io/blog/publications/mvrss/)

Slide 7

Slide 7 text

Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation DATE 7/xx • 以下コンペメモ

Slide 8

Slide 8 text

Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation DATE 8/xx ベースアーキテクチャ:VSainteuf/utae-paps: PyTorch implementation of U-TAE and PaPs for satellite image time series panoptic segmentation. (github.com) ★多チャンネルの選定を効率的に実行。#3Dconvは重いので。。。

Slide 9

Slide 9 text

Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation DATE 9/xx 類似コンペ • 細胞コンペ – Kaggleで開催された「Sartorius - Cell Instance Segmentation」でゴールドメダルを獲得しまし た - Taste of Tech Topics (hatenablog.com) – Kaggleコンペティション「Sartorius – Cell Instance Segmentation」でKaggle Grandmaster大 越、Chenのチームが優勝 | 株式会社Rist | Rist Inc. • Covidコンペ – VinBigData Chest X-ray Abnormalities Detection | Kaggle • Spineコンペ – RSNA 2022 Cervical Spine Fracture Detection | Kaggle • MRIセグ – https://www.kaggle.com/competitions/uw-madison-gi-tract-image- segmentation/discussion?sort=recent-comments

Slide 10

Slide 10 text

Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation DATE 10/xx Exp01-ベースラインの特性理解 • ベース – ライブラリ:segmentation_models_pytorch – In ch:6ch – モデル:Unet, EfficientnetB0 – VRAM:4GB – 学習時間:約1H – データ: • チャネルは真ん中を抽出 • 規則的に分割 – Valid:0.52, pb:0.22 – Pretrain : True – バリデーションはデータ1番目のみ。 • データによって文字の大きさがことなる。おそらくスケールが違う。 • 実験 – 解像度 • 512:VRAM: 12GB – チャネル数 • 64 – モデル • Efficientnet b4 – データ • 一番上から抽出 • 分かったこと – Backboneはeffnetb0クラスで十分っぽい。 • 仮説 – インク情報は、channelの中央付近ある? – 学習時はランダムクロップもいれた方がいいかも。 – 画像の大きさも異なるようにクロップした方が良いかも – 平均と分散は正しい? – スライディングウィンドウの組み合わせ方って平均でいいの? • ネタ – IR imageをLossにつかえない? 実行日時 モデル Best Dice Best Threshold 20230502_1505 resolution512 0.4766432719280401 0.4 20230502_1535 efficientnet-b4 0.4754529397839934 0.4 20230502_1520 channel64 0.49721381569898876 0.4 20230502_1448 vesuvius_2d_slide_exp001 0.525536571702665 0.45 20230502_2131 PSPNet 0.4077884117144062 0.2 20230502_1537 change_pickup_channel 0.24355792972278256 0.1 20230502_1534 change_pickup_channel_ch32 0.4582101221597211 0.45 20230502_1903 channel12 0.5242078558208338 0.4 20230502_2132 FPN 0.47752787775180333 0.45 20230502_2142 DeepLabV3 0.5239745284744174 0.4 20230502_2126 PAN 0.4778665158451144 0.45 20230503_0106 tilesize512_stride112 0.5346042147835539 0.25 20230502_2130 DeepLabV3Plus 0.5181877603869942 0.4 20230503_1826 unet_noPretrain 0.39617337023250554 0.35

Slide 11

Slide 11 text

Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation DATE 11/xx Fragment Slices Ink Peak Fragment 1 21-34 65 Fragment 2 25-38 88 Fragment 3 20-33 77 https://www.kaggle.com/competitions/vesuvius-challenge-ink- detection/discussion/403348#2235071 (14) (14) (14) 20-38 28 +-6 (27) (32) (28)

Slide 12

Slide 12 text

Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation DATE 12/xx 各学習データ(参考IR画像)と文字サイズ感 1 2 3 1.03 cm 1.79 cm 1.52 cm

Slide 13

Slide 13 text

Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation DATE 13/xx Refineモジュールの学習方法 学習②: Refineモジュール 含めて学習 学習①: けろっぴモデル

Slide 14

Slide 14 text

Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation DATE 14/xx 136850161.pdf (ecva.net) • Background-Insensitive Scene Text Recognition with Text Semantic Segmentation

Slide 15

Slide 15 text

Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation DATE 15/xx RefineNet (Multi-Path Refinement Network):ディープラーニングによる Semantic Segmentation手法 | NegativeMindException

Slide 16

Slide 16 text

Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation DATE 16/xx Rethinking Text Segmentation: A Novel Dataset and a Text-Specific Refinement Approach (thecvf.com)

Slide 17

Slide 17 text

Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation DATE 17/xx https://ietresearch.onlinelibrary.wiley.com/doi/10.1049/ipr2.12278 A coarse-refine segmentation network for COVID-19 CT images

Slide 18

Slide 18 text

Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation DATE 18/xx BASNet: Boundary-Aware Salient Object Detection (thecvf.com)

Slide 19

Slide 19 text

Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation DATE 19/xx https://www.mdpi.com/2072-4292/12/12/2001 Refined UNet: UNet-Based Refinement Network for Cloud and Shadow Precise Segmentation