$30 off During Our Annual Pro Sale. View Details »

銀_kaggle_火山コンペ_20230615

sugupoko
June 15, 2023

 銀_kaggle_火山コンペ_20230615

コンペリンク:
https://www.kaggle.com/competitions/vesuvius-challenge-ink-detection

解法:
https://www.kaggle.com/competitions/vesuvius-challenge-ink-detection/discussion/417260

所感:
・20位上がって銀メダル獲得。
・LBフィットしきらない手法しか考えつかなかったことが不幸中の幸いだったか?
・結構いろんな実験したけど普通に上位のアイディアは出てこなかった。。。楽しかった。

sugupoko

June 15, 2023
Tweet

More Decks by sugupoko

Other Decks in Research

Transcript

  1. Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation
    DATE
    1/xx
    サマリ:概要欄に解法リンク
    • 参加コンペ:
    – Vesuvius Challenge - Ink Detection | Kaggle
    • 概要:
    – 課題:多チャンネル入力のセマセグ。
    • 炭化した巻物をx線で撮影し3D⇒2Dに展開した65ch画像から、インクのし
    みこみを認識して文字領域を検出する(次ページ詳細)
    • 順位:
    – 56位/1289チーム(シルバー)
    • アプローチ概要:
    – Unet改の2.5D CNN(seresnext_26t)
    • 65chから32chを前処理で切り出し。 ネットワーク内でさらに5chごとに分割し、
    Backboneを通った後にそれぞれのAttentionを計算。
    • VSainteuf/utae-paps: PyTorch implementation of U-TAE and PaPs for satellite
    image time series panoptic segmentation. (github.com)
    • チームについて:
    – 社内勉強会メンバを収集。(全員で実装、相談。手話から引き続き。)
    • 所感:
    – 全体:
    • シェイクアップし良い結果になった。様々な実験をしたが、途中から何も分からなくなった・・・
    – Refine Networkをセグの後に付けたり、、、、モデルアンサンブルしたり、、、
    • シンプルに分析力の低さを反省。
    • 解像度に強い方針で作ったモデルを提出できてたら20位くらいだった😢
    – コンペでムズイと感じたところ:
    • 何が主課題か読めなかったトコロ。
    • 仮説をもって様々な実験をしたが分からないに行きついた。。。
    コンペ
    概要
    炭化した巻物をx線で撮影し、3D⇒2Dに展開した65ch画像から
    インクのしみこみを認識して文字領域を検出する
    結果
    65ch

    View Slide

  2. Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation
    DATE
    2/xx
    コンペ概要
    • このKaggleコンペティションでは、「インク検出進歩賞」(賞金10万ドル)が開催されており、発掘された巻物から
    取り外されたパピルスの破片の3D X線スキャンからインクを検出するというサブ問題に取り組んでいます。このサブコン
    テストは、既知のグラウンドトゥルースデータと照らし合わせてモデルの精度を検証できる、より伝統的なデータサイエン
    ス・機械学習の問題であるため、Kaggleで開催されています。
    • ヘルクラネウムの巻物に使用されているインクは、X線スキャンではすぐには見つけられませんが、機械学習モデルを用
    いることで検出が可能になりました。幸いにも、グラウンドトゥルースデータが存在しています。ヘルクラネウム・パピルス
    が約300年前に発見されて以来、人々はそれらを開封しようと試みてきましたが、その過程で多くの巻物が破壊され
    てしまいました。しかし、赤外線光の下では、破片に見えるインクが確認できます。
    • データセットには、粒子加速器を使用して作成された4つの破片の3D X線スキャン(4µm解像度)が含まれており、
    インクが可視化された赤外線写真と共に提供されています。これらの写真はX線スキャンと位置合わせされています。
    また、写真内のインクの存在を示す手作業でラベル付けされたバイナリマスクも提供されています。

    View Slide

  3. Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation
    DATE
    3/xx
    Our Inference and Train flow diagram
    Seresnext26t
    Mean attention Unet
    (GMACs: 6.4)
    Crop tile
    Size224, stride64
    Depth32ch
    preprocessing Network
    TTA
    Rotate 4,
    scale [0.7,0.8,0.9,1]
    Post processing
    Average
    Ensemble
    Inference phase
    (base network:@hengck23)
    Vesuvius Challenge - Ink Detection
    Seresnext26t
    Mean attention Unet
    (GMACs: 6.4)
    Crop tile
    Size224, stride112
    Depth32ch
    preprocessing Network
    Train phase
    Base notebook:@TK
    2.5d segmentaion baseline
    Split Image
    Horizon 2
    Vertical 2
    [a, b]
    [c, d]
    Data is 4fold
    Used a&b fold
    a b
    c d
    Training data :
    Split horizontally straight for each image
    2 : Our Original Point!

    View Slide

  4. Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation
    DATE
    4/xx
    解法見てのコンペ振り返り:
    • 非現実的だけど、データに対して理想解だったこと:
    – 3D Convで、画像全体を一気に認識!!が最高性能!!!
    • リソース制約にかかる条件:
    – 65chの多チャンネル、6000x8000の超でかい画像
    • チャネル選択、画像のスライディングウィンドウは必須。。。
    ⇒①チャネル方向の効率的な学習(もしくは高速に3DConv)、②解像度対策が必要かも?
    • 分析(中堅kagglerレベルの予測なので信憑性は。):
    – 金圏内:(2023/6/15 12時時点)
    • 2位:Deconvを消して軽量化(このレベルのセグメンテーションだったらEncorderのマップで十分やで!)
    – ①モデル:2.5Dで3D情報をうまく抽出できる構造 + 3D conv、②解像度は標準。
    – 閾値問題をデータ分布から予測して決める方式(90%パーセンタイルで決定のような形)
    • 6位:横回転と、でかい解像度、複数のモデルでの学習!
    – ①チャネルの選択は、細かく分けてバッチに入れるタイプ。(なるほど。。。)②解像度は大きめ
    – 閾値決定は2位と同じ。
    – 銀圏内:
    • 普通にUnetベース、だけどバックボーンは軽量なモノ。チャネル選択にちょい工夫あるくらいかも。
    • 複数モデルアンサンブル、データの作り方ちょい工夫程度。
    • 閾値はエイヤ固定がほとんどなはず。
    – 銅圏内:
    • 公開ノートブックレベル or LBフィッティング

    View Slide

  5. Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation
    DATE
    5/xx
    解法たち
    • 2位:
    – Vesuvius Challenge - Ink Detection | Kaggle
    • 6位:
    – Vesuvius Challenge - Ink Detection | Kaggle
    • 11位:
    – Vesuvius Challenge - Ink Detection | Kaggle
    • 33位:
    – Vesuvius Challenge - Ink Detection | Kaggle
    • 37位:
    – Vesuvius Challenge - Ink Detection | Kaggle
    • 75位:
    – Vesuvius Challenge - Ink Detection | Kaggle

    View Slide

  6. Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation
    DATE
    6/xx
    うまくいかなかったこと
    • 閾値問題対策
    • otsu's binalization for threshold free prediction
    • ポスプロ
    • Morphology
    • 学習
    • multi model ensemble (regnety 032)
    • pretraining with IR image
    • insert Residual Refinment Module (BASNet)
    • multi veiw modlel (https://valeoai.github.io/blog/publications/mvrss/)

    View Slide

  7. Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation
    DATE
    7/xx
    • 以下コンペメモ

    View Slide

  8. Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation
    DATE
    8/xx
    ベースアーキテクチャ:VSainteuf/utae-paps: PyTorch implementation of U-TAE
    and PaPs for satellite image time series panoptic segmentation. (github.com)
    ★多チャンネルの選定を効率的に実行。#3Dconvは重いので。。。

    View Slide

  9. Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation
    DATE
    9/xx
    類似コンペ
    • 細胞コンペ
    – Kaggleで開催された「Sartorius - Cell Instance Segmentation」でゴールドメダルを獲得しまし
    た - Taste of Tech Topics (hatenablog.com)
    – Kaggleコンペティション「Sartorius – Cell Instance Segmentation」でKaggle Grandmaster大
    越、Chenのチームが優勝 | 株式会社Rist | Rist Inc.
    • Covidコンペ
    – VinBigData Chest X-ray Abnormalities Detection | Kaggle
    • Spineコンペ
    – RSNA 2022 Cervical Spine Fracture Detection | Kaggle
    • MRIセグ
    – https://www.kaggle.com/competitions/uw-madison-gi-tract-image-
    segmentation/discussion?sort=recent-comments

    View Slide

  10. Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation
    DATE
    10/xx
    Exp01-ベースラインの特性理解
    • ベース
    – ライブラリ:segmentation_models_pytorch
    – In ch:6ch
    – モデル:Unet, EfficientnetB0
    – VRAM:4GB
    – 学習時間:約1H
    – データ:
    • チャネルは真ん中を抽出
    • 規則的に分割
    – Valid:0.52, pb:0.22
    – Pretrain : True
    – バリデーションはデータ1番目のみ。
    • データによって文字の大きさがことなる。おそらくスケールが違う。
    • 実験
    – 解像度
    • 512:VRAM: 12GB
    – チャネル数
    • 64
    – モデル
    • Efficientnet b4
    – データ
    • 一番上から抽出
    • 分かったこと
    – Backboneはeffnetb0クラスで十分っぽい。
    • 仮説
    – インク情報は、channelの中央付近ある?
    – 学習時はランダムクロップもいれた方がいいかも。
    – 画像の大きさも異なるようにクロップした方が良いかも
    – 平均と分散は正しい?
    – スライディングウィンドウの組み合わせ方って平均でいいの?
    • ネタ
    – IR imageをLossにつかえない?
    実行日時 モデル Best Dice Best Threshold
    20230502_1505 resolution512 0.4766432719280401 0.4
    20230502_1535 efficientnet-b4 0.4754529397839934 0.4
    20230502_1520 channel64 0.49721381569898876 0.4
    20230502_1448 vesuvius_2d_slide_exp001 0.525536571702665 0.45
    20230502_2131 PSPNet 0.4077884117144062 0.2
    20230502_1537 change_pickup_channel 0.24355792972278256 0.1
    20230502_1534 change_pickup_channel_ch32 0.4582101221597211 0.45
    20230502_1903 channel12 0.5242078558208338 0.4
    20230502_2132 FPN 0.47752787775180333 0.45
    20230502_2142 DeepLabV3 0.5239745284744174 0.4
    20230502_2126 PAN 0.4778665158451144 0.45
    20230503_0106 tilesize512_stride112 0.5346042147835539 0.25
    20230502_2130 DeepLabV3Plus 0.5181877603869942 0.4
    20230503_1826 unet_noPretrain 0.39617337023250554 0.35

    View Slide

  11. Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation
    DATE
    11/xx
    Fragment Slices Ink Peak
    Fragment 1 21-34 65
    Fragment 2 25-38 88
    Fragment 3 20-33 77
    https://www.kaggle.com/competitions/vesuvius-challenge-ink-
    detection/discussion/403348#2235071
    (14)
    (14)
    (14)
    20-38
    28 +-6
    (27)
    (32)
    (28)

    View Slide

  12. Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation
    DATE
    12/xx
    各学習データ(参考IR画像)と文字サイズ感
    1 2 3
    1.03 cm
    1.79 cm
    1.52 cm

    View Slide

  13. Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation
    DATE
    13/xx
    Refineモジュールの学習方法
    学習②:
    Refineモジュール
    含めて学習
    学習①:
    けろっぴモデル

    View Slide

  14. Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation
    DATE
    14/xx
    136850161.pdf (ecva.net)
    • Background-Insensitive Scene Text Recognition with Text Semantic
    Segmentation

    View Slide

  15. Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation
    DATE
    15/xx
    RefineNet (Multi-Path Refinement Network):ディープラーニングによる
    Semantic Segmentation手法 | NegativeMindException

    View Slide

  16. Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation
    DATE
    16/xx
    Rethinking Text Segmentation: A Novel Dataset and a Text-Specific
    Refinement Approach (thecvf.com)

    View Slide

  17. Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation
    DATE
    17/xx
    https://ietresearch.onlinelibrary.wiley.com/doi/10.1049/ipr2.12278
    A coarse-refine segmentation network for COVID-19 CT images

    View Slide

  18. Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation
    DATE
    18/xx
    BASNet: Boundary-Aware Salient Object Detection (thecvf.com)

    View Slide

  19. Platform Technology Division Copyright 2020 Sony Semiconductor Solutions Corporation
    DATE
    19/xx
    https://www.mdpi.com/2072-4292/12/12/2001
    Refined UNet: UNet-Based Refinement Network for Cloud and
    Shadow Precise Segmentation

    View Slide