Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Sansan x atmaCup #12 Solution概要 / Sansan×atmaCup#12 Solution Summary

A2cac4b3dcb2bc0b87917ddc034ef708?s=47 Sansan DSOC
December 17, 2021

Sansan x atmaCup #12 Solution概要 / Sansan×atmaCup#12 Solution Summary

■イベント 
:Sansan x atmaCup #12 振り返り会
https://atma.connpass.com/event/229180/

■登壇概要
タイトル:Sansan x atmaCup #12 Solution概要
発表者: 
atma株式会社 取締役 山口 貴大 さん
https://www.atma.co.jp/

Sansan DSOC
▼Website
https://sansan-dsoc.com/
▼Twitter
https://twitter.com/SansanDSOC

A2cac4b3dcb2bc0b87917ddc034ef708?s=128

Sansan DSOC

December 17, 2021
Tweet

Transcript

  1. Sansan x atmaCup #12 Solution概要 2021/11/04

  2. たくさんの discussion ありがとうございました! コンペ終了後にたくさんのソリューションを共有い ただきました! ありがとうございます! こちらの内容をもとにどういう要素が決め手になっ ていたかを振り返っていきます。

  3. 問題のキーポイント 2つ 矩形自体+そのまわりの情報を使う必要があった • 他にラベルXっぽい矩形があるから、この矩形はYかな?といったお気持ちを表現する必要がある 名刺ごとのラベル割当方法を工夫する必要があった • 暗黙的な名刺ごとのラベルの制約条件を見定めなくてはならない ◦ 名刺1枚に同じラベルが複数存在することはまれ

    ◦ 名刺ごとに””うまく””ラベルを割り当てる必要がある • trainに存在しないラベルを予測しなくてはならない ◦ 指標 (macro-f1) の仕様上未知ラベルを無視する影響度が大きい ◦ 見えないラベルを””うまく””予測する必要がある
  4. 矩形自体+そのまわりの情報 Transformer/GNNなど NN 系 • 自然に扱えるため初手から性能が出ている人がお おい印象 LightGBM など GradientBoostedDecisionTree

    系 • 単に矩形+集約情報では弱い • 同じ名刺の別の矩形への予測値を集約するなど 1-stage の予測値の集約をして初めてNNと同等 の性能になる • 同一名刺内に同じラベルが存在しないことを捉え にくい? • 初手LightGBMだと苦労が多かったかも? Label=X Label=X Label=X Label=X こっちもX これもX? ナイーブなラベル出力の例. 4つの矩形が同じラベ ルに割り当てられている、が本当? 他の矩形情報を取りこむ等工夫がないと、似た座標 にある矩形が同じラベルになりやすい。 きみもX??
  5. 暗黙的な名刺ごとのラベルの制約条件 tuboさんのdiscussionでの最適化を利用している人多数 ラベルの割当を組み合わせ最適化として定式化 • 同一名刺内に同じラベルが出現しないようにしつつ • 割り当てられたラベルの確率を最大化する

  6. trainに存在しないラベルを予測しなくてはならない テストデータにしか無いラベルを割り当てる方法でさがついた • 予測確率の最大値が小さいもの • testデータに現れやすい矩形の場所を優先する方法 • trainデータに未知ラベルっぽい矩形を混ぜ込んで学習させる 特に後者2つの[trainにはない場所や特性を持った矩形を割り当てる方法]が成果を出した 1stのお二人が詳しく話をしてくれるでしょう!

  7. おまけ/上位陣のラベルごと正解率 上位陣のラベルごとスコ ア傾向 class_id=9がテストにし か存在しない未知ラベル 1st/2ndのチームは未知 ラベル対応に特に成功し ているチームだった. ラベルID