Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Sansan x atmaCup #12 Solution概要 / Sansan×atmaCup#12 Solution Summary

Sansan DSOC
December 17, 2021

Sansan x atmaCup #12 Solution概要 / Sansan×atmaCup#12 Solution Summary

■イベント 
:Sansan x atmaCup #12 振り返り会
https://atma.connpass.com/event/229180/

■登壇概要
タイトル:Sansan x atmaCup #12 Solution概要
発表者: 
atma株式会社 取締役 山口 貴大 さん
https://www.atma.co.jp/

▼Sansan R&D Twitter
https://twitter.com/SansanRandD

Sansan DSOC

December 17, 2021
Tweet

More Decks by Sansan DSOC

Other Decks in Technology

Transcript

  1. 問題のキーポイント 2つ 矩形自体+そのまわりの情報を使う必要があった • 他にラベルXっぽい矩形があるから、この矩形はYかな?といったお気持ちを表現する必要がある 名刺ごとのラベル割当方法を工夫する必要があった • 暗黙的な名刺ごとのラベルの制約条件を見定めなくてはならない ◦ 名刺1枚に同じラベルが複数存在することはまれ

    ◦ 名刺ごとに””うまく””ラベルを割り当てる必要がある • trainに存在しないラベルを予測しなくてはならない ◦ 指標 (macro-f1) の仕様上未知ラベルを無視する影響度が大きい ◦ 見えないラベルを””うまく””予測する必要がある
  2. 矩形自体+そのまわりの情報 Transformer/GNNなど NN 系 • 自然に扱えるため初手から性能が出ている人がお おい印象 LightGBM など GradientBoostedDecisionTree

    系 • 単に矩形+集約情報では弱い • 同じ名刺の別の矩形への予測値を集約するなど 1-stage の予測値の集約をして初めてNNと同等 の性能になる • 同一名刺内に同じラベルが存在しないことを捉え にくい? • 初手LightGBMだと苦労が多かったかも? Label=X Label=X Label=X Label=X こっちもX これもX? ナイーブなラベル出力の例. 4つの矩形が同じラベ ルに割り当てられている、が本当? 他の矩形情報を取りこむ等工夫がないと、似た座標 にある矩形が同じラベルになりやすい。 きみもX??