■イベント :Sansan x atmaCup #12 振り返り会 https://atma.connpass.com/event/229180/
■登壇概要 タイトル:Sansan x atmaCup #12 Solution概要 発表者: atma株式会社 取締役 山口 貴大 さん https://www.atma.co.jp/
▼Sansan R&D Twitter https://twitter.com/SansanRandD
Sansan x atmaCup #12Solution概要2021/11/04
View Slide
たくさんの discussion ありがとうございました!コンペ終了後にたくさんのソリューションを共有いただきました! ありがとうございます!こちらの内容をもとにどういう要素が決め手になっていたかを振り返っていきます。
問題のキーポイント 2つ矩形自体+そのまわりの情報を使う必要があった● 他にラベルXっぽい矩形があるから、この矩形はYかな?といったお気持ちを表現する必要がある名刺ごとのラベル割当方法を工夫する必要があった● 暗黙的な名刺ごとのラベルの制約条件を見定めなくてはならない○ 名刺1枚に同じラベルが複数存在することはまれ○ 名刺ごとに””うまく””ラベルを割り当てる必要がある● trainに存在しないラベルを予測しなくてはならない○ 指標 (macro-f1) の仕様上未知ラベルを無視する影響度が大きい○ 見えないラベルを””うまく””予測する必要がある
矩形自体+そのまわりの情報Transformer/GNNなど NN 系● 自然に扱えるため初手から性能が出ている人がおおい印象LightGBM など GradientBoostedDecisionTree 系● 単に矩形+集約情報では弱い● 同じ名刺の別の矩形への予測値を集約するなど1-stage の予測値の集約をして初めてNNと同等の性能になる● 同一名刺内に同じラベルが存在しないことを捉えにくい?● 初手LightGBMだと苦労が多かったかも?Label=XLabel=XLabel=XLabel=XこっちもXこれもX?ナイーブなラベル出力の例. 4つの矩形が同じラベルに割り当てられている、が本当?他の矩形情報を取りこむ等工夫がないと、似た座標にある矩形が同じラベルになりやすい。きみもX??
暗黙的な名刺ごとのラベルの制約条件tuboさんのdiscussionでの最適化を利用している人多数ラベルの割当を組み合わせ最適化として定式化● 同一名刺内に同じラベルが出現しないようにしつつ● 割り当てられたラベルの確率を最大化する
trainに存在しないラベルを予測しなくてはならないテストデータにしか無いラベルを割り当てる方法でさがついた● 予測確率の最大値が小さいもの● testデータに現れやすい矩形の場所を優先する方法● trainデータに未知ラベルっぽい矩形を混ぜ込んで学習させる特に後者2つの[trainにはない場所や特性を持った矩形を割り当てる方法]が成果を出した1stのお二人が詳しく話をしてくれるでしょう!
おまけ/上位陣のラベルごと正解率上位陣のラベルごとスコア傾向class_id=9がテストにしか存在しない未知ラベル1st/2ndのチームは未知ラベル対応に特に成功しているチームだった.ラベルID