$30 off During Our Annual Pro Sale. View Details »

Sansan x atmaCup #12 Solution概要 / Sansan×atmaCup#12 Solution Summary

Sansan DSOC
December 17, 2021

Sansan x atmaCup #12 Solution概要 / Sansan×atmaCup#12 Solution Summary

■イベント 
:Sansan x atmaCup #12 振り返り会
https://atma.connpass.com/event/229180/

■登壇概要
タイトル:Sansan x atmaCup #12 Solution概要
発表者: 
atma株式会社 取締役 山口 貴大 さん
https://www.atma.co.jp/

▼Sansan R&D Twitter
https://twitter.com/SansanRandD

Sansan DSOC

December 17, 2021
Tweet

More Decks by Sansan DSOC

Other Decks in Technology

Transcript

  1. Sansan x atmaCup #12
    Solution概要
    2021/11/04

    View Slide

  2. たくさんの discussion ありがとうございました!
    コンペ終了後にたくさんのソリューションを共有い
    ただきました! ありがとうございます!
    こちらの内容をもとにどういう要素が決め手になっ
    ていたかを振り返っていきます。

    View Slide

  3. 問題のキーポイント 2つ
    矩形自体+そのまわりの情報を使う必要があった
    ● 他にラベルXっぽい矩形があるから、この矩形はYかな?といったお気持ちを表現する必要がある
    名刺ごとのラベル割当方法を工夫する必要があった
    ● 暗黙的な名刺ごとのラベルの制約条件を見定めなくてはならない
    ○ 名刺1枚に同じラベルが複数存在することはまれ
    ○ 名刺ごとに””うまく””ラベルを割り当てる必要がある
    ● trainに存在しないラベルを予測しなくてはならない
    ○ 指標 (macro-f1) の仕様上未知ラベルを無視する影響度が大きい
    ○ 見えないラベルを””うまく””予測する必要がある

    View Slide

  4. 矩形自体+そのまわりの情報
    Transformer/GNNなど NN 系
    ● 自然に扱えるため初手から性能が出ている人がお
    おい印象
    LightGBM など GradientBoostedDecisionTree 系
    ● 単に矩形+集約情報では弱い
    ● 同じ名刺の別の矩形への予測値を集約するなど
    1-stage の予測値の集約をして初めてNNと同等
    の性能になる
    ● 同一名刺内に同じラベルが存在しないことを捉え
    にくい?
    ● 初手LightGBMだと苦労が多かったかも?
    Label=X
    Label=X
    Label=X
    Label=X
    こっちもX
    これもX?
    ナイーブなラベル出力の例. 4つの矩形が同じラベ
    ルに割り当てられている、が本当?
    他の矩形情報を取りこむ等工夫がないと、似た座標
    にある矩形が同じラベルになりやすい。
    きみもX??

    View Slide

  5. 暗黙的な名刺ごとのラベルの制約条件
    tuboさんのdiscussionでの最適化を利用している人多数
    ラベルの割当を組み合わせ最適化として定式化
    ● 同一名刺内に同じラベルが出現しないようにしつつ
    ● 割り当てられたラベルの確率を最大化する

    View Slide

  6. trainに存在しないラベルを予測しなくてはならない
    テストデータにしか無いラベルを割り当てる方法でさがついた
    ● 予測確率の最大値が小さいもの
    ● testデータに現れやすい矩形の場所を優先する方法
    ● trainデータに未知ラベルっぽい矩形を混ぜ込んで学習させる
    特に後者2つの[trainにはない場所や特性を持った矩形を割り当てる方法]が成果を出した
    1stのお二人が詳しく話をしてくれるでしょう!

    View Slide

  7. おまけ/上位陣のラベルごと正解率
    上位陣のラベルごとスコ
    ア傾向
    class_id=9がテストにし
    か存在しない未知ラベル
    1st/2ndのチームは未知
    ラベル対応に特に成功し
    ているチームだった.
    ラベルID

    View Slide