Upgrade to Pro — share decks privately, control downloads, hide ads and more …

NLPコンペの知見を実務に活かすために / introduction-ayniy

NLPコンペの知見を実務に活かすために / introduction-ayniy

「Kaggle Google Quest Q&A Labeling 反省会」(https://connpass.com/event/167595/) の発表資料

Shotaro Ishihara

February 22, 2020
Tweet

More Decks by Shotaro Ishihara

Other Decks in Technology

Transcript

  1. NLPコンペの知⾒を実務に
    活かすために
    u++ (@upura0)
    Kaggle Google Quest Q&A Labeling 反省会
    2020年02⽉28⽇
    1

    View Slide

  2. 本発表について
    資料は公開済です(https://speakerdeck.com/upura)
    「会場だけ」の情報もあります
    「会場だけ」を除き、SNS・ブログでの⾔及もOK
    ⽬次
    . コンペと実務
    . ⾃作ライブラリ「Ayniy」
    . (会場だけ)実例
    2

    View Slide

  3. ⾃⼰紹介
    事業会社のデータサイエンティスト
    法⼈向けデータ分析組織⽴ち上げ
    サービス企画・開発など
    Kaggle
    Kaggle Master (profile)
    PetFinder.my Adoption Prediction コンペ優勝
    『Kaggleに登録したら次にやること 〜 これだけやれば⼗
    分闘える!Titanicの先へ⾏く⼊⾨ 10 Kernel 〜』
    『PythonではじめるKaggleスタートブック』
    Weekly Kaggle News
    3

    View Slide

  4. 1.コンペと実務
    4

    View Slide

  5. コンペと実務
    コンペで得た知⾒を実務に還元できれば最⾼
    知⾒を活かしやすいよう、コンペと実務で共通の⾃作ライブラ
    リを使っている
    課題:
    コンペ特化の複雑なpipelineは、実務だと逆に使いづらい
    コンペでは英語が多いが、実務では⽇本語が多い
    5

    View Slide

  6. 2.⾃作ライブラリ「Ayniy」
    6

    View Slide

  7. Ayniy
    コンペでも実務でも使っている⾃作ライブラリ
    「よくある処理」を共通インターフェースで⼿軽に
    ⽇本語&英語の⾃然⾔語処理にも対応
    7

    View Slide

  8. Ayniy?
    サドリディン・アイニー(1878年4⽉15⽇ - 1954年7⽉15
    ⽇)は、ソビエト連邦タジク共和国(現:タジキスタン)の作
    家、ウラマー。タジク語による著述活動を⾏い、ソビエト連
    邦ではタジク・ソビエト⽂学の創始者として⾼い評価を受け
    た。
    https://uz.wikipedia.org/wiki/Sadriddin_Ayniy 8

    View Slide

  9. 設計思想
    train, test = PROCESSING(train: pd.DataFrame,
    test: pd.DataFrame,
    col_definition: dict,
    option: dict)
    9

    View Slide

  10. ⽇本語・英語の切り替え
    10

    View Slide

  11. 共通インターフェース
    config.yamlの設定がしやすい
    All you need is yaml
    col_definition:
    id_col: 'PetID'
    target_col: 'AdoptionSpeed'
    numerical_col: [
    'Age',
    ]
    categorical_col: [
    'Type',
    ]
    text_col: [
    'Description',
    ]
    11

    View Slide

  12. 3.(会場だけ)実例
    12

    View Slide

  13. まとめ
    13

    View Slide

  14. まとめ
    コンペの知⾒を実務で活かすための⾃作ライブラリ「Ayniy」
    を紹介
    「Google Quest Q&A Labeling」で得られた知⾒も、実務で
    活⽤していきたい
    14

    View Slide