NLPコンペの知見を実務に活かすために / introduction-ayniy

B1cc148711c6a37a5c922b6e72a4ad52?s=47 u++
February 22, 2020

NLPコンペの知見を実務に活かすために / introduction-ayniy

「Kaggle Google Quest Q&A Labeling 反省会」(https://connpass.com/event/167595/) の発表資料

B1cc148711c6a37a5c922b6e72a4ad52?s=128

u++

February 22, 2020
Tweet

Transcript

  1. NLPコンペの知⾒を実務に 活かすために u++ (@upura0) Kaggle Google Quest Q&A Labeling 反省会

    2020年02⽉28⽇ 1
  2. 本発表について 資料は公開済です(https://speakerdeck.com/upura) 「会場だけ」の情報もあります 「会場だけ」を除き、SNS・ブログでの⾔及もOK ⽬次 . コンペと実務 . ⾃作ライブラリ「Ayniy」 .

    (会場だけ)実例 2
  3. ⾃⼰紹介 事業会社のデータサイエンティスト 法⼈向けデータ分析組織⽴ち上げ サービス企画・開発など Kaggle Kaggle Master (profile) PetFinder.my Adoption

    Prediction コンペ優勝 『Kaggleに登録したら次にやること 〜 これだけやれば⼗ 分闘える!Titanicの先へ⾏く⼊⾨ 10 Kernel 〜』 『PythonではじめるKaggleスタートブック』 Weekly Kaggle News 3
  4. 1.コンペと実務 4

  5. コンペと実務 コンペで得た知⾒を実務に還元できれば最⾼ 知⾒を活かしやすいよう、コンペと実務で共通の⾃作ライブラ リを使っている 課題: コンペ特化の複雑なpipelineは、実務だと逆に使いづらい コンペでは英語が多いが、実務では⽇本語が多い 5

  6. 2.⾃作ライブラリ「Ayniy」 6

  7. Ayniy コンペでも実務でも使っている⾃作ライブラリ 「よくある処理」を共通インターフェースで⼿軽に ⽇本語&英語の⾃然⾔語処理にも対応 7

  8. Ayniy? サドリディン・アイニー(1878年4⽉15⽇ - 1954年7⽉15 ⽇)は、ソビエト連邦タジク共和国(現:タジキスタン)の作 家、ウラマー。タジク語による著述活動を⾏い、ソビエト連 邦ではタジク・ソビエト⽂学の創始者として⾼い評価を受け た。 https://uz.wikipedia.org/wiki/Sadriddin_Ayniy 8

  9. 設計思想 train, test = PROCESSING(train: pd.DataFrame, test: pd.DataFrame, col_definition: dict,

    option: dict) 9
  10. ⽇本語・英語の切り替え 10

  11. 共通インターフェース config.yamlの設定がしやすい All you need is yaml col_definition: id_col: 'PetID'

    target_col: 'AdoptionSpeed' numerical_col: [ 'Age', ] categorical_col: [ 'Type', ] text_col: [ 'Description', ] 11
  12. 3.(会場だけ)実例 12

  13. まとめ 13

  14. まとめ コンペの知⾒を実務で活かすための⾃作ライブラリ「Ayniy」 を紹介 「Google Quest Q&A Labeling」で得られた知⾒も、実務で 活⽤していきたい 14