Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
NLPコンペの知⾒を実務に 活かすために u++ (@upura0) Kaggle Google Quest Q&A Labeling 反省会 2020年02⽉28⽇ 1
Slide 2
Slide 2 text
本発表について 資料は公開済です(https://speakerdeck.com/upura) 「会場だけ」の情報もあります 「会場だけ」を除き、SNS・ブログでの⾔及もOK ⽬次 . コンペと実務 . ⾃作ライブラリ「Ayniy」 . (会場だけ)実例 2
Slide 3
Slide 3 text
⾃⼰紹介 事業会社のデータサイエンティスト 法⼈向けデータ分析組織⽴ち上げ サービス企画・開発など Kaggle Kaggle Master (profile) PetFinder.my Adoption Prediction コンペ優勝 『Kaggleに登録したら次にやること 〜 これだけやれば⼗ 分闘える!Titanicの先へ⾏く⼊⾨ 10 Kernel 〜』 『PythonではじめるKaggleスタートブック』 Weekly Kaggle News 3
Slide 4
Slide 4 text
1.コンペと実務 4
Slide 5
Slide 5 text
コンペと実務 コンペで得た知⾒を実務に還元できれば最⾼ 知⾒を活かしやすいよう、コンペと実務で共通の⾃作ライブラ リを使っている 課題: コンペ特化の複雑なpipelineは、実務だと逆に使いづらい コンペでは英語が多いが、実務では⽇本語が多い 5
Slide 6
Slide 6 text
2.⾃作ライブラリ「Ayniy」 6
Slide 7
Slide 7 text
Ayniy コンペでも実務でも使っている⾃作ライブラリ 「よくある処理」を共通インターフェースで⼿軽に ⽇本語&英語の⾃然⾔語処理にも対応 7
Slide 8
Slide 8 text
Ayniy? サドリディン・アイニー(1878年4⽉15⽇ - 1954年7⽉15 ⽇)は、ソビエト連邦タジク共和国(現:タジキスタン)の作 家、ウラマー。タジク語による著述活動を⾏い、ソビエト連 邦ではタジク・ソビエト⽂学の創始者として⾼い評価を受け た。 https://uz.wikipedia.org/wiki/Sadriddin_Ayniy 8
Slide 9
Slide 9 text
設計思想 train, test = PROCESSING(train: pd.DataFrame, test: pd.DataFrame, col_definition: dict, option: dict) 9
Slide 10
Slide 10 text
⽇本語・英語の切り替え 10
Slide 11
Slide 11 text
共通インターフェース config.yamlの設定がしやすい All you need is yaml col_definition: id_col: 'PetID' target_col: 'AdoptionSpeed' numerical_col: [ 'Age', ] categorical_col: [ 'Type', ] text_col: [ 'Description', ] 11
Slide 12
Slide 12 text
3.(会場だけ)実例 12
Slide 13
Slide 13 text
まとめ 13
Slide 14
Slide 14 text
まとめ コンペの知⾒を実務で活かすための⾃作ライブラリ「Ayniy」 を紹介 「Google Quest Q&A Labeling」で得られた知⾒も、実務で 活⽤していきたい 14