「Kaggle Google Quest Q&A Labeling 反省会」(https://connpass.com/event/167595/) の発表資料
NLPコンペの知⾒を実務に活かすためにu++ (@upura0)Kaggle Google Quest Q&A Labeling 反省会2020年02⽉28⽇1
View Slide
本発表について資料は公開済です(https://speakerdeck.com/upura)「会場だけ」の情報もあります「会場だけ」を除き、SNS・ブログでの⾔及もOK⽬次. コンペと実務. ⾃作ライブラリ「Ayniy」. (会場だけ)実例2
⾃⼰紹介事業会社のデータサイエンティスト法⼈向けデータ分析組織⽴ち上げサービス企画・開発などKaggleKaggle Master (profile)PetFinder.my Adoption Prediction コンペ優勝『Kaggleに登録したら次にやること 〜 これだけやれば⼗分闘える!Titanicの先へ⾏く⼊⾨ 10 Kernel 〜』『PythonではじめるKaggleスタートブック』Weekly Kaggle News3
1.コンペと実務4
コンペと実務コンペで得た知⾒を実務に還元できれば最⾼知⾒を活かしやすいよう、コンペと実務で共通の⾃作ライブラリを使っている課題:コンペ特化の複雑なpipelineは、実務だと逆に使いづらいコンペでは英語が多いが、実務では⽇本語が多い5
2.⾃作ライブラリ「Ayniy」6
Ayniyコンペでも実務でも使っている⾃作ライブラリ「よくある処理」を共通インターフェースで⼿軽に⽇本語&英語の⾃然⾔語処理にも対応7
Ayniy?サドリディン・アイニー(1878年4⽉15⽇ - 1954年7⽉15⽇)は、ソビエト連邦タジク共和国(現:タジキスタン)の作家、ウラマー。タジク語による著述活動を⾏い、ソビエト連邦ではタジク・ソビエト⽂学の創始者として⾼い評価を受けた。https://uz.wikipedia.org/wiki/Sadriddin_Ayniy 8
設計思想train, test = PROCESSING(train: pd.DataFrame,test: pd.DataFrame,col_definition: dict,option: dict)9
⽇本語・英語の切り替え10
共通インターフェースconfig.yamlの設定がしやすいAll you need is yamlcol_definition:id_col: 'PetID'target_col: 'AdoptionSpeed'numerical_col: ['Age',]categorical_col: ['Type',]text_col: ['Description',]11
3.(会場だけ)実例12
まとめ13
まとめコンペの知⾒を実務で活かすための⾃作ライブラリ「Ayniy」を紹介「Google Quest Q&A Labeling」で得られた知⾒も、実務で活⽤していきたい14