Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
NLPコンペの知見を実務に活かすために / introduction-ayniy
Search
Shotaro Ishihara
February 22, 2020
Technology
4
5.4k
NLPコンペの知見を実務に活かすために / introduction-ayniy
「Kaggle Google Quest Q&A Labeling 反省会」(
https://connpass.com/event/167595/
) の発表資料
Shotaro Ishihara
February 22, 2020
Tweet
Share
More Decks by Shotaro Ishihara
See All by Shotaro Ishihara
JOAI2025講評 / joai2025-review
upura
0
160
AI エージェントを活用した研究再現性の自動定量評価 / scisci2025
upura
1
110
JSAI2025 企画セッション「人工知能とコンペティション」/ jsai2025-competition
upura
0
38
生成的推薦の人気バイアスの分析:暗記の観点から / JSAI2025
upura
0
180
Semantic Shift Stability: 学習コーパス内の単語の意味変化を用いた事前学習済みモデルの時系列性能劣化の監査
upura
0
28
日本語ニュース記事要約支援に向けたドメイン特化事前学習済みモデルの構築と活用 / t5-news-summarization
upura
0
38
Web からのデータ収集と探究事例の紹介 / no94_jsai_seminar
upura
0
300
記者・編集者との協働:情報技術が変えるニュースメディア / Kaishi PU 2024
upura
0
110
ニュースメディアにおける生成 AI の活用と開発 / UTokyo Lecture Business Introduction
upura
0
320
Other Decks in Technology
See All in Technology
生成AI時代の開発組織・技術・プロセス 〜 ログラスの挑戦と考察 〜
itohiro73
1
330
SalesforceArchitectGroupOsaka#20_CNX'25_Report
atomica7sei
0
240
Liquid Glass革新とSwiftUI/UIKit進化
fumiyasac0921
0
270
Prox Industries株式会社 会社紹介資料
proxindustries
0
330
「Chatwork」の認証基盤の移行とログ活用によるプロダクト改善
kubell_hr
1
210
Node-REDのFunctionノードでMCPサーバーの実装を試してみた / Node-RED × MCP 勉強会 vol.1
you
PRO
0
120
A2Aのクライアントを自作する
rynsuke
1
220
Github Copilot エージェントモードで試してみた
ochtum
0
110
ひとり情シスなCTOがLLMと始めるオペレーション最適化 / CTO's LLM-Powered Ops
yamitzky
0
450
SpringBoot x TestContainerで実現するポータブル自動結合テスト
demaecan
0
110
JEDAI Databricks Free Editionもくもく会
taka_aki
1
110
AIのAIによるAIのための出力評価と改善
chocoyama
2
590
Featured
See All Featured
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
53k
Facilitating Awesome Meetings
lara
54
6.4k
The World Runs on Bad Software
bkeepers
PRO
69
11k
How GitHub (no longer) Works
holman
314
140k
Documentation Writing (for coders)
carmenintech
72
4.9k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.3k
Bash Introduction
62gerente
614
210k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
46
9.6k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
48
5.4k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
138
34k
Being A Developer After 40
akosma
90
590k
Transcript
NLPコンペの知⾒を実務に 活かすために u++ (@upura0) Kaggle Google Quest Q&A Labeling 反省会
2020年02⽉28⽇ 1
本発表について 資料は公開済です(https://speakerdeck.com/upura) 「会場だけ」の情報もあります 「会場だけ」を除き、SNS・ブログでの⾔及もOK ⽬次 . コンペと実務 . ⾃作ライブラリ「Ayniy」 .
(会場だけ)実例 2
⾃⼰紹介 事業会社のデータサイエンティスト 法⼈向けデータ分析組織⽴ち上げ サービス企画・開発など Kaggle Kaggle Master (profile) PetFinder.my Adoption
Prediction コンペ優勝 『Kaggleに登録したら次にやること 〜 これだけやれば⼗ 分闘える!Titanicの先へ⾏く⼊⾨ 10 Kernel 〜』 『PythonではじめるKaggleスタートブック』 Weekly Kaggle News 3
1.コンペと実務 4
コンペと実務 コンペで得た知⾒を実務に還元できれば最⾼ 知⾒を活かしやすいよう、コンペと実務で共通の⾃作ライブラ リを使っている 課題: コンペ特化の複雑なpipelineは、実務だと逆に使いづらい コンペでは英語が多いが、実務では⽇本語が多い 5
2.⾃作ライブラリ「Ayniy」 6
Ayniy コンペでも実務でも使っている⾃作ライブラリ 「よくある処理」を共通インターフェースで⼿軽に ⽇本語&英語の⾃然⾔語処理にも対応 7
Ayniy? サドリディン・アイニー(1878年4⽉15⽇ - 1954年7⽉15 ⽇)は、ソビエト連邦タジク共和国(現:タジキスタン)の作 家、ウラマー。タジク語による著述活動を⾏い、ソビエト連 邦ではタジク・ソビエト⽂学の創始者として⾼い評価を受け た。 https://uz.wikipedia.org/wiki/Sadriddin_Ayniy 8
設計思想 train, test = PROCESSING(train: pd.DataFrame, test: pd.DataFrame, col_definition: dict,
option: dict) 9
⽇本語・英語の切り替え 10
共通インターフェース config.yamlの設定がしやすい All you need is yaml col_definition: id_col: 'PetID'
target_col: 'AdoptionSpeed' numerical_col: [ 'Age', ] categorical_col: [ 'Type', ] text_col: [ 'Description', ] 11
3.(会場だけ)実例 12
まとめ 13
まとめ コンペの知⾒を実務で活かすための⾃作ライブラリ「Ayniy」 を紹介 「Google Quest Q&A Labeling」で得られた知⾒も、実務で 活⽤していきたい 14