Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
NLPコンペの知見を実務に活かすために / introduction-ayniy
Search
Shotaro Ishihara
February 22, 2020
Technology
4
5.5k
NLPコンペの知見を実務に活かすために / introduction-ayniy
「Kaggle Google Quest Q&A Labeling 反省会」(
https://connpass.com/event/167595/
) の発表資料
Shotaro Ishihara
February 22, 2020
Tweet
Share
More Decks by Shotaro Ishihara
See All by Shotaro Ishihara
JAPAN AI CUP Prediction Tutorial
upura
1
650
情報技術の社会実装に向けた応用と課題:ニュースメディアの事例から / appmech-jsce 2025
upura
0
310
日本語新聞記事を用いた大規模言語モデルの暗記定量化 / LLMC2025
upura
0
470
Quantifying Memorization in Continual Pre-training with Japanese General or Industry-Specific Corpora
upura
1
83
JOAI2025講評 / joai2025-review
upura
0
1.4k
AI エージェントを活用した研究再現性の自動定量評価 / scisci2025
upura
1
200
JSAI2025 企画セッション「人工知能とコンペティション」/ jsai2025-competition
upura
0
94
生成的推薦の人気バイアスの分析:暗記の観点から / JSAI2025
upura
0
330
Semantic Shift Stability: 学習コーパス内の単語の意味変化を用いた事前学習済みモデルの時系列性能劣化の監査
upura
0
110
Other Decks in Technology
See All in Technology
What happened to RubyGems and what can we learn?
mikemcquaid
0
300
Introduction to Sansan for Engineers / エンジニア向け会社紹介
sansan33
PRO
6
68k
We Built for Predictability; The Workloads Didn’t Care
stahnma
0
140
Data Hubグループ 紹介資料
sansan33
PRO
0
2.7k
SREのプラクティスを用いた3領域同時 マネジメントへの挑戦 〜SRE・情シス・セキュリティを統合した チーム運営術〜
coconala_engineer
2
640
OpenShiftでllm-dを動かそう!
jpishikawa
0
110
AIと新時代を切り拓く。これからのSREとメルカリIBISの挑戦
0gm
0
910
Amazon Bedrock Knowledge Basesチャンキング解説!
aoinoguchi
0
140
プロダクト成長を支える開発基盤とスケールに伴う課題
yuu26
4
1.3k
こんなところでも(地味に)活躍するImage Modeさんを知ってるかい?- Image Mode for OpenShift -
tsukaman
0
140
広告の効果検証を題材にした因果推論の精度検証について
zozotech
PRO
0
170
ZOZOにおけるAI活用の現在 ~開発組織全体での取り組みと試行錯誤~
zozotech
PRO
5
5.5k
Featured
See All Featured
AI Search: Implications for SEO and How to Move Forward - #ShenzhenSEOConference
aleyda
1
1.1k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
New Earth Scene 8
popppiees
1
1.5k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
16k
Designing for humans not robots
tammielis
254
26k
Designing Experiences People Love
moore
144
24k
Exploring the relationship between traditional SERPs and Gen AI search
raygrieselhuber
PRO
2
3.6k
SEO in 2025: How to Prepare for the Future of Search
ipullrank
3
3.3k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
11
830
Primal Persuasion: How to Engage the Brain for Learning That Lasts
tmiket
0
250
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
270
The B2B funnel & how to create a winning content strategy
katarinadahlin
PRO
0
270
Transcript
NLPコンペの知⾒を実務に 活かすために u++ (@upura0) Kaggle Google Quest Q&A Labeling 反省会
2020年02⽉28⽇ 1
本発表について 資料は公開済です(https://speakerdeck.com/upura) 「会場だけ」の情報もあります 「会場だけ」を除き、SNS・ブログでの⾔及もOK ⽬次 . コンペと実務 . ⾃作ライブラリ「Ayniy」 .
(会場だけ)実例 2
⾃⼰紹介 事業会社のデータサイエンティスト 法⼈向けデータ分析組織⽴ち上げ サービス企画・開発など Kaggle Kaggle Master (profile) PetFinder.my Adoption
Prediction コンペ優勝 『Kaggleに登録したら次にやること 〜 これだけやれば⼗ 分闘える!Titanicの先へ⾏く⼊⾨ 10 Kernel 〜』 『PythonではじめるKaggleスタートブック』 Weekly Kaggle News 3
1.コンペと実務 4
コンペと実務 コンペで得た知⾒を実務に還元できれば最⾼ 知⾒を活かしやすいよう、コンペと実務で共通の⾃作ライブラ リを使っている 課題: コンペ特化の複雑なpipelineは、実務だと逆に使いづらい コンペでは英語が多いが、実務では⽇本語が多い 5
2.⾃作ライブラリ「Ayniy」 6
Ayniy コンペでも実務でも使っている⾃作ライブラリ 「よくある処理」を共通インターフェースで⼿軽に ⽇本語&英語の⾃然⾔語処理にも対応 7
Ayniy? サドリディン・アイニー(1878年4⽉15⽇ - 1954年7⽉15 ⽇)は、ソビエト連邦タジク共和国(現:タジキスタン)の作 家、ウラマー。タジク語による著述活動を⾏い、ソビエト連 邦ではタジク・ソビエト⽂学の創始者として⾼い評価を受け た。 https://uz.wikipedia.org/wiki/Sadriddin_Ayniy 8
設計思想 train, test = PROCESSING(train: pd.DataFrame, test: pd.DataFrame, col_definition: dict,
option: dict) 9
⽇本語・英語の切り替え 10
共通インターフェース config.yamlの設定がしやすい All you need is yaml col_definition: id_col: 'PetID'
target_col: 'AdoptionSpeed' numerical_col: [ 'Age', ] categorical_col: [ 'Type', ] text_col: [ 'Description', ] 11
3.(会場だけ)実例 12
まとめ 13
まとめ コンペの知⾒を実務で活かすための⾃作ライブラリ「Ayniy」 を紹介 「Google Quest Q&A Labeling」で得られた知⾒も、実務で 活⽤していきたい 14