Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Rist_Meetup_Kaggleは業務の役にたつ - ビジネスコンテンツ情報を活用する...
Search
Taro Masuda
October 17, 2024
Technology
1
1k
Rist_Meetup_Kaggleは業務の役にたつ - ビジネスコンテンツ情報を活用する BtoB 事業編 - / rist-meetup-20241012
Rist Meetup 2024「Kaggleは業務の役にたつ」
https://connpass.com/event/327246/
の LT 登壇資料です。
Taro Masuda
October 17, 2024
Tweet
Share
More Decks by Taro Masuda
See All by Taro Masuda
白金鉱業Meetup_経験値ゼロから始める A_B テスト布教活動と意思決定に活かしやすいA_Bテスト設計の一案 / brainpad-meetup-20240919
taro_masuda
4
990
企業・業界動向抽出のための経済情報ラベルの定義とタグ付きコーパスの構築 / yans2023-poster-s3-p21
taro_masuda
0
220
NLP2024 参加報告LT ~RAGの生成評価と懇親戦略~ / nlp2024_attendee_presentation_LT_masuda
taro_masuda
1
550
BtoBプロダクト改善のためのデータドリブン活動と組織の概要/b2b_data_driven_team
taro_masuda
0
1.2k
企業の業界分類予測における共変量シフト問題の抑制
taro_masuda
3
1.6k
ディジタル信号処理の入り口に立つ
taro_masuda
3
360
歌声の特徴に基づいて曲を探そう!
taro_masuda
1
1.7k
NGBoost論文読んでみた
taro_masuda
2
4.2k
Other Decks in Technology
See All in Technology
Ruby版 JSXのRuxが気になる
sansantech
PRO
0
160
Oracle AI Database移行・アップグレード勉強会 - RAT活用編
oracle4engineer
PRO
0
100
Kiro IDEのドキュメントを全部読んだので地味だけどちょっと嬉しい機能を紹介する
khmoryz
0
210
SREが向き合う大規模リアーキテクチャ 〜信頼性とアジリティの両立〜
zepprix
0
470
SRE Enabling戦記 - 急成長する組織にSREを浸透させる戦いの歴史
markie1009
0
140
StrandsとNeptuneを使ってナレッジグラフを構築する
yakumo
1
120
外部キー制約の知っておいて欲しいこと - RDBMSを正しく使うために必要なこと / FOREIGN KEY Night
soudai
PRO
12
5.6k
Context Engineeringの取り組み
nutslove
0
370
2026年、サーバーレスの現在地 -「制約と戦う技術」から「当たり前の実行基盤」へ- /serverless2026
slsops
2
260
ファインディの横断SREがTakumi byGMOと取り組む、セキュリティと開発スピードの両立
rvirus0817
1
1.5k
SREチームをどう作り、どう育てるか ― Findy横断SREのマネジメント
rvirus0817
0
320
OWASP Top 10:2025 リリースと 少しの日本語化にまつわる裏話
okdt
PRO
3
830
Featured
See All Featured
Joys of Absence: A Defence of Solitary Play
codingconduct
1
290
How to Build an AI Search Optimization Roadmap - Criteria and Steps to Take #SEOIRL
aleyda
1
1.9k
How to make the Groovebox
asonas
2
1.9k
A Modern Web Designer's Workflow
chriscoyier
698
190k
Ruling the World: When Life Gets Gamed
codingconduct
0
140
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
3.3k
The Cost Of JavaScript in 2023
addyosmani
55
9.5k
Why You Should Never Use an ORM
jnunemaker
PRO
61
9.7k
Lessons Learnt from Crawling 1000+ Websites
charlesmeaden
PRO
1
1.1k
Docker and Python
trallard
47
3.7k
JAMstack: Web Apps at Ludicrous Speed - All Things Open 2022
reverentgeek
1
350
How Software Deployment tools have changed in the past 20 years
geshan
0
32k
Transcript
Kaggle は業務の役にたつ - ビジネスコンテンツ情報を 活用する BtoB 事業編 - @Rist Meetup
2024 日本経済新聞社 データサイエンティスト 増田太郎
自己紹介:増田 太郎(ますだ たろう) 2 • 日経で BtoB Web サービスの分析を担うデータサイエンティスト •
施策の効果を数値化することに興味 ◦ A/B テストやベイズ統計モデリング • 取得称号・資格 ◦ Kaggle Master,統計検定 1 級, Google Cloud PDE(失効) • 趣味 兼 宣伝 ◦ Kaggler などデータサイエンス界隈で楽しむ,ゆるフットサル⚽ • 業務内容:チームリーダーとしてメンバーの分析結果のレビュー・ メンター・教育,他部署での A/B テスト設計のお手伝い
• 私たちは 「記事データや企業データを活用して お客様にビジネス情報を提供するサービス」を作っています • よくある誤解 ◦ 記者や報道部門との 直接的な関係は ほとんどありません
◦ 日経電子版ともまた 全然違った部署です • データはたくさん! 前提知識:私たちの事業について 3
役に立った事例1: 業種分類モデルの構築 4 • 企業の業界を人手作業ではなく機械学習モデルが予測する • 業界付与済みの上場企業データを使って機械学習モデルを学習し、 非上場企業の業種を予測(データセットシフトへの対処) ◦ Adversarial
Validation などを用いて特徴量を選択・調整
役に立った事例2: コーパスの新規構築 5 • 記事から企業動向や業界動向 など重要な記述をセンテンス 単位で抽出したい • 経済情報の記述はミクロ・マク ロ両視点の表現が混在しており
画一的なラベル定義が困難 • 独自に体系立てたラベル定義で のアノテーションおよび教師ありモデルを構築 ◦ Human-in-the-loop 的にアノテーションとモデル学習を繰り返し • 一貫したラベリングの質の重要性は Kaggle に教えてもらった🌿
6 教師データの質を見落とす者はメダルを逃す💔
前提知識: 役に立った事例 3,4 の背景 7 • 記事に対してメタデータを付与する仕組みを構築しています 記事 固有表現抽出 (NER)
文書分類 固有表現 の salience を算出 法人のエンティティリ ンキング 人物のエンティティリ ンキング 地名のジオコーディン グ
役に立った事例3: 継続的な学習データの品質向上 8 • Label Studio (人) とVertex (ML) が連携して能動学習
Label Studio Vertex AI Slack Train Job Predictor 予測不確実性が高いサンプルの予測結果送信 アノテーションデータの拡充 未アノテーションデータの 予測不確実性 ・アノテーションデータ ・未アノテションデータ 学習済み モデル 人 予測不確実性の高いサンプルのアノテーション
役に立った事例4: WandB を活用したエラー分析 9 • Confusion Matrix の便利な可視化
役に立った事例4: WandB を活用したエラー分析 10 • spacy.displacy を使った便利な可視化 大文字のラベル名: 正解ラベル 小文字のラベル名:
予測ラベル
• 日経には Kaggle で学んだ知識を活用して価値を生める 土壌がある ◦ データがそこら中に転がっている • 実際にそれらを活用した事例もたくさん存在する ◦
データセットシフトへの対処 ◦ 学習データのラベリングの品質向上 ◦ WandB を活用したエラー分析 • (6 名の Master 擁する弊社に皆様もぜひ!) まとめ 11