Slide 1

Slide 1 text

Kaggle は業務の役にたつ - ビジネスコンテンツ情報を 活用する BtoB 事業編 - @Rist Meetup 2024 日本経済新聞社 データサイエンティスト 増田太郎

Slide 2

Slide 2 text

自己紹介:増田 太郎(ますだ たろう) 2 ● 日経で BtoB Web サービスの分析を担うデータサイエンティスト ● 施策の効果を数値化することに興味 ○ A/B テストやベイズ統計モデリング ● 取得称号・資格 ○ Kaggle Master,統計検定 1 級, Google Cloud PDE(失効) ● 趣味 兼 宣伝 ○ Kaggler などデータサイエンス界隈で楽しむ,ゆるフットサル⚽ ● 業務内容:チームリーダーとしてメンバーの分析結果のレビュー・      メンター・教育,他部署での A/B テスト設計のお手伝い

Slide 3

Slide 3 text

● 私たちは 「記事データや企業データを活用して お客様にビジネス情報を提供するサービス」を作っています ● よくある誤解 ○ 記者や報道部門との 直接的な関係は ほとんどありません ○ 日経電子版ともまた 全然違った部署です ● データはたくさん! 前提知識:私たちの事業について 3

Slide 4

Slide 4 text

役に立った事例1: 業種分類モデルの構築 4 ● 企業の業界を人手作業ではなく機械学習モデルが予測する ● 業界付与済みの上場企業データを使って機械学習モデルを学習し、 非上場企業の業種を予測(データセットシフトへの対処) ○ Adversarial Validation などを用いて特徴量を選択・調整

Slide 5

Slide 5 text

役に立った事例2: コーパスの新規構築 5 ● 記事から企業動向や業界動向 など重要な記述をセンテンス 単位で抽出したい ● 経済情報の記述はミクロ・マク ロ両視点の表現が混在しており 画一的なラベル定義が困難 ● 独自に体系立てたラベル定義で のアノテーションおよび教師ありモデルを構築 ○ Human-in-the-loop 的にアノテーションとモデル学習を繰り返し ● 一貫したラベリングの質の重要性は Kaggle に教えてもらった🌿

Slide 6

Slide 6 text

6 教師データの質を見落とす者はメダルを逃す💔

Slide 7

Slide 7 text

前提知識: 役に立った事例 3,4 の背景 7 ● 記事に対してメタデータを付与する仕組みを構築しています 記事 固有表現抽出 (NER) 文書分類 固有表現 の salience を算出 法人のエンティティリ ンキング 人物のエンティティリ ンキング 地名のジオコーディン グ

Slide 8

Slide 8 text

役に立った事例3: 継続的な学習データの品質向上 8 ● Label Studio (人) とVertex (ML) が連携して能動学習 Label Studio Vertex AI Slack Train Job Predictor 予測不確実性が高いサンプルの予測結果送信 アノテーションデータの拡充 未アノテーションデータの 予測不確実性 ・アノテーションデータ ・未アノテションデータ 学習済み モデル 人 予測不確実性の高いサンプルのアノテーション

Slide 9

Slide 9 text

役に立った事例4: WandB を活用したエラー分析 9 ● Confusion Matrix の便利な可視化

Slide 10

Slide 10 text

役に立った事例4: WandB を活用したエラー分析 10 ● spacy.displacy を使った便利な可視化 大文字のラベル名: 正解ラベル 小文字のラベル名: 予測ラベル

Slide 11

Slide 11 text

● 日経には Kaggle で学んだ知識を活用して価値を生める 土壌がある ○ データがそこら中に転がっている ● 実際にそれらを活用した事例もたくさん存在する ○ データセットシフトへの対処 ○ 学習データのラベリングの品質向上 ○ WandB を活用したエラー分析 ● (6 名の Master 擁する弊社に皆様もぜひ!) まとめ 11