データ分析の進め方とニュースメディアでのデータ活用事例 / data-analysis-in-kaggle-and-news-media

by Shotaro Ishihara

Slide 1

Slide 1 text

石原祥太郎日本経済新聞社日経イノベーション・ラボ主任研究員東京大学グローバル・インターンシップ・プログラム 2022 年 12 月 16 日 Kaggle メダリストが話す、データと分析手法の見つけ方 (頂いたお題)

Slide 2

Slide 2 text

石原祥太郎日本経済新聞社日経イノベーション・ラボ主任研究員東京大学グローバル・インターンシップ・プログラム 2022 年 12 月 16 日データ分析の進め方とニュースメディアでのデータ活用事例

Slide 3

Slide 3 text

3 ● データ分析の進め方〜機械学習コンテストを例に〜 ● ニュースメディアでのデータ活用事例 ○ 機械学習コンテストと実務の違い ○ データを用いた課題解決本発表の概要

Slide 4

Slide 4 text

4 ● 2013〜2015 年: 理科一類 ● 2015〜2017 年: 工学部システム創成学科 PSI ● 2017〜2017 年: 新領域創成科学研究科修士課程 ● 課外活動では、公益財団法人東京大学新聞社で編集長などを歴任経歴（大学時代）

Slide 5

Slide 5 text

5 ● 2017 年から日本経済新聞社で自然言語処理や機械学習を用いたデータ分析・サービス開発に従事 ● AACL-IJCNLP 2022、IEEE BigData 2022 採択や JSAI 2020 優秀賞 ● 国際ニュースメディア協会の若手表彰でアジア太平洋最優秀賞ニュースメディア × データサイエンス

Slide 6

Slide 6 text

6 ● Kaggle 優勝や開催、関連著書 3 冊 ● 『Kaggleに挑む深層学習プログラミングの極意』 ○ 来年 2 月 2 日発売予定（Amazon） ● 『Kaggle Grandmaster に学ぶ機械学習実践アプローチ』 ● 『Python ではじめる Kaggle スタートブック』社外活動：機械学習コンテスト

Slide 7

Slide 7 text

7 ● データ分析の進め方〜機械学習コンテストを例に〜 ● ニュースメディアでのデータ活用事例 ○ 機械学習コンテストと実務の違い ○ データを用いた課題解決本発表の概要

Slide 8

Slide 8 text

● 主催者がデータセットと課題を提供 ● 評価用データセットの正解ラベルを予測 ● 開催中に順位を競う ● 終了時の最終結果で順位が確定 8 機械学習コンテストとは？

Slide 9

Slide 9 text

9 ● 1997 年にはデータマイニングの国際会議「KDD」にて、第 1 回の「KDD Cup」が開催 ● 「NeurIPS」「RecSys」など、機械学習に関連するさまざまな国際会議でコンテストが併設機械学習コンテスト × 国際会議馬場雪乃 (2016). 機械学習コンペティションの進展と今後の展開. 人工知能 31 (2): 248–253.

Slide 10

Slide 10 text

10 ● 大規模画像データセット「ImageNet」を用いた画像認識のコンテスト ● 2010 年に開始し、2012 年に畳み込み層を用いた深層学習のモデルが従来手法を圧倒的に凌駕する性能を叩き出した ● この事例は、昨今の深層学習研究の急速な発展に向けた転換点とも言われている大規模画像認識コンテスト「ILSVRC」

Slide 11

Slide 11 text

11 ● 特定の問題に適した予測手法の研究促進 ○ ILSVRC や、映画推薦の「Netﬂix Prize」 ○ 機械学習の利用に対する参入障壁の低減 ● 予測手法の汎用性を報知する場の提供 ● 実用上の知見の蓄積 ○ 実装に当たっての勘所や論文の再検証機械学習コンテストの貢献

Slide 12

Slide 12 text

12 ● ゲーム性 ● データセットと課題が用意されている ● とにかく自分で手を動かせるように ● 自分自身の客観的指標の一つに ● 社内外の知人が増える機械学習コンテストを勧める理由

Slide 13

Slide 13 text

13 ● 2010 年設立の機械学習コンテストのプラットフォーム（2017 年に Google が買収） ● コンテスト開催に必要なユーザ管理・順位表・スコア計算などの機能を提供 ● ユーザ数は 2022 年に 1000 万人に達し世界最大（日本からの参加者も年々増えている） Kaggle とは

Slide 14

Slide 14 text

14 ● SIGNATE: 日本最大のコンテストプラットフォーム ● Nishika: 特許庁初となるコンテストを開催 ● ProbSpace: 優勝解法のピアレビュー制度が独特 ● Solafune: 衛星データが専門 ● atmaCup: Kaggle Master が運営日本発のコンテストサイトの例

Slide 15

Slide 15 text

15 ● 大まかな流れと考え方を解説 ● 例として、過去に優勝したコンテストを追体験 ● データセット種類別の頻出手法を紹介機械学習コンテストの取り組み方

Slide 16

Slide 16 text

16 1. 参加するコンテストを選ぶ 2. コンテストの概要を把握する 3. ベースラインとなるモデルを作る 4. モデルを改善する大まかな流れ

Slide 17

Slide 17 text

17 ● 扱うデータの種類・サイズ、タスクの種類 ● 開催期間 ● プラットフォームの性質、メダルの有無 ● 実行環境の制限選ぶ上での観点

Slide 18

Slide 18 text

18 業務で使う？知的好奇心？利用可能な計算資源？ ● テーブル ● 画像 ● テキスト ● 音声 ● 強化学習扱うデータの種類・サイズ

Slide 19

Slide 19 text

19 この区分に当てはまらない出題も増えている ● テーブル：分類・回帰 ● 画像：分類・回帰・セグメンテーション・物体検出など ● テキスト：分類・回帰・質問応答などタスクの種類

Slide 20

Slide 20 text

20 ● 2 〜 3 カ月くらいのコンテストが多い ● 個人的なお勧めは、終了 2 週間前くらいのコンテスト ○ 「良コンペ」か否かの評判も出ている ○ 最後の順位開示の瞬間の一喜一憂がたまらない ○ 終了後の上位解法が勉強になる開催期間

Slide 21

Slide 21 text

21 ● 参加者が多いプラットフォームがお勧め ● Kaggle ではコンテストごとに、メダルやポイントが獲得できる・できないが設定されている ● 獲得できる方が、参加者の質が高く議論も活発で学びが得やすい傾向にあるプラットフォームの性質、メダルの有無

Slide 22

Slide 22 text

22 ● 背景や社会的意義 ● 現実で適用できるコンペ設計か？ ● 機械学習が必要か？ ● 評価指標は「運ゲー」になりづらいか？タスクの面白さ

Slide 23

Slide 23 text

23 ● 『Weekly Kaggle News』 ○ https://www.getrevue.co/proﬁle/upura ● kaggler-ja slack ○ https://yutori-datascience.hatenablog.com/entry/2017/08/23/143146 ● twitterのKaggleリスト ○ https://twitter.com/i/lists/997999294798942208 どこで知るのか？

Slide 24

Slide 24 text

24 1. 参加するコンテストを選ぶ 2. コンテストの概要を把握する 3. ベースラインとなるモデルを作る 4. モデルを改善する大まかな流れ

Slide 25

Slide 25 text

25 ● 機械学習コンテストで他の参加者と差別化を図るためには、与えられたデータセットと課題を適切に理解し、多くの試行錯誤を重ねられるかが鍵 ○ 「ノーフリーランチ定理」 ■ あらゆる問いに対し最適な手法は存在しない ○ 「探索的データ分析」 ■ 特定の問いに対し有効な手法を探る課題の把握

Slide 26

Slide 26 text

26 ● PetFinder.my Adoption Prediction ● 2018 年 12 月末〜2019 年 3 月末に開催 ● 「機械学習を用いて、マレーシアのペットショップでの犬・猫が引き取られる早さを予測」 ● チーム参加し、優勝題材: PetFinder https://www.kaggle.com/c/petﬁnder-adoption-prediction

Slide 27

Slide 27 text

27 ● ペットの画像形式データ ● 説明文やペットの名前などのテキスト形式データ ● 身長・体重・属性などのテーブル形式データ ● 必要に応じて外部データも利用可能利用できるデータ

Slide 28

Slide 28 text

28 犬・猫が引き取られる速さ ● 0 - リストアップの当日（0 日目） ● 1 - リストアップの 1〜7 日目 ● 2 - リストアップの 8〜30 日目 ● 3 - リストアップの 31〜90 日目 ● 4 - 引き取られない 5 クラス分類問題

Slide 29

Slide 29 text

29 ● 学習用データセット (train) と評価用データセット (test) に同一の画像が存在 ● imagehash というライブラリで探索し、予測値を上書きデータの重複解法詳細: https://speakerdeck.com/upura/kaggle-pe tﬁnder-2nd-place-solution

Slide 30

Slide 30 text

30 1. 参加するコンテストを選ぶ 2. コンテストの概要を把握する 3. ベースラインとなるモデルを作る 4. モデルを改善する大まかな流れ

Slide 31

Slide 31 text

31 ● モデルの作成 ○ 与えられたデータセットをタスクに応じて処理 ● モデルの評価 ○ ①ホールドアウト・交差検証など手元の評価 ○ ②暫定の順位表に提出して評価 ○ 検証用データセットの構築方法を検討していくベースラインの構築

Slide 32

Slide 32 text

32 ● 入力を機械学習モデルが受け取れる形式に変換 ● データセット種類別の頻出手法 ○ テーブル（量的変数・質的変数） ○ 自然言語 ○ 画像ベースライン構築に向けた基本的な処理

Slide 33

Slide 33 text

33 0, 1, 10, 100, …… => 数値データは、基本的にそのまま利用できる ● 機械学習のアルゴリズムによっては前処理が必要 ○ ニューラルネットワーク・線形回帰・サポートベクトルマシンなど ○ 欠損値の補完、値の範囲調整、多重共線性などテーブル（量的変数）

Slide 34

Slide 34 text

34 “Tokyo”, “Osaka”, “Aichi” => 数値データに変換する ● ラベルエンコーディング ○ “Tokyo”: 0, “Osaka”: 1, “Aichi”: 2 ● One-hot エンコーディング ○ “Tokyo”: (1, 0) , “Osaka”: (0, 1), “Aichi”: (0, 0) テーブル（質的変数）

Slide 35

Slide 35 text

35 "The night is long that never ﬁnds the day." => 数値データに変換する ● 登場回数（Bag of words や TF-IDF など） ● 分散表現（word2vec や BERT など）自然言語

Slide 36

Slide 36 text

36 => N × N の画素を持つ数値データ ● ニューラルネットワークによる特徴表現 ○ 事前学習済みの CNN や ViT など ● ハンドクラフトな局所特徴量 ○ Bag of Visual Words や SIFT など画像

Slide 37

Slide 37 text

37 ● 全て数値データに変換・結合し LightGBM で学習 ● 自然言語は TF-IDF 、画像は CNN などで特徴抽出 PetFinder での取り組み解法詳細: https://speakerdeck.com/upura/kaggle-petﬁnder-2nd-place-solution

Slide 38

Slide 38 text

38 多段階（特徴抽出後に機械学習モデル）ではなく、ニューラルネットワークで一気に処理昨今の傾向: End-to-End (E2E)

Slide 39

Slide 39 text

39 ● モデルの作成 ○ 与えられたデータセットをタスクに応じて処理 ● モデルの評価 ○ ①ホールドアウト・交差検証など手元の評価 ○ ②暫定の順位表に提出して評価 ○ 検証用データセットの構築方法を検討していくベースラインの構築

Slide 40

Slide 40 text

40 ● ①ホールドアウト・交差検証など手元の評価 ● ②暫定の順位表に提出して評価モデルの評価: ①はなぜ必要？

Slide 41

Slide 41 text

41 ● （特に業務では）実際に試すまで性能が分からないのは問題 ● public LB で良いスコアが出ても、一部のデータのみに過学習した結果の可能性がある ● （コンテストでは）提出できる回数に制限があるモデルの評価: ①はなぜ必要？

Slide 42

Slide 42 text

42 モデルの評価 ● ラベルが分かる train から検証用データセット (validation) を作る ● ホールドアウト (上) や交差検証 (下) などで性能を測る

Slide 43

Slide 43 text

43 基本的な考え方: train と test の関係性を模倣して validation を構築する検証用データセットの構築方法

Slide 44

Slide 44 text

44 train と test で RescuerID の被りがなかった => train と validation も同様に分割 PetFinder での取り組み

Slide 45

Slide 45 text

45 「ある RescuerID の個体は引き取られやすい」など本来使えないはずの情報を学習してしまう RescuerID の被りがあると？

Slide 46

Slide 46 text

46 ● ①ホールドアウト・交差検証など手元の評価 ● ②暫定の順位表に提出して評価モデルの評価: ①②の関係性を分析

Slide 47

Slide 47 text

47 1. 参加するコンテストを選ぶ 2. コンテストの概要を把握する 3. ベースラインとなるモデルを作る 4. モデルを改善する大まかな流れ

Slide 48

Slide 48 text

48 ● 特徴量の変更・追加・削除 ● モデルの複雑性 ● データの拡張 ● 過学習の抑制 ● さまざまな学習方法 ● アンサンブル前述の評価①②を参考に試行錯誤

Slide 49

Slide 49 text

49 ● 機械学習コンテストとは？ ○ 主催者が設定したデータセットと課題を分析 ● 機械学習コンテストでのデータ分析の進め方 ○ コンテスト選びの勘所 ○ 概要把握→ベースライン作成・検証→改善前半の振り返り

Slide 50

Slide 50 text

50 ● データ分析の進め方〜機械学習コンテストを例に〜 ● ニュースメディアでのデータ活用事例 ○ 機械学習コンテストと実務の違い ○ データを用いた課題解決本発表の概要

Slide 51

Slide 51 text

51 ● 機械学習コンテスト ○ 主催者が設定したデータセットと課題を分析 ● 実務では、機械学習コンテストの枠組みを自ら構築する必要がある（問題設計） ○ タスク？評価指標？データセット？どうなれば終わり？機械学習コンテストと実務の違い

Slide 52

Slide 52 text

52 ● 機械学習コンテストでのデータ分析の進め方 ○ コンテスト選びの勘所 ○ 概要把握→ベースライン作成・検証→改善 ● 参加者視点で得た勘所が、実務での問題設計にも大いに役立つ印象 ● 問題設計後は実務も同じ流れで知見を流用できる機械学習コンテストと実務の違い

Slide 53

Slide 53 text

53 ● 機械学習コンテストでのデータ分析の進め方 ○ コンテスト選びの勘所 ○ 概要把握→ベースライン作成・検証→改善 ● 🚨 継続的な運用を見据えた手法選択を意識 ● 🚨 わずかな性能の違いを求めすぎない機械学習コンテストと実務の違い

Slide 54

Slide 54 text

54 ● ユーザの年齢推定 ● ユーザの解約予測 ● 企業の業種ラベル付与 ● 自然言語処理による編集業務支援データを用いた課題解決

Slide 55

Slide 55 text

55 ● 属性情報は、良質な体験を提供する上で重要 ● 現在は日経 ID に登録する形で、ユーザに属性情報を提供してもらっている ● 記事閲覧ログや記事データから年齢を予測するモデルが構築できれば、登録の手間の削減や属性情報の欠落の問題に対応できる可能性あり課題の背景: ユーザの年齢推定

Slide 56

Slide 56 text

56 2019 年 12 月、日本開催「 Kaggle Days Tokyo 」で Kaggle コンテスト開催報告

Slide 57

Slide 57 text

57 ● 12 カ国以上から 465 人もの応募（定数 240 ） ● 2 日目のコンテストに 88 チーム 149 人が参加、提出数 1116 ● コンペのお題「日経電子版ユーザの年齢推定」 ● 入力：匿名化ユーザの記事閲覧ログ、記事データ ● 出力：ユーザ ID に紐づく年齢 Kaggle Days Tokyo

Slide 58

Slide 58 text

58 ● 午前 10 時半に始まり、午後 6 時半までの 8 時間 ● 最大 3 人のチーム、提出回数は 30 回まで ● 外部データは日本語の辞書のみを利用可能 ● コンテスト中の 8 時間は、予測用のデータセットのうち 25 % のみを用いて計算した暫定のスコアに基づく順位を表示（評価指標は RMSE）ルール

Slide 59

Slide 59 text

59 最終結果（RMSE）

Slide 60

Slide 60 text

60 ● 記事閲覧ログと記事データから、テーブル形式の特徴量を生成し、機械学習アルゴリズムで予測 ● 自然言語処理技術を活用し記事データから効果的な特徴量を抽出していた点が決め手 ○ 記事本文の活用（TF-IDF など） ○ 記事の閲覧履歴を系列と見なし word2vec など上位陣の取り組み

Slide 61

Slide 61 text

61 ● 上位入賞者のソースコード ○ データの効率的な前処理・自然言語処理の手法を用いた特徴量 ● 想定される性能の見込み ○ 性能と複雑さのトレードオフを議論コンテストで得られた知見 Shotaro Ishihara, Norihiko Sawa (2020). Age Prediction of News Subscribers Using Machine Learning: Case Study of Hosting Worldwide Data Analysis Competition “Kaggle”. Computation + Journalism Symposium 2020.

Slide 62

Slide 62 text

62 ● ユーザの年齢推定 ● ユーザの解約予測 ● 企業の業種ラベル付与 ● 自然言語処理による編集業務支援データを用いた課題解決

Slide 63

Slide 63 text

63 ● （日経電子版のような）定期購読のビジネスモデルでは、ユーザの継続は売上に直結 ● 事前にユーザの解約見込みを予測できれば、対策を検討できる課題の背景: ユーザの解約予測

Slide 64

Slide 64 text

64 ● Frequency: 訪問頻度 ● Volume: 閲覧量 ● 過去の契約データを活用解約予測指標 F√V 山田健太, 山本真吾, 石原祥太郎, 澤紀彦 (2022). F√V:オンラインニュースメディアにおける解約予測指標の開発と活用. 第14回データ工学と情報マネジメントに関するフォーラム.

Slide 65

Slide 65 text

65 ● 250 の説明変数で、高性能で解約を予測可能 ● 解釈性や運用のしやすさから、F√V を採用 ● 2016 年から、現在に至るまで継続して利用中予測性能と解釈性

Slide 66

Slide 66 text

66 ● ユーザの年齢推定 ● ユーザの解約予測 ● 企業の業種ラベル付与 ● 自然言語処理による編集業務支援データを用いた課題解決

Slide 67

Slide 67 text

67 ● 企業データベースに日経独自の業種ラベルを付与 ● 上場企業については手動で付与済み ● 一方、日々多くの企業も登場（非上場企業） ● 非上場企業に、自動的に業種ラベルを付与したい課題の背景: 企業の業種ラベル付与増田太郎, 石原祥太郎, 吉田勇太 (2022). 企業の業界分類予測における共変量シフト問題の抑制. 第14回データ工学と情報マネジメントに関するフォーラム.

Slide 68

Slide 68 text

68 ルールベースと比較し正答率が 16-20 ポイント改善機械学習コンテストの知見を活かし実装

Slide 69

Slide 69 text

69 ● 属性情報の人為的な欠損 ○ 非上場企業では属性情報が欠損しがち ● Adversarial Validation を利用した特徴選択 ○ 上場・非上場の分布の違いを考察 ● テキストのトークン長の調整 ○ 非上場企業の説明文は短め上場・非上場の分布の違いへの対処

Slide 70

Slide 70 text

70 ● ユーザの年齢推定 ● ユーザの解約予測 ● 企業の業種ラベル付与 ● 自然言語処理による編集業務支援データを用いた課題解決

Slide 71

Slide 71 text

71 ● BERT や GPT-3 に代表される大規模言語モデルが急速に進化 ● これらを駆使し、記事の分類・要約・生成・校正など業務効率化を実現できないか？ ● 日経電子版の記事データを用いて、独自の大規模言語モデルを構築・検証課題の背景: 編集業務支援

Slide 72

Slide 72 text

72 ● 所要閲覧時間の予測 ● クリック率の予測 ● 記事の類似度の判定 ● 読者の年齢推定 ● 記事の見出しや要約の生成編集業務支援の例 https://hack.nikkei.com/jobs/ai_and_datascience/ 機械学習コンテストでもよくある問題設定

Slide 73

Slide 73 text

73 ● 所要閲覧時間の予測 ○ 機械学習コンテストでもよくある問題設定 ○ IEEE BigData 2022 採択 ● 記事の見出しや要約の生成 ○ 実務ならではの課題に直面し対応した例 ○ ACL-IJCNLP 2022 採択 2 つを取り立てて説明

Slide 74

Slide 74 text

74 ● 状況に合わせたプッシュ通知 ● 難易度に応じた記事推薦 ● 見出しとの併記による意思決定支援 ● 「釣り見出し」の分析所要閲覧時間を予測する意義 Shotaro Ishihara, and Yasufumi Nakama (2022). Analysis and Estimation of News Article Reading Time with Multimodal Machine Learning. In Proceedings of 2022 IEEE International Conference on Big Data (Industrial & Government Track). (to appear)

Slide 75

Slide 75 text

75 どうやって所要閲覧時間を予測する？ ● text length ● headline / body text ● thumbnail image ● others like genre ● past reading history reading time

Slide 76

Slide 76 text

76 1. 記事の文字数 (text length) だけで十分に予測できるのか？ 2. それ以外の特徴量は、どれだけ役に立つのか？知りたいこと

Slide 77

Slide 77 text

77 ● 10 万セッションずつ ○ train: 21.12.01 ○ validation:21.12.08 ○ test: 21.12.15 日経電子版からデータセットを構築

Slide 78

Slide 78 text

78 ● 相関は 0.04 (左)、外れ値を除外しても 0.31 文字数 (x) & 所要閲覧時間 (y)

Slide 79

Slide 79 text

79 コンテストの知見を活用した提案手法

Slide 80

Slide 80 text

80 予測に寄与した特徴量 1. 過去の平均閲覧時間 2. 記事の文字数 3. 過去の最低閲覧時間 4. 本文の BERT 特徴量 5. サムネイル画像の Swin Transformer 特徴量

Slide 81

Slide 81 text

81 実験結果 ● LightGBM は十分に有力 ● 提案手法（E2E のニューラルネットワーク）は、 LSTM を組み込むことで最良の結果に

Slide 82

Slide 82 text

82 ● 滞在時間の予測 ○ 機械学習コンテストでもよくある問題設定 ● 記事の見出しや要約の生成 ○ 実務ならではの課題に直面し対応した例 2 つを取り立てて説明

Slide 83

Slide 83 text

独自モデルをいつ再学習？ Shotaro Ishihara, Hiromu Takahashi, and Hono Shirai (2022). Semantic Shift Stability: Eﬃcient Way to Detect Performance Degradation of Word Embeddings and Pre-trained Language Models. In Proceedings of AACL-IJCNLP 2022. 83

Slide 84

Slide 84 text

● 大規模言語モデルとして「BERT」が 2018 年末に発表され話題に ● 外部企業の協力を経て 2019 年、日経電子版の記事を用いた BERT モデルを構築 ● ニュース記事の要約などの応用を検証日経電子版 BERT 2019 84

Slide 85

Slide 85 text

新型コロナの流行前の文章で学習した BERT モデルは、コロナ後の文章の処理が苦手言葉は日々変化石原慧人, 石原祥太郎, 白井穂乃 (2021). BertSumを用いた日本語ニュース記事の抽象型要約手法の検討. 人工知能学会全国大会論文集. 85

Slide 86

Slide 86 text

● 時期の異なる日経電子版記事で構築した 2 つの単語分散表現のベクトル空間を比較 ● 「コロナ」の周辺単語がコロナ前と以後で変化言葉は日々変化高橋寛武, 石原祥太郎, 白井穂乃 (2022). 単語分散表現を用いた新型コロナウイルスによる意味変化検出. 言語処理学会第28回年次大会発表論文集. 86

Slide 87

Slide 87 text

● 入力：2 つの word2vec ● 出力：共通する語彙の意味変化の度合いの平均 (Semantic Shift Stability) 意味変化の度合い Semantic Shift Stability Corpus 2019 Corpus 2020 Word embeddings Anchor words Mapping: Rotate in two directions 87

Slide 88

Slide 88 text

● 学習用コーパスの “Semantic Shift Stability” と事前学習済みモデル・単語分散表現の時系列性能劣化の関係性を分析 ● 12 パターンの日経電子版 RoBERTa や日英の word2vec を構築 ● 大きな性能劣化は、Semantic Shift Stability が小さいタイミングで発生（相関を確認）学習用コーパスから性能を推察 88

Slide 89

Slide 89 text

89 ● データ分析の進め方〜機械学習コンテストを例に〜 ● ニュースメディアでのデータ活用事例 ○ 機械学習コンテストと実務の違い ○ データを用いた課題解決まとめ

Slide 90

Slide 90 text

90 ● 機械学習コンテストとは？ ○ 主催者が設定したデータセットと課題を分析 ● 機械学習コンテストでのデータ分析の進め方 ○ コンテスト選びの勘所 ○ 概要把握→ベースライン作成・検証→改善 ● ニュースメディアでのデータ活用事例 ○ 問題設計を自分でやる必要がある ○ コンテストの枠組みになれば、知見が活かせる