Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データ分析の進め方とニュースメディアでのデータ活用事例 / data-analysis-in-...

Shotaro Ishihara
December 16, 2022

データ分析の進め方とニュースメディアでのデータ活用事例 / data-analysis-in-kaggle-and-news-media

「東京大学グローバル・インターンシップ・プログラム(UGIP)」での発表資料
https://www.u-tokyo.ac.jp/ja/students/special-activities/ugip.html

Shotaro Ishihara

December 16, 2022
Tweet

More Decks by Shotaro Ishihara

Other Decks in Research

Transcript

  1. 4 • 2013〜2015 年: 理科一類 • 2015〜2017 年: 工学部システム創成学科 PSI

    • 2017〜2017 年: 新領域創成科学研究科修士課程 • 課外活動では、公益財団法人東京大学新聞社で 編集長などを歴任 経歴(大学時代)
  2. 5 • 2017 年から日本経済新聞社で自然言語処理や機械 学習を用いたデータ分析・サービス開発に従事 • AACL-IJCNLP 2022、IEEE BigData 2022

    採択や JSAI 2020 優秀賞 • 国際ニュースメディア協会の若手表彰でアジア太 平洋最優秀賞 ニュースメディア × データサイエンス
  3. 6 • Kaggle 優勝や開催、関連著書 3 冊 • 『Kaggleに挑む深層学習プログラミングの極意』 ◦ 来年

    2 月 2 日発売予定(Amazon) • 『Kaggle Grandmaster に学ぶ 機械学習 実践アプ ローチ』 • 『Python ではじめる Kaggle スタートブック』 社外活動:機械学習コンテスト
  4. 9 • 1997 年にはデータマイニングの国際会議「KDD」 にて、第 1 回の「KDD Cup」が開催 • 「NeurIPS」「RecSys」など、機械学習に関連する

    さまざまな国際会議でコンテストが併設 機械学習コンテスト × 国際会議 馬場雪乃 (2016). 機械学習コンペティションの進展と今後の展開. 人工知能 31 (2): 248–253.
  5. 11 • 特定の問題に適した予測手法の研究促進 ◦ ILSVRC や、映画推薦の「Netflix Prize」 ◦ 機械学習の利用に対する参入障壁の低減 •

    予測手法の汎用性を報知する場の提供 • 実用上の知見の蓄積 ◦ 実装に当たっての勘所や論文の再検証 機械学習コンテストの貢献
  6. 13 • 2010 年設立の機械学習コンテストのプラット フォーム(2017 年に Google が買収) • コンテスト開催に必要なユーザ管理・順位表・ス

    コア計算などの機能を提供 • ユーザ数は 2022 年に 1000 万人に達し世界最大 (日本からの参加者も年々増えている) Kaggle とは
  7. 20 • 2 〜 3 カ月くらいのコンテストが多い • 個人的なお勧めは、終了 2 週間前くらいのコンテ

    スト ◦ 「良コンペ」か否かの評判も出ている ◦ 最後の順位開示の瞬間の一喜一憂がたまらない ◦ 終了後の上位解法が勉強になる 開催期間
  8. 23 • 『Weekly Kaggle News』 ◦ https://www.getrevue.co/profile/upura • kaggler-ja slack

    ◦ https://yutori-datascience.hatenablog.com/entry/2017/08/23/143146 • twitterのKaggleリスト ◦ https://twitter.com/i/lists/997999294798942208 どこで知るのか?
  9. 26 • PetFinder.my Adoption Prediction • 2018 年 12 月末〜2019

    年 3 月末に開催 • 「機械学習を用いて、マレーシアのペットショッ プでの犬・猫が引き取られる早さを予測」 • チーム参加し、優勝 題材: PetFinder https://www.kaggle.com/c/petfinder-adoption-prediction
  10. 28 犬・猫が引き取られる速さ • 0 - リストアップの当日(0 日目) • 1 -

    リストアップの 1〜7 日目 • 2 - リストアップの 8〜30 日目 • 3 - リストアップの 31〜90 日目 • 4 - 引き取られない 5 クラス分類問題
  11. 29 • 学習用データセット (train) と評価用データセット (test) に同一の画像が存在 • imagehash というライブラリ

    で探索し、予測値を上書き データの重複 解法詳細: https://speakerdeck.com/upura/kaggle-pe tfinder-2nd-place-solution
  12. 31 • モデルの作成 ◦ 与えられたデータセットをタスクに応じて処理 • モデルの評価 ◦ ①ホールドアウト・交差検証など手元の評価 ◦

    ②暫定の順位表に提出して評価 ◦ 検証用データセットの構築方法を検討していく ベースラインの構築
  13. 33 0, 1, 10, 100, …… => 数値データは、基本的にそのまま利用できる • 機械学習のアルゴリズムによっては前処理が必要

    ◦ ニューラルネットワーク・線形回帰・サポート ベクトルマシンなど ◦ 欠損値の補完、値の範囲調整、多重共線性など テーブル(量的変数)
  14. 34 “Tokyo”, “Osaka”, “Aichi” => 数値データに変換する • ラベルエンコーディング ◦ “Tokyo”:

    0, “Osaka”: 1, “Aichi”: 2 • One-hot エンコーディング ◦ “Tokyo”: (1, 0) , “Osaka”: (0, 1), “Aichi”: (0, 0) テーブル(質的変数)
  15. 35 "The night is long that never finds the day."

    => 数値データに変換する • 登場回数(Bag of words や TF-IDF など) • 分散表現(word2vec や BERT など) 自然言語
  16. 36 => N × N の画素を持つ数値データ • ニューラルネットワークによる特徴表現 ◦ 事前学習済みの

    CNN や ViT など • ハンドクラフトな局所特徴量 ◦ Bag of Visual Words や SIFT など 画像
  17. 37 • 全て数値データに変換・結合し LightGBM で学習 • 自然言語は TF-IDF 、画像は CNN

    などで特徴抽出 PetFinder での取り組み 解法詳細: https://speakerdeck.com/upura/kaggle-petfinder-2nd-place-solution
  18. 39 • モデルの作成 ◦ 与えられたデータセットをタスクに応じて処理 • モデルの評価 ◦ ①ホールドアウト・交差検証など手元の評価 ◦

    ②暫定の順位表に提出して評価 ◦ 検証用データセットの構築方法を検討していく ベースラインの構築
  19. 42 モデルの評価 • ラベルが分かる train から検証用データ セット (validation) を作る •

    ホールドアウト (上) や交差検証 (下) など で性能を測る
  20. 44 train と test で RescuerID の被りがなかった => train と

    validation も同様に分割 PetFinder での取り組み
  21. 48 • 特徴量の変更・追加・削除 • モデルの複雑性 • データの拡張 • 過学習の抑制 •

    さまざまな学習方法 • アンサンブル 前述の評価①②を参考に試行錯誤
  22. 55 • 属性情報は、良質な体験を提供する上で重要 • 現在は日経 ID に登録する形で、ユーザに属性情報 を提供してもらっている • 記事閲覧ログや記事データから年齢を予測するモ

    デルが構築できれば、登録の手間の削減や属性情 報の欠落の問題に対応できる可能性あり 課題の背景: ユーザの年齢推定
  23. 57 • 12 カ国以上から 465 人もの応募(定数 240 ) • 2

    日目のコンテストに 88 チーム 149 人が参加、 提出数 1116 • コンペのお題「日経電子版ユーザの年齢推定」 • 入力:匿名化ユーザの記事閲覧ログ、記事データ • 出力:ユーザ ID に紐づく年齢 Kaggle Days Tokyo
  24. 58 • 午前 10 時半に始まり、午後 6 時半までの 8 時間 •

    最大 3 人のチーム、提出回数は 30 回まで • 外部データは日本語の辞書のみを利用可能 • コンテスト中の 8 時間は、予測用のデータセット のうち 25 % のみを用いて計算した暫定のスコア に基づく順位を表示(評価指標は RMSE) ルール
  25. 61 • 上位入賞者のソースコード ◦ データの効率的な前処理・自然言語処理の手法 を用いた特徴量 • 想定される性能の見込み ◦ 性能と複雑さのトレードオフを議論

    コンテストで得られた知見 Shotaro Ishihara, Norihiko Sawa (2020). Age Prediction of News Subscribers Using Machine Learning: Case Study of Hosting Worldwide Data Analysis Competition “Kaggle”. Computation + Journalism Symposium 2020.
  26. 64 • Frequency: 訪問頻度 • Volume: 閲覧量 • 過去の契約データを活用 解約予測指標

    F√V 山田健太, 山本真吾, 石原祥太郎, 澤紀彦 (2022). F√V:オンラインニュースメ ディアにおける解約予測指標の開発と 活用. 第14回データ工学と情報マネジメ ントに関するフォーラム.
  27. 67 • 企業データベースに日経独自の業種ラベルを付与 • 上場企業については手動で付与済み • 一方、日々多くの企業も登場(非上場企業) • 非上場企業に、自動的に業種ラベルを付与したい 課題の背景:

    企業の業種ラベル付与 増田太郎, 石原祥太郎, 吉田勇太 (2022). 企業の業界分類予測における共変 量シフト問題の抑制. 第14回データ工学と情報マネジメントに関する フォーラム.
  28. 69 • 属性情報の人為的な欠損 ◦ 非上場企業では属性情報が欠損しがち • Adversarial Validation を利用した特徴選択 ◦

    上場・非上場の分布の違いを考察 • テキストのトークン長の調整 ◦ 非上場企業の説明文は短め 上場・非上場の分布の違いへの対処
  29. 71 • BERT や GPT-3 に代表される大規模言語モデルが 急速に進化 • これらを駆使し、記事の分類・要約・生成・校正 など業務効率化を実現できないか?

    • 日経電子版の記事データを用いて、独自の大規模 言語モデルを構築・検証 課題の背景: 編集業務支援
  30. 72 • 所要閲覧時間の予測 • クリック率の予測 • 記事の類似度の判定 • 読者の年齢推定 •

    記事の見出しや要約の生成 編集業務支援の例 https://hack.nikkei.com/jobs/ai_and_datascience/ 機械学習コンテストでも よくある問題設定
  31. 73 • 所要閲覧時間の予測 ◦ 機械学習コンテストでもよくある問題設定 ◦ IEEE BigData 2022 採択

    • 記事の見出しや要約の生成 ◦ 実務ならではの課題に直面し対応した例 ◦ ACL-IJCNLP 2022 採択 2 つを取り立てて説明
  32. 74 • 状況に合わせたプッシュ通知 • 難易度に応じた記事推薦 • 見出しとの併記による意思決定支援 • 「釣り見出し」の分析 所要閲覧時間を予測する意義

    Shotaro Ishihara, and Yasufumi Nakama (2022). Analysis and Estimation of News Article Reading Time with Multimodal Machine Learning. In Proceedings of 2022 IEEE International Conference on Big Data (Industrial & Government Track). (to appear)
  33. 75 どうやって所要閲覧時間を予測する? • text length • headline / body text

    • thumbnail image • others like genre • past reading history reading time
  34. 77 • 10 万セッションずつ ◦ train: 21.12.01 ◦ validation:21.12.08 ◦

    test: 21.12.15 日経電子版からデータセットを構築
  35. 独自モデルをいつ再学習? Shotaro Ishihara, Hiromu Takahashi, and Hono Shirai (2022). Semantic

    Shift Stability: Efficient Way to Detect Performance Degradation of Word Embeddings and Pre-trained Language Models. In Proceedings of AACL-IJCNLP 2022. 83
  36. 新型コロナの流行前の 文章で学習した BERT モデルは、コロナ後の 文章の処理が苦手 言葉は日々変化 石原慧人, 石原祥太郎, 白井穂乃 (2021).

    BertSumを用いた日本語ニュース 記事の抽象型要約手法の検討. 人工知能学会全国大会論文集. 85
  37. • 時期の異なる日経電子版 記事で構築した 2 つの 単語分散表現のベクトル 空間を比較 • 「コロナ」の周辺単語が コロナ前と以後で変化

    言葉は日々変化 高橋寛武, 石原祥太郎, 白井穂乃 (2022). 単語分散表現を用いた新型コロナ ウイルスによる意味変化検出. 言語処理学会第28回年次大会発表論文集. 86
  38. • 入力:2 つの word2vec • 出力:共通する語彙の 意味変化の度合いの平均 (Semantic Shift Stability)

    意味変化の度合い Semantic Shift Stability Corpus 2019 Corpus 2020 Word embeddings Anchor words Mapping: Rotate in two directions 87
  39. • 学習用コーパスの “Semantic Shift Stability” と 事前学習済みモデル・単語分散表現の時系列性能 劣化の関係性を分析 • 12

    パターンの日経電子版 RoBERTa や日英の word2vec を構築 • 大きな性能劣化は、Semantic Shift Stability が 小さいタイミングで発生(相関を確認) 学習用コーパスから性能を推察 88
  40. 90 • 機械学習コンテストとは? ◦ 主催者が設定したデータセットと課題を分析 • 機械学習コンテストでのデータ分析の進め方 ◦ コンテスト選びの勘所 ◦

    概要把握→ベースライン作成・検証→改善 • ニュースメディアでのデータ活用事例 ◦ 問題設計を自分でやる必要がある ◦ コンテストの枠組みになれば、知見が活かせる