$30 off During Our Annual Pro Sale. View Details »

日本経済新聞社におけるWandBの活用例

 日本経済新聞社におけるWandBの活用例

日本経済新聞社では多くのデータを保有し、そこから価値を生み出すために様々な研究開発を行っています。 本講演では、日本経済新聞社で行われている研究開発の事例やWandBの活用例をご紹介します。活用例は、論文執筆、自然言語処理、アルゴリズム探索、画像生成など多岐にわたるトピックを含みます。研究開発上の課題点とWandBがどのように問題解決に一役買ったかをご紹介します。

- 発表者紹介
- 日本経済新聞社の紹介
- WandBの活用例
- WandBを用いた学術研究の実験管理
- WandBを用いた画像圧縮アルゴリズムの探索
- WandBを用いた動画像生成フロー管理
- まとめ

Masaki AOTA

October 11, 2023
Tweet

More Decks by Masaki AOTA

Other Decks in Programming

Transcript

  1. 日本経済新聞社における
    WandBの活用例
    Fully Connected 2023 Tokyoカンファレンス
    日本経済新聞社 日経イノベーション・ラボ
    ○青田雅輝、山田健太、石原祥太郎
    2023 年 10 月 11 日

    View Slide

  2. 本発表の概要
    2
    ● 発表者紹介
    ● 日本経済新聞社の紹介
    ● WandBの活用例
    ○ WandBを用いた学術研究の実験管理
    ○ WandBを用いた画像圧縮アルゴリズムの探索
    ○ WandBを用いた動画像生成フロー管理
    ● まとめ

    View Slide

  3. 発表者紹介
    3
    青田 雅輝
    ● 日経イノベーション・ラボ (研究開発部隊)
    ○ 業務では画像系が多い
    ○ SQL書いたり、生存分析的なことも
    ○ 連名の山田、石原と同部署
    ● 趣味
    ○ 自然言語処理でKaggle Master。AtCoder水色
    ○ 最近は音楽生成が熱い

    View Slide

  4. 日本経済新聞社
    4
    ● 新聞を中核とする事業
    持株会社
    ● 雑誌、書籍、電子メ
    ディア、データベース
    サービス、速報、電
    波、映像、経済・文化
    事業などを展開
    https://speakerdeck.com/nikkei_engineer_recruiting/nikkei-engineer-recruiting21

    View Slide

  5. データサイエンティストの役割・取り組み
    5
    ● 日本経済新聞社が保有する多種多様なデータを駆使して、事業
    が持つ価値を高める仕事
    ● 扱うデータ:新聞記事のテキスト・画像、企業情報、ユーザの
    行動ログや属性情報など
    ● 技術:機械学習や自然言語・画像処理、地理空間処理など
    ● ツール:Python、R、Spreadsheet、GCP、AWS、Redash
    ● 目的や状況に合わせて、最適なデータ・技術・ツールを選定

    View Slide

  6. 扱うデータセット
    6
    ● ユーザに関する情報
    ○ 多くのサービスで共通の「日経 ID」を導入し、属性情報や
    行動ログを記録
    ○ 独自のリアルタイムデータ処理基盤「Atlas」を構築
    ○ 2010年に電子版を提供開始、日経ID会員数は1千万以上
    ● コンテンツに関する情報
    ○ 記事データや企業情報を取得できるAPIが充実
    ○ 記事データは約40年分、紙面画像データは147年分存在

    View Slide

  7. 7
    ここからは、WandBを
    利用した社内事例の紹介

    View Slide

  8. 8
    事例1

    View Slide

  9. ● 日経では、中長期的な技術課題を見据えた学術研
    究活動にも挑戦中(発表文献)
    ● マルチモーダル情報でニュース記事のクリック率
    を予測した研究を例に、WandBの活用事例を紹介
    Shotaro Ishihara, and Yasufumi Nakama (2022). Generating
    a Pairwise Dataset for Click-through Rate Prediction of
    News Articles Considering Positions and Contents. In Proc.
    of Computation + Journalism Conference 2022.
    WandBを用いた学術研究の実験管理
    9

    View Slide

  10. マルチモーダル情報でクリック率を予測
    10
    シャープペン、高機能品は 5000円超も
    価格上昇けん引
    シャープペンシルの平均価格が上昇して
    いる。1000円未満の商品が主流を占め
    る中、5000円を超える高額商品が...
    クリック率を予測
    見出し
    本文
    サムネイル
    あくまで概要。詳細は論文へ
    https://www.nikkei.com/article/DGXZQOUC261WB0W3A920C2000000/

    View Slide

  11. 特徴量とモデル(LightGBMや深層学習など)の設定
    ごとに、漏れなく正確に結果を記録したい
    論文でよく見かける表→結果の記録が大変
    11

    View Slide

  12. ● CTRの一対比較の性能を評価するための記録
    ○ モデルのハイパーパラメータや特徴量の設定値
    ○ 用いた目的関数(Root Mean Square Errorや
    Margin Ranking Lossなど)や多数の評価関数
    (正答率、F値など)
    ● 定性的な考察のため、入力した画像・見出しや、
    BERTのアテンションも可視化
    全ての実験結果をWandBで管理
    12

    View Slide

  13. 「市場の見方」という部分にモデルが注目していると
    推察できる。predはCTR予測の相対値で、実際のCTR
    の大小関係と一致した。
    BERTのアテンションの可視化の例
    13

    View Slide

  14. ● 実験と論文執筆の間隔が空くことも多い
    ○ 査読結果を受けての改訂
    ○ 国内学会→国際学会→論文誌
    ● 著者間で結果を共有しやすい
    ○ WandBのサイト上で結果が自動に同期される
    論文執筆時の振り返りが簡単に
    14

    View Slide

  15. 15
    事例2

    View Slide

  16. ● やること
    ○ 効率的な画像圧縮アルゴリズム、
    パラメータの探索がしたい
    ○ Not 機械学習
    WandBを用いた画像圧縮アルゴリズムの探索
    16

    View Slide

  17. ● やること
    ○ 効率的な画像圧縮アルゴリズム、
    パラメータの探索がしたい
    ○ Not 機械学習
    ● どうしてやるのか?
    ○ 日経では毎日膨大な量の画像データがユーザー
    に送信されているため (数十TBオーダー/day)
    WandBを用いた画像圧縮アルゴリズムの探索
    17

    View Slide

  18. ● アルゴリズム探索もパラメータによっては
    実験に時間がかかるため、
    定期的に進行状況を確認する必要があった。
    ● 新しいアルゴリズムを試したら、すぐさま過去の
    実験と重ねての比較が可視化しづらかった。
    ○ とくに画像圧縮では画質と容量のトレード
    オフが重要なため、単一指標での比較が困難
    アルゴリズム探索の実験管理上の課題点
    18

    View Slide

  19. ● 右の例では、
    exp007の方が容量小で
    画質が良さそうで、
    容量大で
    あまり差がなさそう
    →いろんな実験を対話的に調べたい
    小  圧縮後の容量   大







    画質と容量のトレードオフの可視化例
    19

    View Slide

  20. いろんなログをひたすらwandb.logに入れるだけで
    ● あとで対話的に可視化可能
    ○ 可視化用にPythonを起動の必要なし
    ● 当初重要視しなかった指標もあとから作図可能
    ○ 容量、画質だけでなく圧縮速度もあとから重要
    視された。logに送信していたため、再実験の
    必要もなく簡単に可視化できた。
    WandBの恩恵
    20

    View Slide

  21. ● 可視化の手間を考えず、
    高速に実験を回す事ができた
    ● 実験完了の通知で、即座に結果確認可能
    ● あとで追加実験するときも枠組みに載せるだけ
    ● →画像の圧縮に良さそうな圧縮アルゴリズムと
    パラメータを高速に見つけることができた。
    ○ 理想的には通信コストを約半分に!
    WandBを用いた結果
    21

    View Slide

  22. 22
    事例3

    View Slide

  23. ● 日経でも生成AIによる様々な表現の可能性を模索
    ○ 動画生成の管理にWandBを利用
    WandBを用いた動画像生成フロー管理
    23

    View Slide

  24. 動画生成
    ≒複数フレームの画像生成
    ● フレーム間で同一性を保持
    するためにはモデルや
    パラメータの管理が不可欠
    ● WandB前:
    Notionで管理→コピペ。
    ミスの温床
    多くのパラメータの試行錯誤・呼出しが必要

    View Slide

  25. WandB後:
    ● パラメータ・生成画像ま
    で含めて自動管理に
    ● WebベースなのでPCを開
    かずスマホ等で見れる!
    とりあえずたくさん作っ
    て後で確認が可能に
    多くのパラメータの試行錯誤・呼出しが必要
    25
    ※デモ用の例です

    View Slide

  26. 再現性のある動画像生成が可能に
    26
    ● ControlNet + LoRA + Diffusionで、
    Promptと各種ハイパーパラメータが同一ならほぼ
    同じ画像が出てくる→同一性、再現性が確保
    ● あるシーンの修正が必要だとして、パラメータを
    呼び出して微修正することで簡単に対処可能に
    ● オリジナルLoRAのトレーニング状況の確認にも

    View Slide

  27. ● 日本経済新聞社はさまざまな形式のデータを保有
    しており、データ活用を進めています。
    ● いくつかのプロジェクトでは、実験管理で生じる
    問題や手間をWandBを用いて軽減しています。
    ○ WandBを用いた学術研究の実験管理
    ○ WandBを用いた画像圧縮アルゴリズムの探索
    ○ WandBを用いた動画像生成フロー管理
    まとめ
    27

    View Slide

  28. ● 🔍 https://hack.nikkei.com/
    ● キャリア採用: MLエンジニア、データエンジニア、
    データサイエンティスト・データアナリスト、
    データマネージャー など
    ● 短期・長期インターン、新卒採用
    お気軽にカジュアル面談から
    28

    View Slide

  29. 29
    Appendix

    View Slide

  30. データサイエンティストが働く部署・チーム
    30
    ● 社内のさまざまな部署にデータサイエンティストを配置
    ○ デジタル編成・情報サービス・メディアビジネス・プラット
    フォーム推進室・編集など
    ○ 2017 年には社長直轄の研究開発組織「日経イノベーション
    ・ラボ」を設立
    ● 事業価値を高めるため、さまざまな職種の方と連携しながら施
    策を進めることが多い
    ○ テレビ東京、ラジオNIKKEIなどのグループ会社と連携も

    View Slide