Slide 1

Slide 1 text

日本経済新聞社における WandBの活用例 Fully Connected 2023 Tokyoカンファレンス 日本経済新聞社 日経イノベーション・ラボ ○青田雅輝、山田健太、石原祥太郎 2023 年 10 月 11 日

Slide 2

Slide 2 text

本発表の概要 2 ● 発表者紹介 ● 日本経済新聞社の紹介 ● WandBの活用例 ○ WandBを用いた学術研究の実験管理 ○ WandBを用いた画像圧縮アルゴリズムの探索 ○ WandBを用いた動画像生成フロー管理 ● まとめ

Slide 3

Slide 3 text

発表者紹介 3 青田 雅輝 ● 日経イノベーション・ラボ (研究開発部隊) ○ 業務では画像系が多い ○ SQL書いたり、生存分析的なことも ○ 連名の山田、石原と同部署 ● 趣味 ○ 自然言語処理でKaggle Master。AtCoder水色 ○ 最近は音楽生成が熱い

Slide 4

Slide 4 text

日本経済新聞社 4 ● 新聞を中核とする事業 持株会社 ● 雑誌、書籍、電子メ ディア、データベース サービス、速報、電 波、映像、経済・文化 事業などを展開 https://speakerdeck.com/nikkei_engineer_recruiting/nikkei-engineer-recruiting21

Slide 5

Slide 5 text

データサイエンティストの役割・取り組み 5 ● 日本経済新聞社が保有する多種多様なデータを駆使して、事業 が持つ価値を高める仕事 ● 扱うデータ:新聞記事のテキスト・画像、企業情報、ユーザの 行動ログや属性情報など ● 技術:機械学習や自然言語・画像処理、地理空間処理など ● ツール:Python、R、Spreadsheet、GCP、AWS、Redash ● 目的や状況に合わせて、最適なデータ・技術・ツールを選定

Slide 6

Slide 6 text

扱うデータセット 6 ● ユーザに関する情報 ○ 多くのサービスで共通の「日経 ID」を導入し、属性情報や 行動ログを記録 ○ 独自のリアルタイムデータ処理基盤「Atlas」を構築 ○ 2010年に電子版を提供開始、日経ID会員数は1千万以上 ● コンテンツに関する情報 ○ 記事データや企業情報を取得できるAPIが充実 ○ 記事データは約40年分、紙面画像データは147年分存在

Slide 7

Slide 7 text

7 ここからは、WandBを 利用した社内事例の紹介

Slide 8

Slide 8 text

8 事例1

Slide 9

Slide 9 text

● 日経では、中長期的な技術課題を見据えた学術研 究活動にも挑戦中(発表文献) ● マルチモーダル情報でニュース記事のクリック率 を予測した研究を例に、WandBの活用事例を紹介 Shotaro Ishihara, and Yasufumi Nakama (2022). Generating a Pairwise Dataset for Click-through Rate Prediction of News Articles Considering Positions and Contents. In Proc. of Computation + Journalism Conference 2022. WandBを用いた学術研究の実験管理 9

Slide 10

Slide 10 text

マルチモーダル情報でクリック率を予測 10 シャープペン、高機能品は 5000円超も 価格上昇けん引 シャープペンシルの平均価格が上昇して いる。1000円未満の商品が主流を占め る中、5000円を超える高額商品が... クリック率を予測 見出し 本文 サムネイル あくまで概要。詳細は論文へ https://www.nikkei.com/article/DGXZQOUC261WB0W3A920C2000000/

Slide 11

Slide 11 text

特徴量とモデル(LightGBMや深層学習など)の設定 ごとに、漏れなく正確に結果を記録したい 論文でよく見かける表→結果の記録が大変 11

Slide 12

Slide 12 text

● CTRの一対比較の性能を評価するための記録 ○ モデルのハイパーパラメータや特徴量の設定値 ○ 用いた目的関数(Root Mean Square Errorや Margin Ranking Lossなど)や多数の評価関数 (正答率、F値など) ● 定性的な考察のため、入力した画像・見出しや、 BERTのアテンションも可視化 全ての実験結果をWandBで管理 12

Slide 13

Slide 13 text

「市場の見方」という部分にモデルが注目していると 推察できる。predはCTR予測の相対値で、実際のCTR の大小関係と一致した。 BERTのアテンションの可視化の例 13

Slide 14

Slide 14 text

● 実験と論文執筆の間隔が空くことも多い ○ 査読結果を受けての改訂 ○ 国内学会→国際学会→論文誌 ● 著者間で結果を共有しやすい ○ WandBのサイト上で結果が自動に同期される 論文執筆時の振り返りが簡単に 14

Slide 15

Slide 15 text

15 事例2

Slide 16

Slide 16 text

● やること ○ 効率的な画像圧縮アルゴリズム、 パラメータの探索がしたい ○ Not 機械学習 WandBを用いた画像圧縮アルゴリズムの探索 16

Slide 17

Slide 17 text

● やること ○ 効率的な画像圧縮アルゴリズム、 パラメータの探索がしたい ○ Not 機械学習 ● どうしてやるのか? ○ 日経では毎日膨大な量の画像データがユーザー に送信されているため (数十TBオーダー/day) WandBを用いた画像圧縮アルゴリズムの探索 17

Slide 18

Slide 18 text

● アルゴリズム探索もパラメータによっては 実験に時間がかかるため、 定期的に進行状況を確認する必要があった。 ● 新しいアルゴリズムを試したら、すぐさま過去の 実験と重ねての比較が可視化しづらかった。 ○ とくに画像圧縮では画質と容量のトレード オフが重要なため、単一指標での比較が困難 アルゴリズム探索の実験管理上の課題点 18

Slide 19

Slide 19 text

● 右の例では、 exp007の方が容量小で 画質が良さそうで、 容量大で あまり差がなさそう →いろんな実験を対話的に調べたい 小  圧縮後の容量   大 良 画 質 の 良 さ 悪 画質と容量のトレードオフの可視化例 19

Slide 20

Slide 20 text

いろんなログをひたすらwandb.logに入れるだけで ● あとで対話的に可視化可能 ○ 可視化用にPythonを起動の必要なし ● 当初重要視しなかった指標もあとから作図可能 ○ 容量、画質だけでなく圧縮速度もあとから重要 視された。logに送信していたため、再実験の 必要もなく簡単に可視化できた。 WandBの恩恵 20

Slide 21

Slide 21 text

● 可視化の手間を考えず、 高速に実験を回す事ができた ● 実験完了の通知で、即座に結果確認可能 ● あとで追加実験するときも枠組みに載せるだけ ● →画像の圧縮に良さそうな圧縮アルゴリズムと パラメータを高速に見つけることができた。 ○ 理想的には通信コストを約半分に! WandBを用いた結果 21

Slide 22

Slide 22 text

22 事例3

Slide 23

Slide 23 text

● 日経でも生成AIによる様々な表現の可能性を模索 ○ 動画生成の管理にWandBを利用 WandBを用いた動画像生成フロー管理 23

Slide 24

Slide 24 text

動画生成 ≒複数フレームの画像生成 ● フレーム間で同一性を保持 するためにはモデルや パラメータの管理が不可欠 ● WandB前: Notionで管理→コピペ。 ミスの温床 多くのパラメータの試行錯誤・呼出しが必要

Slide 25

Slide 25 text

WandB後: ● パラメータ・生成画像ま で含めて自動管理に ● WebベースなのでPCを開 かずスマホ等で見れる! とりあえずたくさん作っ て後で確認が可能に 多くのパラメータの試行錯誤・呼出しが必要 25 ※デモ用の例です

Slide 26

Slide 26 text

再現性のある動画像生成が可能に 26 ● ControlNet + LoRA + Diffusionで、 Promptと各種ハイパーパラメータが同一ならほぼ 同じ画像が出てくる→同一性、再現性が確保 ● あるシーンの修正が必要だとして、パラメータを 呼び出して微修正することで簡単に対処可能に ● オリジナルLoRAのトレーニング状況の確認にも

Slide 27

Slide 27 text

● 日本経済新聞社はさまざまな形式のデータを保有 しており、データ活用を進めています。 ● いくつかのプロジェクトでは、実験管理で生じる 問題や手間をWandBを用いて軽減しています。 ○ WandBを用いた学術研究の実験管理 ○ WandBを用いた画像圧縮アルゴリズムの探索 ○ WandBを用いた動画像生成フロー管理 まとめ 27

Slide 28

Slide 28 text

● 🔍 https://hack.nikkei.com/ ● キャリア採用: MLエンジニア、データエンジニア、 データサイエンティスト・データアナリスト、 データマネージャー など ● 短期・長期インターン、新卒採用 お気軽にカジュアル面談から 28

Slide 29

Slide 29 text

29 Appendix

Slide 30

Slide 30 text

データサイエンティストが働く部署・チーム 30 ● 社内のさまざまな部署にデータサイエンティストを配置 ○ デジタル編成・情報サービス・メディアビジネス・プラット フォーム推進室・編集など ○ 2017 年には社長直轄の研究開発組織「日経イノベーション ・ラボ」を設立 ● 事業価値を高めるため、さまざまな職種の方と連携しながら施 策を進めることが多い ○ テレビ東京、ラジオNIKKEIなどのグループ会社と連携も