Slide 1

Slide 1 text

石原祥太郎、山田健太、青田雅輝 日本経済新聞社 日経イノベーション・ラボ Developer X Summit 2024 年 11 月 14 日 マルチモーダル AI 実装の課題と解決策

Slide 2

Slide 2 text

● 大学新聞での記者経験を経て、日本経済新聞社へ ● 研究開発部署「日経イノベーション・ラボ」で、 上席研究員として活動 ● Google Cloud Champion Innovator (AI/ML) ● 近著に『事例でわかるMLOps 機械学習の成果を スケールさせる処方箋』(講談社) 自己紹介:石原祥太郎 2

Slide 3

Slide 3 text

> 画像やテキストなど多様なデータ形式を活用した 生成 AI プロジェクトの実装における具体的な課題 と、その解決に向けた実践的なアプローチを、最新 事例を交えながら解説します。 ● ①政治資金収支報告書からの情報抽出 ● ②画像からのニュース記事推薦 本発表の概要 3

Slide 4

Slide 4 text

● [山田ら24] 山田健太, 青田雅輝 (2024). マルチモーダル な深層学習手法を用いた政治資金収支報告書の判読の試 み. 2024年度日本選挙学会総会・研究会. 2024 年 5 月. ● [田邉ら24] 田邉耕太, 石原祥太郎, 山田健太, 青田雅輝, 又吉康綱 (2024). ニュースを身近に:日常風景からの ニュース推薦. 第 210 回情報処理学会ヒューマンコン ピュータインタラクション研究会. 2024 年 11 月. 手法や評価の詳細は参考文献へ 4

Slide 5

Slide 5 text

● 研究開発部署として、生成 AI プロジェクトの PoC (概念検証) に着手 ● 実装の課題:目的はあくまで概念の検証なので、 できる限り実装に時間をかけずに、分析や評価に 時間を割きたい ● 解決策:Google Cloud のマルチモーダル AI 本発表では、プロジェクトの背景に焦点 5

Slide 6

Slide 6 text

社長直轄の研究開発組織として 2017 年に設立 ● 日経電子版を用いた大規模言語モデル [記事] ● 大規模言語モデルを用いた編集支援ツール [記事] ● 米スタンフォード大学のアンドリュー・ング兼任 教授が率いる AI ファンドと提携 [記事] ● 新聞協会賞を受賞したデジタル報道に協力 [記事] 日経イノベーション・ラボ 6

Slide 7

Slide 7 text

● 日経テレコン、日経電子版などの代表的なプロダ クトがある中で、次なる種を数多く撒きたい ● 自由な発想でプロジェクトを立ち上げられる一方 で、メンバーは小規模 (基本は 1-2 人で、学生イ ンターンと協業する例も) ● 見込みがあれば、編集や事業部門との連携を進め ていく 日経イノベーション・ラボでの PoC 7

Slide 8

Slide 8 text

● 講談社から 2024 年 9 月末に 発売された書籍に寄稿 ● https://www.kspub.co.jp/bo ok/detail/5369562.html 大規模言語モデルの研究 開発から実運用に向けて 8

Slide 9

Slide 9 text

● 政治団体の 1 年間の収支を記した報告書から、情 報を抽出したい ○ 入力:紙媒体の書類がスキャンされた画像 ○ 特徴:手書き、修正印あり、雛形は非統一 ○ 出力:表形式 ● 情報抽出手法や結果の活用可能性を検証したい ①政治資金収支報告書からの情報抽出 9

Slide 10

Slide 10 text

10 [山田ら24] 図 1

Slide 11

Slide 11 text

● 言語のみならず、画像・音声・動画など複数の種 類 (モーダル) のデータを統合的に処理 ● モデルの例 (Gemini と Claude は Google Cloud で利用可能) ○ Gemini (by Google Deepmind) ○ Claude (by Anthropic) ○ GPT-4V (by OpenAI) マルチモーダル AI 11

Slide 12

Slide 12 text

● 複数のモデルを用い て、性能を検証 ○ OCR との組み合 わせも調査 ● 評価指標 Tree-Edit-Distance-Similarity (TEDS) ○ 比較対象の表の構造を HTML 形式にし、類似 度を計算 (大きいほど良い) 実験 12 [山田ら24] 図 3

Slide 13

Slide 13 text

実験結果 13 ● OCR との組み合わせで、性 能が改善 ● 2024 年 5 月に論文を公開し た時点の実験結果 ● [山田ら24] 表 3

Slide 14

Slide 14 text

各種政治団体における 収入グラフネットワーク ● 情報抽出を半機械的に 処理することで、分析 や活用可能性の議論に 注力できる [山田ら24] 図 7 抽出結果の活用 14

Slide 15

Slide 15 text

ニュース配信サービスの新規ユーザ向けに、新たな 興味関心の発見に繋がる記事を推薦するため、ユー ザの身近な画像を入力とする手法を検証したい ②画像からのニュース記事推薦 15 "白菜", "きのこ", "豆腐", "白滝", "ねぎ", "鍋" マルチモー ダル AI 記事検索 "白菜": "手作り漬物の販売ピンチ?  衛生管理、国際規格で厳しく" https://www.nikkei.com/article/DGXZQOU E117TN0R10C24A4000000/ ……

Slide 16

Slide 16 text

● 情報収集のために、登録してみよう ● たくさんのニュースから何を読めば良いか...... ● 閲覧傾向に基づくニュース推薦も、興味関心に刺 さるものが少ない...... ● 閲覧習慣が定着せず、サービス離脱に...... ニュース配信サービスの新規ユーザ 16

Slide 17

Slide 17 text

1. 画像の入力:画像アップロード機能 2. 物体名の抽出:視覚言語モデル [5] を利用 3. ニュース記事の検索:「日経電子版」を題材に、 全文検索システム [6] を利用 [5] Gemini 1.0 Pro Vision [6] Elasticsearch システム実装の詳細 17

Slide 18

Slide 18 text

実装したシステム 18 [田邉ら24] 図 2

Slide 19

Slide 19 text

● 日常画像データセット [7] から、オフィス・寝室 ・パン屋・キッチン・クローゼットの 5 カテゴリ で 1 枚ずつ画像を利用 ● 5 人の参加者が 5 枚の画像をシステムに入力し、 推薦された合計 115 記事をそれぞれが評価 [7] https://web.mit.edu/torralba/www/indoor.html 実験設定 19

Slide 20

Slide 20 text

評価観点:セレンディピティ 全てを満たす場合に「セレンディピティがある」 ● 関連性「提示された物体名やニュース記事が、妥 当であると感じる」 ● 新規性「提示された物体名やニュース記事を、知 らなかった」 ● 意外性「提示された物体名やニュース記事を、シ ステムのおかげで発見できたと感じる」 20

Slide 21

Slide 21 text

● 物体名の抽出: デスク、ベッド、 ランプ、椅子、窓 ● それぞれに対し、5 件のニュース記事 を検索し推薦 画像はデータセットから 評価の具体例(寝室カテゴリ) 21

Slide 22

Slide 22 text

● 1 記事目は全員が 3 観点が妥当で、セレンディピ ティがあると判断した ● 関連性・新規性・意外性のいずれかが欠けても、 セレンディピティがないと見なす 5 記事と評価の平均値 22 [田邉ら24] 表 3

Slide 23

Slide 23 text

0.12 の割合で、セレンディピティがある推薦を実現 有用性の評価 23 [田邉ら24] 表 4

Slide 24

Slide 24 text

● 研究開発部署として、生成 AI の PoC に着手 ○ ①政治資金収支報告書からの情報抽出 ○ ②画像からのニュース記事推薦 ● 実装の課題:目的はあくまで概念の検証なので、 できる限り実装に時間をかけずに、分析や評価に 時間を割きたい ● 解決策:Google Cloud のマルチモーダル AI まとめ 24