Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

マルチモーダル AI 実装の課題と解決策 / Developer X Summit

マルチモーダル AI 実装の課題と解決策 / Developer X Summit

Developer X Summit「マルチモーダル AI 実装の課題と解決策」での発表資料 (石原担当分)
https://event.shoeisha.jp/devsumi/20241114/session/5322

Shotaro Ishihara

November 12, 2024
Tweet

More Decks by Shotaro Ishihara

Other Decks in Business

Transcript

  1. • 大学新聞での記者経験を経て、日本経済新聞社へ • 研究開発部署「日経イノベーション・ラボ」で、 上席研究員として活動 • Google Cloud Champion Innovator

    (AI/ML) • 近著に『事例でわかるMLOps 機械学習の成果を スケールさせる処方箋』(講談社) 自己紹介:石原祥太郎 2
  2. • [山田ら24] 山田健太, 青田雅輝 (2024). マルチモーダル な深層学習手法を用いた政治資金収支報告書の判読の試 み. 2024年度日本選挙学会総会・研究会. 2024

    年 5 月. • [田邉ら24] 田邉耕太, 石原祥太郎, 山田健太, 青田雅輝, 又吉康綱 (2024). ニュースを身近に:日常風景からの ニュース推薦. 第 210 回情報処理学会ヒューマンコン ピュータインタラクション研究会. 2024 年 11 月. 手法や評価の詳細は参考文献へ 4
  3. 社長直轄の研究開発組織として 2017 年に設立 • 日経電子版を用いた大規模言語モデル [記事] • 大規模言語モデルを用いた編集支援ツール [記事] •

    米スタンフォード大学のアンドリュー・ング兼任 教授が率いる AI ファンドと提携 [記事] • 新聞協会賞を受賞したデジタル報道に協力 [記事] 日経イノベーション・ラボ 6
  4. • 言語のみならず、画像・音声・動画など複数の種 類 (モーダル) のデータを統合的に処理 • モデルの例 (Gemini と Claude

    は Google Cloud で利用可能) ◦ Gemini (by Google Deepmind) ◦ Claude (by Anthropic) ◦ GPT-4V (by OpenAI) マルチモーダル AI 11
  5. • 複数のモデルを用い て、性能を検証 ◦ OCR との組み合 わせも調査 • 評価指標 Tree-Edit-Distance-Similarity

    (TEDS) ◦ 比較対象の表の構造を HTML 形式にし、類似 度を計算 (大きいほど良い) 実験 12 [山田ら24] 図 3
  6. 実験結果 13 • OCR との組み合わせで、性 能が改善 • 2024 年 5

    月に論文を公開し た時点の実験結果 • [山田ら24] 表 3
  7. ニュース配信サービスの新規ユーザ向けに、新たな 興味関心の発見に繋がる記事を推薦するため、ユー ザの身近な画像を入力とする手法を検証したい ②画像からのニュース記事推薦 15 "白菜", "きのこ", "豆腐", "白滝", "ねぎ",

    "鍋" マルチモー ダル AI 記事検索 "白菜": "手作り漬物の販売ピンチ?  衛生管理、国際規格で厳しく" https://www.nikkei.com/article/DGXZQOU E117TN0R10C24A4000000/ ……
  8. • 日常画像データセット [7] から、オフィス・寝室 ・パン屋・キッチン・クローゼットの 5 カテゴリ で 1 枚ずつ画像を利用

    • 5 人の参加者が 5 枚の画像をシステムに入力し、 推薦された合計 115 記事をそれぞれが評価 [7] https://web.mit.edu/torralba/www/indoor.html 実験設定 19
  9. • 研究開発部署として、生成 AI の PoC に着手 ◦ ①政治資金収支報告書からの情報抽出 ◦ ②画像からのニュース記事推薦

    • 実装の課題:目的はあくまで概念の検証なので、 できる限り実装に時間をかけずに、分析や評価に 時間を割きたい • 解決策:Google Cloud のマルチモーダル AI まとめ 24