Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLMで議事録を作ってみた ~GPT-4o vs Gemini1.5 Pro vs Claud...

LLMで議事録を作ってみた ~GPT-4o vs Gemini1.5 Pro vs Claude 3 Opus、三つ巴の戦い~

2024年5月時点で比較的高性能なLLMである、GPT-4o、Gemini1.5 Pro、Claude 3 Opusを使って、会議の文字起こしデータから議事録を作成しました。
それぞれで議事録を作り、性能を比較しています。

tree__and__tree

June 09, 2024
Tweet

More Decks by tree__and__tree

Other Decks in Technology

Transcript

  1. 2024年 5月時点で性能の高いモデルを 3つチョイス (いずれもマルチモーダルなモデル ) モデル名 会社 発表日時 コンテキストウ ィンドウ

    備考 GPT-4o OpenAI 2024/5/13 128k トークナイザーが新しくなり、日本 語のトークン数が以前より削減 Gemini 1.5 Pro Google 2024/2/15 約 1000k これまでの LLMで最長クラスのコン テキスト長を誇る Claude 3 Opus Anthropic 2024/3/4 200k 多くのベンチマークで GPT-4を超え ていることで話題に 使用した LLMについて はやし ゆうすけ 7
  2. 基本的に全部高性能で、使い物にならない議事録はない どのモデルもハルシネーションはほとんどない 一方、ネクストアクションの担当者を正確に記載するのはいずれも難しい GPT-4oと Gemini 1.5 Pro、 Claude 3 Opusでやや傾向が異なる

    GPT-4oの方が全体を踏まえている:議題を満遍なく拾っている(唯一稼働状況に触れて いる) 、人と同程度の粒度でまとめている Gemini 1.5 Pro、 Claude 3 Opusはやや情報が細かく、偏る傾向がある 定性的な評価 はやし ゆうすけ 25
  3. 1. LLMに定量的な評価基準を作成してもらう GPT-4oに以下の基準を作成してもらった 項目 説明 評価方法 完全 性 全ての議題や重要ポイントが漏れ なく含まれている

    0点 (20%以下 )〜 5点 (100%カバー ) 正確 性 記載情報が正確で、誤解されやす い情報がない 0点 (全体的に意味をなさない /誤りが多い )〜 5点 (誤 りなし ) 簡潔 性 冗長でなく、簡潔でわかりやすい 1点 (読み続けることが不可能なレベルの冗長性 )〜 5 点 (完全に簡潔で無駄がない ) はやし ゆうすけ 27
  4. 1. LLMに定量的な評価基準を作成してもらう GPT-4oに以下の基準を作成してもらった 項目 説明 評価方法 一貫 性 一貫した表現・用語が使われている 1点

    (一貫性がなく、意味が不正確 )〜 5点 (表 現の一貫性が保たれている ) 判読 性 記述がわかりやすく、読みやすい。構成が 論理的でスムーズに読める 1点 (理解不能な部分が多すぎる )〜 5点 (大変 読みやすい ) はやし ゆうすけ 28
  5. 2. 評価基準に従い、議事録を LLMに見せて点数をつけてもらう 他の LLMが作成した議事録を採点してもらう ex) GPT-4oの作成した議事録 →Gemini 1.5 Proと

    Claude 3 Opusが採点 システムプロンプトで前述の評価基準を提示し、以下のユーザープロンプトで評価を実行 はやし ゆうすけ 29