LLMで議事録を作ってみた ~GPT-4o vs Gemini1.5 Pro vs Claude 3 Opus、三つ巴の戦い~

LLMで議事録を作ってみた ~GPT-4o vs Gemini1.5 Pro vs Claude 3 Opus、三つ巴の戦い ~
林佑亮はやしゆうすけ

きっかけ議事録作成のステップデータ集め前処理 LLMで議事録作成各モデルでの結果を比較まとめ、感想アジェンダはやしゆうすけ
2

話すこと LLMで議事録を作って評価をする一連の流れ話さないこと技術トピックの詳細話すこと、話さないことはやしゆうすけ 3

林佑亮（新卒 4年目）データサイエンティスト＠株式会社インテージ最近は LLMの PoCや社内開発に従事自己紹介はやし
ゆうすけ 4

営業部署の社員「 AIに議事録を作ってもらおうとしたけど、文字起こしの時点で諦めた」「文字起こしにノイズが多くて使いものになる気がしない」ぼく「生成 AIで議事録作成って割とよく聞くイメージあるけど、案外難しいのかな？」 → 一回やってみるかきっかけ
はやしゆうすけ 5

1. データ集め 2. 前処理 3. LLMで議事録作成 4. 各モデルでの結果を比較今回やったことはやし
ゆうすけ 6

2024年 5月時点で性能の高いモデルを 3つチョイス (いずれもマルチモーダルなモデル ) モデル名会社発表日時コンテキストウィンドウ
備考 GPT-4o OpenAI 2024/5/13 128k トークナイザーが新しくなり、日本語のトークン数が以前より削減 Gemini 1.5 Pro Google 2024/2/15 約 1000k これまでの LLMで最長クラスのコンテキスト長を誇る Claude 3 Opus Anthropic 2024/3/4 200k 多くのベンチマークで GPT-4を超えていることで話題に使用した LLMについてはやしゆうすけ 7

一般的なベンチマークでの性能は GPT-4oが僅差で勝っているが、ほぼ同等の性能と言える (出典 : https://openai.com/index/hello-gpt- 4o/) 参考： LLMの性能比較

ゆうすけ 9

Teamsの文字起こしを使い、会議 2回分のテキストデータを入手いずれもデータ分析案件（ SEM）の分析チームの定例会議（ 1回 30分）モデル作成〜結果のまとめ方が主な議題データ集めはやしゆうすけ
10

発言時間、発言者、発言内容の情報からなる発言にはフィラー（会話のつなぎ言葉）が結構混ざる誤字脱字がそこそこある専門用語は間違えやすい印象 ex） ◦純粋想起 ×純粋早期聞き間違いも時々ある
ex） ◦探索的 ×参加的データの特徴はやしゆうすけ 11

ゆうすけ 12

文字起こしの可読性を上げるために、 Pythonで以下の処理を実施一部記号や空白の除去アルファベットと数字を半角に統一 jaconvを使用フィラーの除去 Ginzaを使用同じ発言者が連続している発言を結合前処理はやし
ゆうすけ 13

ゆうすけ 14

システムプロンプトとユーザープロンプトに分割システムプロンプト：議事録のフォーマットや文字起こしデータの概要を記載ユーザープロンプト：文字起こしデータを代入一回のやり取りで議事録を作成（今回使用したモデルはいずれもコンテキストが十分長い）
プロンプト設計はやしゆうすけ 15

システムプロンプトはやしゆうすけ 16

ユーザープロンプトはやしゆうすけ 17

作成された議事録 GPT-4o_会議 A データ由来の誤字はあるが、情報の粒度や内容はおおよそ揃っているネクストアクションが一部異なるはやしゆうすけ 18

GPT-4o_会議 B 情報の粒度の濃淡があるが、内容の間違いはほとんどないネクストアクションの担当者が一部不正確はやしゆうすけ 19

Gemini 1.5 Pro_会議 A 人・ GPT-4oよりも粒度がやや細かめネクストアクションに一部間違い・過不足があるはやしゆうすけ 20

Gemini 1.5 Pro_会議 B 内容は正しいが、サマリーが分析結果の議論に偏重しているネクストアクションは人よりも具体的で正確はやしゆうすけ 21

Claude 3 Opus_会議 A 人・ GPT-4oよりも粒度がやや細かいが、記載内容は正確はやしゆうすけ 22

Claude 3 Opus_会議 B サマリーが顧客関係と結果議論に偏重しているネクストアクションは正確に記載できているはやしゆうすけ 23

ゆうすけ 24

基本的に全部高性能で、使い物にならない議事録はないどのモデルもハルシネーションはほとんどない一方、ネクストアクションの担当者を正確に記載するのはいずれも難しい GPT-4oと Gemini 1.5 Pro、 Claude 3 Opusでやや傾向が異なる
GPT-4oの方が全体を踏まえている：議題を満遍なく拾っている（唯一稼働状況に触れている）、人と同程度の粒度でまとめている Gemini 1.5 Pro、 Claude 3 Opusはやや情報が細かく、偏る傾向がある定性的な評価はやしゆうすけ 25

人の議事録を正解とし、 LLMの議事録を評価する i. LLMに定量的な評価基準を作成してもらう ii. 評価基準に従い、議事録を LLMに見せて点数をつけてもらう iii. 点数を比較する LLMを使って評価

1. LLMに定量的な評価基準を作成してもらう GPT-4oに以下の基準を作成してもらった項目説明評価方法完全性全ての議題や重要ポイントが漏れなく含まれている
0点 (20%以下 )〜 5点 (100%カバー ) 正確性記載情報が正確で、誤解されやすい情報がない 0点 (全体的に意味をなさない /誤りが多い )〜 5点 (誤りなし ) 簡潔性冗長でなく、簡潔でわかりやすい 1点 (読み続けることが不可能なレベルの冗長性 )〜 5 点 (完全に簡潔で無駄がない ) はやしゆうすけ 27

1. LLMに定量的な評価基準を作成してもらう GPT-4oに以下の基準を作成してもらった項目説明評価方法一貫性一貫した表現・用語が使われている 1点
(一貫性がなく、意味が不正確 )〜 5点 (表現の一貫性が保たれている ) 判読性記述がわかりやすく、読みやすい。構成が論理的でスムーズに読める 1点 (理解不能な部分が多すぎる )〜 5点 (大変読みやすい ) はやしゆうすけ 28

2. 評価基準に従い、議事録を LLMに見せて点数をつけてもらう他の LLMが作成した議事録を採点してもらう ex） GPT-4oの作成した議事録 →Gemini 1.5 Proと
Claude 3 Opusが採点システムプロンプトで前述の評価基準を提示し、以下のユーザープロンプトで評価を実行はやしゆうすけ 29

3. 点数を比較する勝敗は GPT-4oが優勢となったが、点数は僅差であり優劣は判断し難い評価基準を作ったのが GPT-4oなので、 GPT-4oに有利な可能性があるはやしゆうすけ 30

生成 AIによる議事録作成は可能であり、実用レベル特に GPT-4oが全体的なバランスに優れた結果を出すが、他のモデルも十分高性能文字起こしの精度がボトルネック？文字起こしの誤字脱字が減るとより高精度な議事録が作成できそう評価基準の精緻化や会議の種類に合わせたプロンプト設計によって、さらに精度が上がる可能性があるまとめはやし
ゆうすけ 31

ロングコンテキストガチ万歳： LLMのやり取りの設計がめちゃ楽 LLMの進化えぐい： 1年前だったらおそらく無理な結果議事録サービスあるけど結構高い：比較したいフィラー除去は時間がかかる割にそこまで除去されなかった感想はやしゆうすけ 32

LLMで議事録を作ってみた ~GPT-4o vs Gemini1.5 Pro vs Claud...

LLMで議事録を作ってみた ~GPT-4o vs Gemini1.5 Pro vs Claude 3 Opus、三つ巴の戦い~

treeandtree

More Decks by treeandtree

Other Decks in Technology

Featured

Transcript