Slide 1

Slide 1 text

Claude 3を使って RAGの一番の悩みポイントを解決してみた Bedrock Claude Night (JAWS-UG AI/ML支部 × 東京支部コラボ) クラスメソッド株式会社 新規事業部 生成AIチーム 山本紘暉

Slide 2

Slide 2 text

自己紹介:山本紘暉 クラスメソッド株式会社 研究開発エンジニア 2020年 5月~ ・コンピュータビジョン 骨格検出や人物追跡 2023年 3月~ ・生成AIやLLM 最近はRAGに注力 「クラスメソッド 山本 ブログ」で検索 https://dev.classmethod.jp/author/yamamoto-hiroki/ 研究開発 ・最新研究と実適用の間の橋渡し ・妥当な期間・コスト・品質 ・着実に進めるために ・有り物だけでなく自作も

Slide 3

Slide 3 text

背景・前提知識

Slide 4

Slide 4 text

RAGとは LLM単体では知らないことを答えさせる (RAG:Retrieval Augmented Generation) 検索 で LLM を 拡張

Slide 5

Slide 5 text

LLMの問題点・RAGの目的 ユーザ 質問 誤った回答 LLM プログラム 質問 誤った回答 ユーザ 質問 正しい回答 LLM プログラム 質問 + 関連テキスト 正しい回答 参考 ドキュメント 検索 関連テキスト 通常 RAG

Slide 6

Slide 6 text

RAGを使った質問・回答の様子 質問 ・社内手続きに関する質問 「名刺を発注したいのですが、 どうすればいいですか?」 回答 ・参考ドキュメントに基づいて、 発注方法を回答してくれる (使用したドキュメントへのリンクも表示)

Slide 7

Slide 7 text

山本の今までの取り組み 社内 ・QAボットを作成してみた ・改善ポイントを分析した 案件(お客様向け) ・システムを構築した ・使用状況データを分析した

Slide 8

Slide 8 text

ブログにまとめてます https://dev.classmethod.jp/articles/improve-work- efficiency-with-generateive-ai-chatbot-using-rag/ https://dev.classmethod.jp/articles/rag- knowledge-on-real-projects/

Slide 9

Slide 9 text

実際にやってみての課題 (の内の1つ)

Slide 10

Slide 10 text

課題:人間の読み方とシステムの読み方が異なる 人間 読むとわかる 違う読まれ方をする システム ドキュメント 人間が読んでわかりやすい ≠ システムが読み込んだあとの形式がわかりやすい 人間

Slide 11

Slide 11 text

課題:PowerPointファイルの読まれ方 https://www.jinji.go.jp/saiyo/siken/senkou/setsumeikai_17.pptx 順番が変わる (オブジェクトのレイヤー順で読まれてる ※推測) 親子関係がわかりにくいテキストになる ① ② ③ ① ③ ②

Slide 12

Slide 12 text

課題:画像は読まれない https://www.jinji.go.jp/saiyo/siken/senkou/setsumeikai_17.pptx そもそも画像があったかどうかも わからない ※ Kendraのリファレンスにも デフォルトでは画像が読み込まれないことは明記されています 補足:既存のドキュメントローダーでは、 画像は読み込まれるものの、 変換はあまりいい感じではないことが多い

Slide 13

Slide 13 text

課題:PDFファイルの読まれ方(ヘッダ・フッタ部分) 本文間にフッターやページ数が 入り込んでしまう

Slide 14

Slide 14 text

課題:PDFファイルの読まれ方(表部分) 表部分がテキストの羅列になってしまう チャンクが表の途中で途切れてしまう (→ カラム名が分からなくなる)

Slide 15

Slide 15 text

解決方法・結果

Slide 16

Slide 16 text

方法:マルチモーダルなモデルを使う 人間 読むとわかる 人間と同じような読み方 ドキュメント マルチモーダルなモデル

Slide 17

Slide 17 text

結果:パワポ資料を人間が読む順序で文字起こしできた 詳細はこちらのブログをご覧ください https://dev.classmethod.jp/articles/read-powerpoint-document-with-claude-3/ # 経済産業省のMission ## 日本経済・国民の暮らしを豊 かにする ### 産業政策 - 人工知能、IoT、ヘルスケア - データ活用、中小企業 - 産業構造・・・ ### 通商・貿易 - EPA、TPP、インフラ輸出 - 新興国戦略、ルール形成 - 戦略・・・ ### 資源・エネルギー - 電力自由化、新エネ・省エネ - 原発、資源外交・・・ ### 手段 - 経済成長 - 産業競争力の強化 - イノベーション - 世界の富の取り込み - エネルギー安定供給 ### 目的 - 社会課題の解決 Ex.少子高齢化、貧困問題、 世界の不安定化 - 豊かな社会の実現

Slide 18

Slide 18 text

結果:画像を説明させることができた 詳細はこちらのブログをご覧ください https://dev.classmethod.jp/articles/read-powerpoint-document-with-claude-3/ # 活気ある職場・働きやすい環境 1 ## 職場風景 [オフィスの様子が写っている。複数の人が机を囲んで作業を している。] [3人の男女がパンフレットを見ながら話し合っている。壁に は絵画が掛かっている。] ## 働きやすい職場環境 - テレワーク ※29FYは延べ7,000人以上が実施。中央省庁では 最多。 - ペーパーレス ※4年で37%削減 - フレックス - 風通しのよい職場 (職員意識調査:職場満足度77割以上) - 様々な研修制度 (年間100回以上の勉強会の開催など) [2台のノートPCが写っている。] 個人PC:軽量で持ち運びが容易 ※ プロンプトの指示は簡易なものを使用したので、 改良の余地があります

Slide 19

Slide 19 text

結果:PDF資料を人間が理解する形で文字起こしできた # セキュリティ体制 ## ISMS・ITSMS上の役割 役割 | 氏名 --- | --- 最高情報責任者(CIO) | Aさん 情報セキュリティ管理責任者(CISO) | Aさん サービス管理責任者 | Aさん ISMS事務局、ITSMS推進事務局 | Aさん ITSMS推進(AWS事業本部オペレーション部) | Aさん ...(※ 略)... AWS事業本部(モダンアプリケーションコンサルティング 部) | Aさん | Aさん AWS事業本部(サービス企画室) | Aさん | Aさん CX事業本部(Business 部) | Aさん | Aさん CX事業本部(Delivery 部) | Aさん | Aさん データアナリティクス事業本部(インテグレーション部) | Aさん | Aさん ...(※ 略)... 不要な情報(フッター・ページ数)を削除 ページの切れ目があってもつなげて出力 表部分をMarkdown形式で出力 (Claude3は1リクエストに複数画像を含めることができる) (※ 略) は正しい結果が出力されていました

Slide 20

Slide 20 text

参考: ※ 厳密な比較ではありません GeminiやGPT4(2024年2月時点)では、 文字起こしにちょっとミスがあった Claude3 Opusでは、同様のプロンプトで、 ミスなく文字起こしできた → Claude3 Opusの方が良さそう、という印象 GPT4での文字起こし結果 富 → 高 (複数枚の画像を同時に渡せるのも使いやすい)

Slide 21

Slide 21 text

補足:認識できる文字サイズ・OCRで補助 https://dev.classmethod.jp/articles/simple- examination-on-recognizable-char-size-with-claude-3/ https://dev.classmethod.jp/articles/fix-claude3-text- recognition-mistake-with-azure-document- intelligence/

Slide 22

Slide 22 text

まとめ・言いたかったこと RAGの悩みポイント ・ドキュメントの読み込まれ方が人間の意図と異なる(ことがある) 解決方法 ・マルチモーダルなモデルを使って、Markdown形式で文字起こし → 試した感じできそう ・OCR AIとの組み合わせも使えそう Claude3すごい良さそう