RAGを使ったTeamsチャットボット開発：Azureを使って安全に社内問い合わせ対応ボット構築

Teamsチャットボット開発： Azureを使って安全に社内文書を引用出来ます大量データから該当箇所を取得するボットを構築する方法

会社名：株式会社 pipon 所在地：東京都中央区銀座 1-12-4N&E BLD.7階代表取締役北爪聖也（きたづめせいや）自社サービス：ヘルスケアアプリの運営会社経緯
2019年9月株式会社piponを創業。 2020年4月人工知能学会全国大会「単品定期通信販売における次回購入予測モデルの検証について」採択 2020年7月代表北爪の共著書籍『データ分析の進め方及びAI・機械学習導入の指南』発売 2021年3月バイエル薬品様　G4A Tokyo Dealmaker 2020に採択 2023年1月　ヘルスケアアプリ「ドクターボイス」リリース YouTubeアカウントデータサイエンスや ChatGPTを発信 https://www.doctor-voice.com/ 株式会社piponについて https://www.youtube.com/channel/UCiTy5n gKrKHvDldg9e6YcMw Mission：テクノロジーで世の中を効率化する

会社概要有名エンジニアの方とChatGPT利活用のイベントを行いメディアにも取り上げて頂くなど精力的に活動中です。元マイクロソフトレジェンドエンジニア中嶋聡様共同イベント自然言語処理を応用した自社サービス
研究開発領域におけるシステム開発エンジニア向け定期勉強会

piponの強み発信やエンジニア組織運営の工夫によって最新かつ高度な技術を保有し続けることが弊社の強みです。メディアでの発信優秀なエンジニアが発信を受取り集まる各々が学習し積極的に共有する組織文化最新技術の知見が集合知として蓄積
提供価値の最大化

サービス紹介高度な非言語データ解析や自然言語解析(ChatGPT活用等)を強みにした売上向上の仕組み、業務効率化システム開発をご提供しております。対応可能な課題と技術領域 ⇒高度な技術をもとに幅広い分析、開発が可能マーケティング業務効率化言語データ (ChatGPT)
貴社保有非言語データ piponで対応可能な領域実績がある業界やテーマ業界テーマ小売製造業研究開発促進システム開発コンサルティング社内業務効率化システム開発 BPR 需要予測製薬マーケティング効果改善自動車データを用いた新規事業の PoC

今回の勉強会の目的 ChatGPTとTeamsなどのビジネスチャットを連携することでどんなボットを作れるのか、解説します。 RAGを説明する前に、一般的な自然言語解析からご説明します。その後、簡単なデモを解説させていただければと思います。例をご紹介したあとは、質問タイムが出来たらと考えています。

こういうことができます • 社内文書から調べたい疑問をチャットベースで質問できる • 質問に対する回答をボットが返してくれ、関連する社内文書を示してくれるメリット • 疑問を解消するために、無駄に多くの資料に目を通す必要がなくなる • 質問の意味を理解してくれるため、抽象的な質問でも文書を検索できる
• 指示すれば社内文書のな用を要約してくれる

技術構成社内文書の保存・検索回答の生成 OpenAIへのリクエスト Cognitive Searchへのリクエスト Botのバックエンド Botのフロントエンド

デモ

フィードバックをダッシュボード化して運用改善ダッシュボードを構築し、利用数、悪い回答だったデータを集計し、運用改善を行う必要がある。

自然言語処理（NLP）とは？自然言語処理（NLP）とは、人間が日常的に使用する言語をコンピュータで分析する技術です。自然言語処理（NLP）に必要なステップ STEP01 形態素解析・分かち書き今日 / は
/ 塾 / に / 行っ / て / 、 / 数学 / を / 勉強 / し / た / 。 STEP02 ベクトル化 [0.02, 0.3, 0.5, 0.09, …] [0.4, 0.02, 0.65, 0.19, …] [0.6, 0.55, 0.2, 0.4, …] STEP03 機械学習

形態素解析・分かち書き形態素解析とは、品詞等の情報に基づいて、意味のわかる最小単位に文章を区切ることを言います。例文：「今日は塾に行って、数学を勉強した。」形態素解析 ※ 分かち書きとは？文章において形態素解析に従って語の区切りに空白を挟んで記述することです。

ベクトル化ー CountVectorizer ー CountVectrizerは、文章を単語毎の出現回数の表現に変換する手法です。文章 0 : Apple computer
of the apple mark 文章 1 : linux computer 文章 2 : windows computer CountVectorizerの例ベクトル化単語毎の頻度を数値ベクトルへ変換し分散表現を得るという非常に単純な手法ですが、良い点は、文章の情報を出来るだけ落とさずに表現することが可能な点です。参考：機械学習〜テキスト特徴量（CountVectorizer, TfidfVectorizer）〜 (https://qiita.com/fujin/items/b1a7152c2ec2b4963160)

ベクトル化ー TF-IDF ー TF-IDFとは、TF（Term Frequency、単語の出現頻度）とidf（Inverse Document Frequency、逆文書頻度）という指標によって各単語を重み付けする手法です。文章 0
: 私はオレンジとリンゴではリンゴが好きだ。文章 1 : 私は以前は青森に住んでいたが、今は東京都に住んでいる。文章 2 : 私は青森産のリンゴが好きだ。 TF-IDFの例「私」は全文書に頻出する単語である一方、「オレンジ」は全ての文書の中で出現頻度が少ないです。頻出する単語と、出現頻度が少ない単語を重み付けして数値化すると下記のようになります。

ベクトル化ー Word2Vec ー word2vecは、文章を解析し、各単語を200次元などの数値ベクトル表現に変換する手法です。単語をベクトル化することで、単語同士の意味の近さを計算することが出来ます。ニューラルネットワークの隠れ層の重みの値を抽出することで非常に豊かな表現をすることが可能になったため、単語の足し算・引き算なども行えます。例：フランス
- パリ + 東京 = 日本

ベクトル化ー BERT ー BERT（Bidirectional Encoder Representations from Transformers）は、2018年10月にGoogleのJacob
Devlinらの論文で発表された自然言語処理（NLP）のための技術です。単語や文の表現を生成する際に前後の文脈を考慮するため、これ以前のNLPモデルよりも高度な意味理解を実現します。 BERTは左記のように多くの層があり、最終層の 1つ前の層を取得することでEmbeddingとして取り扱うことができます。参考：学習済みのBERTからEmbeddingを取得する (https://www.nogawanogawa.com/entry/bert_embedding)

Embedding API（OpenAI） OpenAIが提供している文章をベクトル化するAPI ベクトル化されたクエリと文章間の距離をCOS類似度等を用いることで計算可能 MODEL NAME TOKENIZER MAX INPUT TOKENS
OUTPUT DIMENSIONS Usage text-embedding-ada-002 cl100k_base 8191 1536 $0.0001 / 1K tokens Second-generation models ※ ほぼすべてのユースケースで text-embedding-ada-002 を使用することが推奨されている

ベクトル化分かち書きされたデータを数値ベクトルに変換する方法は様々な方法があります。代表的なベクトル化の手法(sparse:疎ベクトル/dense:密ベクトル) 1. CountVectorizer(sparse) 文章を単語毎の出現回数の表現に変換する手法 2. Term Frequency -
Inverse Document Frequency（TF-IDF）(sparse) 文書中の単語の重要度を評価する手法 3. Word2Vec(dense) 文章を解析し、各単語を200次元などの数値ベクトル表現に変換する手法 4. Bidirectional Encoder Representations from Transformers（BERT）(dense) 文脈や文章構造を考慮した手法 5. text-embedding-ada-002(dense) OpenAIが提供しているEmbeddingモデル

疎ベクトルと密ベクトルの違い • 疎ベクトル ◦ ベクトル要素の多くがゼロとなり、ベクトル次元が相対的に高いもの ◦ 例えば「準備」の語彙が i番目の要素に、「用意」の語彙が j番目の要素に、別々で取り扱われるため、類義語のような意図を加味する能力に劣る
◦ 学習される文章中の語彙の統計情報を利用するシンプルな方法なため、ライブラリやモデルの違いが検索精度の違いにそれほど寄与しない • 密ベクトル ◦ ベクトル要素の多くが非ゼロとなり、ベクトル次元が相対的に低いもの ◦ 例えば「準備」と「用意」の語彙を含む概念が i番目の要素で取り扱われるため、類義語のような意図を加味する能力に長ける ◦ 意図を加味する能力は、同様の概念をいかにまとめるかというベクトル化モデルの良し悪しに大きく依存するため、ライブラリやモデルの違いが検索精度の違いに大きく寄与する

ベクトル検索とはテキストや画像などのデータを、機械学習モデルなどを利用してベクトルで表現し、ベクトル間の距離を計算することで、類似するベクトルを検索する手法です。 Embedding [・・・] [・・・] [・・・] Vector [・・・] Vector
Embedding data similarity calculation Query Result

ベクトル検索の利点 Breast cancer is related with gene mutation キーワード検索検索した文章の意味を捉え
ずに、Breast Cancerや mutationという言葉をベースに検索した論文が出てきます。ベクトル検索 Breast Cancerの病態と mutaionに関連する遺伝子情報が記載された論文が出てきます。

RAG(Retrieval Augmented Gneration)とは • 文書をベクトル化してVector Storeに保存しておき、入力に関係しそうな文書を検索してプロンプトに含めて、その内容を踏まえてLLMに回答させます文書社内文書診療報酬明細
etc… 入力・質問 (プロンプト) 以下の文脈を利用して、質問の意図通りに回答してください。答えがわからない場合は答えを作ろうとせずわからないと答えてください。 {context} 質問：{question} 回答： ※大嶋さん(@oshima_123)の資料参考

HyDE(Hypothetical Document Embeddings) • HyDEでは、入力を直接ベクトル化するのではなく、LLMに仮説的に回答を作らせて、その回答をベクトル化して検索に使います文書社内文書診療報酬明細 etc…
入力・質問 (プロンプト) LLM 仮説的な回答を生成以下の文脈を利用して、質問の意図通りに回答してください。答えがわからない場合は答えを作ろうとせずわからないと答えてください。 {context} 質問：{question} 回答： ※大嶋さん(@oshima_123)の資料参考

Open Interpreterの追加機能も付けれます Open-Interpreterとは、自然言語の指示に対してコードを生成し、それをローカルで動かすことができるツールです。 ChatGPT Plusで提供されているCode Interpreterのローカル版とイメージするとわかりやすいかと思います。

Code InterpreterとOpen Interpreterの比較 Open Interpreter Code Interpreter 動作環境ローカル環境で動作可能 ChatGPTの画面上
使用可能なパッケージライブラリが使用可能事前にインストールされたもののみ実行時間とファイルサイズ制限なし実行時間とサイズに制限ありセキュリティユーザー確認が必要ユーザー確認のプロセスが異なる料金無料（オープンソース）+OpenAI API使用料金月額20ドル（有料プラン）多様なプログラミング言語に対応 Python、JavaScriptなど Pythonのみ bash、shell 動かせる動かせない

最後に耳寄りな情報を LLM Tokyoという勉強会を開催しています。

RAGを使ったTeamsチャットボット開発：Azureを使って安全に社内問い合わせ対応ボット構築

RAGを使ったTeamsチャットボット開発：Azureを使って安全に社内問い合わせ対応ボット構築

北爪聖也 PRO

More Decks by 北爪聖也

Featured

Transcript

Teamsチャットボット開発： Azureを使って安全に社内文書を引用出来ます大量データから該当箇所を取得するボットを構築する方法

会社名：株式会社 pipon 所在地：東京都中央区銀座 1-12-4N&E BLD.7階代表取締役北爪聖也（きたづめせいや）自社サービス：ヘルスケアアプリの運営会社経緯

会社概要有名エンジニアの方とChatGPT利活用のイベントを行いメディアにも取り上げて頂くなど精力的に活動中です。元マイクロソフトレジェンドエンジニア中嶋聡様共同イベント自然言語処理を応用した自社サービス

技術構成社内文書の保存・検索回答の生成 OpenAIへのリクエスト Cognitive Searchへのリクエスト Botのバックエンド Botのフロントエンド

デモ

フィードバックをダッシュボード化して運用改善ダッシュボードを構築し、利用数、悪い回答だったデータを集計し、運用改善を行う必要がある。

自然言語処理（NLP）とは？自然言語処理（NLP）とは、人間が日常的に使用する言語をコンピュータで分析する技術です。自然言語処理（NLP）に必要なステップ STEP01 形態素解析・分かち書き今日 / は

ベクトル化ー CountVectorizer ー CountVectrizerは、文章を単語毎の出現回数の表現に変換する手法です。文章 0 : Apple computer

ベクトル化ー TF-IDF ー TF-IDFとは、TF（Term Frequency、単語の出現頻度）とidf（Inverse Document Frequency、逆文書頻度）という指標によって各単語を重み付けする手法です。文章 0

ベクトル化ー BERT ー BERT（Bidirectional Encoder Representations from Transformers）は、2018年10月にGoogleのJacob

Embedding API（OpenAI） OpenAIが提供している文章をベクトル化するAPI ベクトル化されたクエリと文章間の距離をCOS類似度等を用いることで計算可能 MODEL NAME TOKENIZER MAX INPUT TOKENS

ベクトル検索の利点 Breast cancer is related with gene mutation キーワード検索検索した文章の意味を捉え

RAG(Retrieval Augmented Gneration)とは • 文書をベクトル化してVector Storeに保存しておき、入力に関係しそうな文書を検索してプロンプトに含めて、その内容を踏まえてLLMに回答させます文書社内文書診療報酬明細

HyDE(Hypothetical Document Embeddings) • HyDEでは、入力を直接ベクトル化するのではなく、LLMに仮説的に回答を作らせて、その回答をベクトル化して検索に使います文書社内文書診療報酬明細 etc…

Code InterpreterとOpen Interpreterの比較 Open Interpreter Code Interpreter 動作環境ローカル環境で動作可能 ChatGPTの画面上

最後に耳寄りな情報を LLM Tokyoという勉強会を開催しています。