Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LangGraphとFlaskを用いた社内資料検索ボットの実装④GithubRetriever構築編
Search
熊懐葵
April 26, 2025
Technology
120
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
LangGraphとFlaskを用いた社内資料検索ボットの実装④GithubRetriever構築編
機械学習の社会実装勉強会 第46回 (
https://machine-learning-workshop.connpass.com/event/352980/
) の発表資料です。
熊懐葵
April 26, 2025
More Decks by 熊懐葵
See All by 熊懐葵
AI時代のインターン研修再設計 コーディング力から課題創出・業務遂行力へ
aoikumadaki
0
140
Claude Codeで進めるAWSリソースのTerraform移行
aoikumadaki
0
110
n8nで定期成果報告の資料づくりを自動化する
aoikumadaki
0
250
LangGraphとFlaskを用いた社内資料検索ボットの実装③アプリケーション構築編
aoikumadaki
0
170
LangGraphとFlaskを用いた社内資料検索ボットの実装②Retriever構築編
aoikumadaki
0
250
LangGraphとFlaskを用いた社内資料検索ボットの実装①AIエージェント構築編
aoikumadaki
0
480
StreamlitとLangChainを使った表画像OCRアプリの実装
aoikumadaki
3
930
LangChainでデータ分析エージェントを作ってみる
aoikumadaki
0
380
AWS LambdaとLangSmithを使った社内レポート添削システムMinervaの実装
aoikumadaki
0
410
Other Decks in Technology
See All in Technology
Terraformモジュールは、なぜ「魔境」化するのか
hayama17
2
220
Databricks における 生成AIガバナンスの実践
taka_aki
1
360
「嘘をつくテスト」の失敗例から学ぶ 良いテストコード #frontend_phpcon_do
asumikam
0
590
AIにフローを作らせようとして挫折した話
hamatsutaichi
0
240
DevOps Agentで始めるAWS運用 〜フロンティアエージェントが変える運用の現場〜
nyankotaro
1
340
"何を作るか"を任される エンジニアは、どう育つのか
yutaokafuji
1
270
サイバーセキュリティ概論 / Introduction to Cybersecurity
ks91
PRO
0
170
[モダンアプリ勉強会]今更聞けないGit/GitHub入門
tsukuboshi
0
310
LLMと共に進化するプロセスを目指して
ymatsuwitter
12
3.7k
小さくはじめるSLI/SLO ~育てながら組織に定着させる実践知~ / Starting Small with SLI/SLOs: Building Adoption Through Continuous Growth
nari_ex
0
280
機械学習を「社会実装」するということ 2026年夏版 / Social Implementation of Machine Learning June 2026 Version
moepy_stats
2
540
個人の発見を、組織の知恵に 〜生成AI活用を"探索"から"組織の仕組み"へ〜
kintotechdev
3
1.1k
Featured
See All Featured
Mind Mapping
helmedeiros
PRO
1
240
How to Build an AI Search Optimization Roadmap - Criteria and Steps to Take #SEOIRL
aleyda
1
2.1k
More Than Pixels: Becoming A User Experience Designer
marktimemedia
3
430
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.5k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
49
10k
The browser strikes back
jonoalderson
0
1.2k
4 Signs Your Business is Dying
shpigford
187
22k
Ten Tips & Tricks for a 🌱 transition
stuffmc
0
130
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
11
940
Chasing Engaging Ingredients in Design
codingconduct
0
210
Neural Spatial Audio Processing for Sound Field Analysis and Control
skoyamalab
0
330
Optimizing for Happiness
mojombo
378
71k
Transcript
LangGraphとFlaskを用いた 社内資料検索ボットの実装 ④GithubRetriever構築編 2025/4/26 機械学習の社会実装勉強会 第46回 熊懐 葵
目次 • Sofiaについて • 背景と目的 • 使い方 • これまでの実装 •
Github Retriever 構築 • ① APIクライアント • ② GithubRetriever • ③ 統合 2
プロジェクト・業務データ 背景と目的 ディースタッツでは、複数のソフトを連携させてプロジェクトを推進している Slack Jira Confluence Github 連携・通知 タスク管理 業務資料
開発 データ・ノウハウを活かして業務効率化をしたい 3
社内資料検索ボット Sofia Sofia…Slack上で質問すると、Jira・Confluence・Github(←New!)の情報を元に 回答してくれるチャットボット Slack @Sofia <質問> 回答 + 参考URL
4
Github 社内資料検索ボット Sofia 社内情報にすぐ アクセスできる 5 Sofia…Slack上で質問すると、Jira・Confluence・Github(←New!)の情報を元に 回答してくれるチャットボット
社内資料検索ボット Sofia 概念図 Slack App Jira Confluence Cloud Run 6
1. 質問 2. HTTPリクエスト 3. 資料検索 4. 回答生成 7. レスポンス 6. 返信 Github
社内資料検索ボット Sofia 今回の実装 Slack App Jira Confluence Cloud Run 7
1. 質問 2. HTTPリクエスト 4. 回答生成 7. レスポンス 6. 返信 Github 3. 資料検索
Jira Retriever, Confluence Retrieverはどう作っていたか 8 1. まず、API クライアントを用意する → APIサーバーと通信する(リクエストを送信しデータを取得する)オブジェクト
Sofia Jiraクライアント(既にある) Confluenceクライアント(既にある) APIクライアント APIサーバー リクエスト!!! ...(何を?)
Jira Retriever, Confluence Retrieverはどう作っていたか 9 2. APIクライアントに組み込まれた、メソッドを使ってデータを取得する Jiraクライアント(既にある) Confluenceクライアント(既にある) Sofia
APIクライアント APIサーバー Aをリクエスト! Aのデータ Cをリクエスト! Bをリクエスト! Bのデータ Cのデータ メソッドを指定 してリクエスト レスポンス
Jira Retriever, Confluence Retrieverはどう作っていたか 10 3. 最後に、Retrieverを用意する → LLMのプロンプトに与える情報を取得するオブジェクト Sofia
Jira Retriever(作った) Confluence Retriever(作った) APIクライアント Aをリクエスト! Aのデータ Retriever 使うJira情報 選別 APIサーバー Retrieverオブジェクト Aのデータ
Github Retrieverを作るには? 11 Jira、Confluence RetrieverではRetrieverオブジェクトを作れば良かったが... Sofia APIクライアント Aをリクエスト! Aのデータ Retriever
使うJira情報 選別 APIサーバー APIクライアント Retriever APIサーバー Sofia Githubから情報を取得するAPIクライアントと、選別するRetrieverを作る!
Github Retrieverの構築過程 12 APIクライアント インター フェース作成 認証プロセス メソッド定義 Github Retriever
クエリ生成 Retriever作成 統合 main.py graph.py
APIクライアント > インターフェース作成 APIクライアントの設計図(=インターフェース)を書く 13 Abstract Base Classを使う @abstractmethodにより、 Github
APIで作るメソッドを強制する (作らないとエラーになる) 継承 テスト用API作成を楽にする
APIクライアント (全体構成) 15 GithubAPI ├─ __init__:↓のget関数たちを使ってアクセストークンを取得 ├─ get_jwt ├─ get_installation_id
├─ get_iat ├─ _request:内部用の HTTP リクエスト関数(GET/POST) ├─ list_repositories ├─ list_commits ├─ search ├─ get_repo_contents 認証(共通) _request を使って 何らかの情報 を取得
APIクライアント > 認証プロセス整備 16 Githubサーバーから情報を取得するために認証が必要 1. Json Web Token(JWT)を取得 2.
Installation idを取得 3. Installation Access Token(IAT)を取得
APIクライアント > 認証プロセス整備 17 jwt発行 • トークン生成の時刻 • トークンの有効期限(最大10分) •
Github App本人確認 1. get_jwt : サーバーアクセス用アカウント(Github App)の身元証明 Client ID や Signing Key は Github App作成後に取得できる 本物です! どこのorgのApp ですか?
APIクライアント > 認証プロセス整備 19 このAppがD-stats org指定でリクエストを送ることができる 2. get_installation_id : Appがある場所を特定する
3. get_iat : Github Appのサーバーへのアクセス認可 本物です! トークンどうぞ D-stats Orgの Appへのリクエス トです!
参考: アクセストークンの発行手続きが複雑な理由 手軽なやり方: PAT(Personal Access Token)を発行する 20 スタートは簡単だけど... • (運用面:
組織のSecretを、特定の個人が管理しないといけない) • (運用面: 期限が切れたら手動で更新しないといけない) • セキュリティ面: 漏洩してしまうと何でもできてしまう 本物です!(認証) D-stats OrgのAppです!(Scope指定で認可) 操作権限を必要な分だけ絞って付与したいから、 「誰が」「どの範囲のscope(権限)で」を分けている (+時限式で柔軟に付与) Github App単位 PATは全権限を付与する
APIクライアント > 認証プロセス整備 21 まとめると、 GithubAPI ├─ __init__:↓のget関数たちを使ってアクセストークンを取得 ├─ get_jwt
├─ get_installation_id ├─ get_iat ├─ _request:内部用の HTTP リクエスト関数(GET/POST) ├─ list_repositories ├─ list_commits ├─ search ├─ get_repo_contents 認証(共通) _request を使って 何らかの情報 を取得 どのリクエストメソッドを使うに しても、最初に__init__で権限付 与している仕組み
APIクライアント > メソッド定義 22 GithubAPI ├─ __init__:↓のget関数たちを使ってアクセストークンを取得 ├─ get_jwt ├─
get_installation_id ├─ get_iat ├─ _request:内部用の HTTP リクエスト関数(GET/POST) ├─ list_repositories ├─ list_commits ├─ search ├─ get_repo_contents 認証(共通) _request を使って 何らかの情報 を取得
APIクライアント > メソッド定義 23 1. リクエスト用の共通メソッドを作る トークンを入れて認証済みリク エストにする リクエスト先URL(https://api.github.com +
{path} 2. 各メソッドを定義する(例: commit情報取得リクエストの場合
APIクライアント > メソッド定義 24 ※ 欲しい情報によって、path(リクエストURL)を変える リクエスト先URL 欲しい情報とURLの対応はこちら: https://docs.github.com/en/rest/authentication/endpoints-available-for- github-app-installation-access-tokens?apiVersion=2022-11-28
メソッド名 変数 path list_repositories owner, type /orgs/{owner}/repos?type={type} list_commits owner, repo /repos/{owner}/{repo}/commits search query /search/code?q={query}&type=code get_repo_contents owner, repo, path /repos/{owner}/{repo}/contents/{path}
Github Retrieverの構築過程 25 APIクライアント インター フェース作成 認証プロセス メソッド定義 Github Retriever
クエリ生成 Retriever作成 統合 main.py graph.py
検索queryか ら回答に用い る情報を取得 質問から検索 queryを生成 Github Retriever (作るもの) 26 get_generate_github_query_chain
├─ EXAMPLES (json) ├─ REPO_INFO (json) │ └─ (update_gh_repos)─ │ │ │ GithubRetriever ├─ __init__ ├─ _get_relevant_documents─ │ │ └─ Documentを返す GithubAPI list_repositories list_commits get_repo_contents GithubAPI search get_repo_contents
Github Retriever > クエリ生成 27 get_generate_github_query_chain (質問から検索queryを生成) → LangChainを使って作る(プロンプト+LLMモデル+出力方法) クエリの具体例・各リポジトリの情報・時間・質問
▼EXAMPLES: 質問とクエリ例 ▼REPO_INFO: リポジトリの詳細 リポジトリごと 質問から検索クエリを生成してください+例+etc
28 GithubAPIのメソッドを使ってjsonファイルを作る 全リポジトリの基本情報を取得するメソッド 参考: REPO_INFO用jsonを更新する(update_gh_repos.py) コミット情報を取得するメソッド 直近5つのコミットメッセージを入れる ファイルの中身を取得するメソッド READMEの中身を入れる jsonに書き込む
Github Retriever > クエリ生成 29 get_generate_github_query_chain (質問から検索queryを生成) → LangChainを使って作る(プロンプト+LLMモデル+出力方法) 検索クエリからURLを作る
検索クエリとURLの型付き オブジェクトを出力 質問からクエリ生成
社内資料検索ボット Sofia Slack @Sofia <質問> 回答 + 参考URL 30 ここに入れる
(踏むとGithubの検索画面へ)
Github Retriever > Retriever作成 31 GithubRetriever (検索queryから回答に用いるDocumentを取得) _get_relevant_documents下に 処理を書くと… graphで使う時.invokeで動かせる
生成したクエリ 生成したクエリ GithubRetriever ↑JiraRetriever ※graph.py searchメソッド でクエリ検索
参考: searchメソッドで取得できる情報 32 例: Github内のterraform管理について教えて → query = repo:D-stats/terraform-configuration リポジトリ内の初めから30ファイル(デフォルト)
query+type=code オプションで1000ファイルまで
Github Retriever > Retriever作成 33 GithubRetriever (検索queryから回答に用いるDocumentを取得) ファイルごとに中身を取得する 30ファイルで9秒弱かかる
Github Retriever > Retriever作成 34 GithubRetriever (検索queryから回答に用いるDocumentを取得) 結果をDocument形式でreturn Jira/Confluence Retrieverと同じ形式
←jira.py
統合(簡単!) 35 Retrieverを用意 main.py 追加
統合(簡単!) 36 Graphに追加する main.py confluence...?揃えたい(気持ち) Graph内部も少し手直し graph.py
Sofiaの GithubRetriever 構築 振り返り 37 APIクライアント インター フェース作成 認証プロセス メソッド定義
Github Retriever クエリ生成 Retriever作成 統合 main.py graph.py Jira/Confluence には既存のものがあるが、Githubにはないので作った Jira/Confluence Retriverとほぼ同じ設計で作れる ちょっと書き換えるだけ
ご清聴ありがとうございました