Bedrock Knowledge baseを使って今年の上半期のニュースを聞いてみた (リベンジ編)

Bedrock Knowledge baseを使って今年の上半期のニュースを聞いてみた (リベンジ編) KMiura(@k_miura_io)

自己紹介 • 三浦耕生(こうき) • Acallのバックエンドエンジニア • JAWS UG名古屋＆神戸運営
• Cloudflare Meetup名古屋運営 • 鯱.py 運営 @k_miura_io koki.miura05

このイベントでやったLT覚えてますか？

LTについて今北産業 • Step FunctionsでNews APIを使ってその日のヘッドラインニュースをSlackのAPIで投稿するワークフロー作った • Slackで投稿するだけではなくAPIのレスポンスログをS3に溜め込むETL的な機能も用意
• S3に溜め込んだデータをそのままBedrockに使うという話

S3のデータをKnowledgebaseにできる仕組みがあるらしい • Amazon BedrockのKnowledgebaseを使うとS3をソースにフルマネージドなRAGを実現できそう • 調べてみると外部のベクトルデータベースを使う方法があるが、わざわざ用意しなくても OpenSearch Serverlessを使うことができる(むしろ今のところそれが推奨っぽい)

実際にデモチャットで確認 • 答えは帰って来るがなんか微妙… • 日付周りが結構弱い

どうすれば精度上がりそう？ • 読み込ませたソースになっているファイルがAPIのレスポンスをそのまま保存しているだけなのでCSVとかで整形したほうがいいかも • ソースごとにメタデータ情報を記載したjsonファイルをバケットに足すことで応答精度が上がるそう今回はこれを試してリベンジする話

データ生成のフロー • すでに存在するAPIのレスポンスログを溜め込むバケットにデータが保存されたことをトリガーでKnowledge Base用のデータを整形 • SQSに流し込んでLambdaでCSVとmetadataのjsonの生成を自動化 • ベクトルデータベースにはPineconeを使用(OpenSearchは高すぎるｗ)

生成したデータフォーマット

metadata { "metadataAttributes":{ ”year":”2024" } }

それっぽい返答が出るようになった

上半期のニュースも抽出できた

まとめ • BedrockのKnowledge Baseに対応したデータフォーマットに変換することでAWS上で手軽にRAGを実現できる • metadataを活用することでより適切なデータを取得できた • 多少コードが書けるとデータ整形の自動化がだいぶ楽になる

宣伝 https://bit.ly/4dBnLIf

Bedrock Knowledge baseを使って今年の上半期のニュースを聞いてみた(リベ...

Bedrock Knowledge baseを使って今年の上半期のニュースを聞いてみた (リベンジ編)

KMiura

More Decks by KMiura

Featured

Transcript