Pythonも書けない、OpenAIもよくわからない初学者が雰囲気でLlamaIndex触った話です
苦労を「重ねて」実装したのに一掃された2023年5月18日レイヤード Meetup LT会 vol.1
View Slide
楽しんでますか??
今日の大まかな流れ1. 自己紹介2. 流行りもの3. 実現したいこと4. 実際にやってみたこと5. 衝撃を受けたこと6. まとめ
自己紹介大分(22年) → 東京(11年) → 福岡(2021.11~)→ 佐賀(2023.9予定?)midnight480midnight480midnight480https://astro.midnight480.com/● JAWS-UG (Japan AWS - User Group )○ 佐賀支部 - 運営○ 福岡支部 - 運営支援○ 大分支部 - 福岡出張所● AWS Startup Community○ 福岡運営● Microsoft Startup Tech Community New!!○ 運営ほかにもJagu'e'r 九州分科会(GoogleとNDAが必要)に参加したり、Fusicさんやヌーラボさんのイベント、エンジニアカフェに出没します柴尾 哲也(しばお てつや)
流行りものみなさん、生成AI周りの最新を追えていますか?
社内の状況としては● OpenAI○ ChatGPT Plus を全社員○ Platform 側のOrgにMember招待■ Opt Out申請■ GPT-4 API 申請■ Plugin申請● Azure OpenAI Service○ AzureAD側整備(セキュリティグループ)■ 国内外の社内利用者○ GPT-4申請、DALL・E申請、Codex申請 ● GitHub Copilot○ 手続きまとめUser 管理の悩ましいOwner と Readerの2つしかないし運用している人いたら話しましょう
実現したいことInput Output
実現したいことInput● Notion API○ ブロック単位で取得○ 本文を取得○ CSVで保存(結果の確認用にブロック IDなど)● OpenAI(Azure OpenAIでもいい)○ EmbeddingsそれらをPythonで実装
実際にやってみたこと● Notionのデータの持ち方が厄介○ すべてのオブジェクトをブロックとして保持■ jq -c 'path(..)' or jq-searchkey を使って深さを確認
実際にやってみたこと● Azure でやってみる○ Azure App Service + Blob Storage■ デプロイできず断念○ Azure Function + Blob Storage Service■ デプロイまでは出来たが、 Blob Storageに出力されず断念● AWS でやることにする○ AWS Lambda + S3■ AWS CDK v2のLambdaのデプロイ手間で断念■ Serverless FrameworkでデプロイしてS3にCSV出力できた
実現したいこと● OpenAI(Azure OpenAIでもいい)○ Embeddings■ Azure公式Docsに従えば実現できた( Google Colab上)● text-embedding-ada-002 はダメで(環境要因?)● text-search-curie-doc-001 だとできたhttps://learn.microsoft.com/ja-jp/azure/cognitive-services/openai/tutorials/embeddings
Notionから出力するところを改善したい「LangChainとかLlamaIndexとか使ってみると楽になるんじゃない?」
LlamaIndexでやってみるNotion のコネクタと学習部分を作ってみる簡単にするなら、これで全部前処理が「\n\n」除去だけなので注意
まとめ● Azure Functionのデプロイは簡単だった○ func new –name ${DIrectory} –template “Timer trigger”■ AWSで言えば、AWS Lambda + Evnetbridge Rulesをひと纏め● AWS CDK でLambda(Pythonと追加モジュール)は少し手間で断念○ https://aws.amazon.com/jp/blogs/news/lambda-managed-by-cdk/● Serverless FrameworkではDockerあれば簡単○ Build時にrequirements.txtを見てAssetを作成する過程でDocker内で処理する● LangChainやLlamaIndexといったライブラリは初心者にとって有益○ 有識者からすると前処理が不足していると感じることもある○ 開発が盛んなので破壊的変更、 β版メソッドが使えなくなることもある
LlamaIndexで参考にしたものの2023.03.23https://dev.classmethod.jp/articles/llamaindex_with_notion-loader/https://github.com/jerryjliu/llama_index/issues/3263
宣伝2023/05/24(水) 19:00 〜 21:00https://jawsug-saga.doorkeeper.jp/events/1555412023/06/17(土) 13:00 〜 17:00https://jawsug-saga.doorkeeper.jp/events/1555422023/10/7(土)JAWS Festa 2023in Kyushuhttps://jft2023.jaws-ug.jp/8/19(土)にもクラウド女子会・佐賀・長崎合同で予定全国からAWSエンジニアが福岡に来ます
Thank you for your time 😊
Thank you for Bing Image Creator 😊