PandasAI：生成AIがデータ分析業務にもたらすパラダイムシフト

by negi111111

Embed

Start on current slide

Slide 1

Slide 1 text

Slide 2

Slide 2 text

© NTT Communications Corporation All Rights Reserved. 2 「突然ですか…今からデータ分析部署に移動です」   背景設定：「あなたはデータ分析コンサルティングの現場担当者です。今回、小売業界におけるデータ分析プロジェクトの分析担当者としてアサインされました。クライアントであるウォルマートの重鎮と共にプロジェクトを進める必要があり、クライアントからの下記の質問に答えて下さい。」    ボス＜「早速で悪いんだけど、顧客から以下の回答を求められてるんだ。Pythonのスペシャリストって聞いてるよ、Python使えるってことは分析もできるんだよね？よろしく！」      ❖ 売上高が最大である店舗はどこだろう？  ❖ 売上が大きく変動する店舗はどこだろう？  ❖ 成長率が高いのはどの店舗はどこだろう？  ➢ 結果が良い店舗はノウハウを真似したい！  

Slide 3

Slide 3 text

© NTT Communications Corporation All Rights Reserved. 3 本日のゴール   ❖ PandasAIがなにかわかる  ❖ 動作原理について理解する（デモ有）  ❖ データ分析の雰囲気がわかる  ❖ データ分析における生成AI事例を理解する    ❖ 前提知識  ➢ ChatGPTを知っている  ➢ Pythonの基礎的な文法  ➢ オブジェクト指向の考え方  ■ ライブラリが普通に使えればOK！  ➢ OpenAI（Azure）でAPIキーが発行できる  ■ お試し程度なら無料分で十分すぎます   

Slide 4

Slide 4 text

© NTT Communications Corporation All Rights Reserved. 4 「突然ですか…今からデータ分析部署に移動です」   背景設定：「あなたはデータ分析コンサルティングの現場担当者です。今回、小売業界におけるデータ分析プロジェクトの分析担当者としてアサインされました。クライアントであるウォルマートの重鎮と共にプロジェクトを進める必要があり、クライアントからの下記の質問に答えて下さい。」    ボス＜「早速で悪いんだけど、顧客から以下の回答を求められてるんだ。Pythonのスペシャリストって聞いてるよ、Python使えるってことは分析もできるんだよね？よろしく！」    ❖ 売上高が最大である店舗を教えてください。  ❖ 売上が大きく変動する店舗を教えて下さい。  ❖ 2012年第3四半期において、四半期ごとの成長率が高いのはどの店舗か教えて下さい。  ❖ 全店舗を合わせた非ホリデーシーズンの平均売上高よりも高い売上高を持つホリデーシーズンを見つけてください。  ❖ 一週間後の店舗の需要予測の売上を予測して下さい。  ❖ データから得られるインサイトについて可能な限り教えて下さい。   

Slide 5

Slide 5 text

Slide 6

Slide 6 text

© NTT Communications Corporation All Rights Reserved. 6 ❖ PythonやSQLを使用してデータ分析を行っている人：  ➢ 生成AIの活用により、複雑なコードを書かずに分析作業を効率化したい    ❖ SQLやPythonに慣れていない人：  ➢ データを扱うときに時間と労力を節約したい  ➢ （自然言語でデータにクエリを投げたい）    ❖ データ分析の自動化に興味がある初心者から中級者    どんな人に聞いてほしいか  

Slide 7

Slide 7 text

© NTT Communications Corporation All Rights Reserved. 7 ❖ 生成AIがデータ分析業務にもたらすパラダイムシフトとして「複雑な分析関連コードを書く代わりに、自然言語による対話的なデータ分析」を本セッションを通じて体験してみませんか？    ❖ 本セッションでは、生成AIを利用したデータ分析の効率化と自動化に焦点を当て、特に、自然言語によるデータ分析機能を提供するPandasAIというライブラリの可能性を紹介します。    ❖ 実世界のデータ分析課題にPandasAIをどのように適用できるか、そのベストプラクティスを共有し、データ処理、クリーニング、可視化、および特徴量生成のプロセスを簡略化する方法を提示します。      目的 

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

© NTT Communications Corporation All Rights Reserved. 12 機械学習が失敗するパターン       ❖ できない精度を求める  ➢ サイコロの次の目を当てることはできない  ➢ 同じように、精度の限界がある    ❖ 人にとって簡単なタスクをやろうとする  ➢ 少ない情報から推論するのは人間が得意  ➢ 逆に大量の情報から判断する必要がある時は機械が得意    ❖ ボトルネックが別にある  ➢ アクションを取るのが人だったり、人が途中に介在する  ➢ 量と速度のメリットをいかに活かすか   

Slide 13

Slide 13 text

© NTT Communications Corporation All Rights Reserved. 13 「機械にやらせるなら、ルールを書けば？」       ❖ 俗にルールベースと呼ばれる方法  ➢ あらかじめ決めた基準に沿って分類  ❖ 最初は精度が悪いががんばれば意外とどこまでも良くなる    専門知識犬: 大きな耳、色は2色… 猫: やや小さい耳、　色は三色… 例1. 犬、猫を見分ける方法をコンピュータに教え込む方法を考えてみる。

Slide 14

Slide 14 text

© NTT Communications Corporation All Rights Reserved. 14 ルールに基づく判断の限界   ❖ 人手で書いたルールはすぐ複雑、膨大になる  ➢ 数万行のスクリプト  ➢ どこを変えたらいいかわからない  ➢ 条件を追加したら何が起こるか・・・    ❖ 複雑化したルールは引き継げなくなる    専門知識犬: 大きな耳、色は2色… 猫: やや小さい耳、　色は三色… ルールベースの認識だと認識エラーが多発例えば耳に着目すると、　・同じ犬でも耳の形や色、質感はバラバラ　・むしろ猫に似た犬もいる。　・また、写っている状態やポーズ、によっても　　見え方がかなり変わってくる。

Slide 15

Slide 15 text

© NTT Communications Corporation All Rights Reserved. 15 生成AIは何ができるものなのか？   イラストや文章など、創造的かつ現実的なアウトプットを生み出すことができることから、急速な広がりを見せている   ❖ 文章生成： ChatGPT、Bard、Perplexity、Bing Chat ❖ 画像生成： DALL-E 3、Stable Diffusion、Midjourney  ❖ 動画生成： Make-a-Video、GEN-2  ❖ 音楽・音声生成：Mubert、coqui  ❖ プログラム生成：Copilot（最近はOffice系と連動）  “ホテルの大きなイベントホールで、生成 AIについてプレゼンテーションをしている人がおり、その人の前にはたくさんの聴衆がいる画像 "  https://www.bing.com/  

Slide 16

Slide 16 text

Slide 17

Slide 17 text

© NTT Communications Corporation All Rights Reserved. 17 言語モデルとは？   テキストデータを元に、言葉の並びや文の構造を学習し、新しい文を生成したり、次に来る単語を予測する計算モデル  I like machine ？  learning (0.89232434) food (0.00000212)  a (0.00000092) XXXXX (・・・・・・)  言語モデル

Slide 18

Slide 18 text

Slide 19

Slide 19 text

© NTT Communications Corporation All Rights Reserved. 19 大規模言語モデルの仕組み（最近のパターン）   テキスト  データテキスト  データテキスト  データ大規模言語モデル  （LLM）  翻訳文章要約 Q&A  感情分析各タスクファイン  チューニング  or Few/Zero-shot Learning 超大量のテキストデータを元に学習させた事前学習済みモデル  ＋  タスクに合わせたファインチューニング or Few/Zero-shot Learning(*後述）  事前学習済みモデル 

Slide 20

Slide 20 text

Slide 21

Slide 21 text

© NTT Communications Corporation All Rights Reserved. 21 What is Data Science?   大きく三象限に分けて説明されることが多い      Statistical Human Computational 出典 Science and data science：https://www.pnas.org/content/114/33/8689 確率的モデルによる複雑なデータの表現高次元データの縮約因果関係の推定言語: 数学や確率論最適化アルゴリズムの実装データ収集 (サンプリング ) 分散コンピューティング言語: プログラミング問題領域の理解可視化、分析結果のレポートモデル/収集データの選択共通言語化されていない

Slide 22

Slide 22 text

© NTT Communications Corporation All Rights Reserved. 22 What is Data Science?   “Crucially, the data scientist solves the problem iteratively and collaboratively with the domain expert.”  →重要なのは、データサイエンティストがドメインエキスパートと反復的かつ協調的に問題を解決することである。  出典 Science and data science：https://www.pnas.org/content/114/33/8689 Statistical Human Computational 確率的モデルによる複雑なデータの表現高次元データの縮約因果関係の推定言語: 数学や確率論最適化アルゴリズムの実装データ収集 (サンプリング ) 分散コンピューティング言語: プログラミング問題領域の理解可視化、分析結果のレポートモデル/収集データの選択共通言語化されていない

Slide 23

Slide 23 text

© NTT Communications Corporation All Rights Reserved. 23 Motivation   ❖ データ分析のプロセスの８割以上が前処理と言われる  ➢ 実際にAIモデルを作る部分はこの中のどれでしょう？                ❖ 適切なモデルを決めるためにも可視化が大事     ❖ 補足：ノーフリーランチ定理  ➢ なんでも切れる万能なモデルはない  ➢ データを眺めてモデルを選んでやる必要がある  出典：https://papers.nips.cc/paper/5656-hidden-technical-debt-in-machine-learning-systems.pdf

Slide 24

Slide 24 text

© NTT Communications Corporation All Rights Reserved. 24 世はまさに大可視化時代   出典：https://speakerdeck.com/jakevdp/pythons-visualization-landscape-pycon-2017 ❖ データ処理として　Pandas/Matplot/Seaborn/(Plotly)/(Numpy)　は必ず利用する 

Slide 25

Slide 25 text

© NTT Communications Corporation All Rights Reserved. 25 Numpy   ❖ 多次元配列の処理を得意とするライブラリ  ➢ C言語で書かれているので処理が高速  ❖ 行列計算は分析・機械学習の至るところで出てくる  ➢ Deep Learning界隈でよく耳にするGPUも  行列演算が高速にできる装置    ❖ 画像も音声もテキストも最後は多次元配列にしてからモデルに入れる  明度が埋め込まれた行列 8 8 I eat an apple 0 0 0 1 0 0 0 ... ... 語彙数 apple orange banana pineapple kiwifruit apple 単語数× 語彙数の行列 =>

Slide 26

Slide 26 text

© NTT Communications Corporation All Rights Reserved. 26 Pandas     ❖ 表形式のデータ構造に関して効率的にデータ操作を行うことができる  ➢ csvとかExcelとかで扱える様なデータならまずは初手 df: pd.DataFrame = pd.read_csv(“hoge.csv”)  ➢ DataFrame オブジェクトを介して高速で効率的なデータ操作    内部でMatplotlib の機能を使用して散布図、棒グラフ、箱ひげ図,...などを .plot() だけで実現  特定の行や列を選択またはフィルタリングなども抽出は直感的に記述可能  age_sex = titanic[["Age", "Sex"]]    出典：https://pandas.pydata.org/docs/getting_started/index.html#getting-started

Slide 27

Slide 27 text

Slide 28

Slide 28 text

© NTT Communications Corporation All Rights Reserved. 28 PandasAIとは   ❖ （雑に言うと）Pandas＋AI(ChatGPT)  ➢ 自然言語を利用してDataFrameから情報を抽出したり、グラフを描画したりできる  ➢ OSS公開されているのでOpenAI（Azure含む）でAPIキーがあれば無料で使える   ➢ SaaSとしても提供しているのでお金払えばAPIキーが無くても使える    ❖ 具体的には、  ➢ グラフによるデータの可視化、  ➢ 欠損値への対応による  データセットのクレンジング  ➢ 特徴生成によるデータ品質の向上    ❖ 誰向け  ➢ データサイエンティストやアナリスト  ➢ SQLやPythonに慣れていない人  ➢ データを扱う時間と労力を節約したい人  ➢ 複雑なコードを書くことなく  データに質問をすることができる  ■ SQLやPythonに慣れている人も！   

Slide 29

Slide 29 text

© NTT Communications Corporation All Rights Reserved. 29 PandasAIとは（特徴）   ❖ 自然言語クエリ：自然言語でデータに質問  ❖ データの可視化：グラフやチャートを作成してデータを視覚化  ❖ データクレンジング：欠損値に対処してデータセットをクレンジング  ❖ 特徴量生成：データ品質を向上  ❖ データコネクタ：CSV、XLSX、PostgreSQL、MySQL、BigQuery、  　　　　　　　　Databrick、Snowflakeなど、さまざまなデータソースに接続可能 

Slide 30

Slide 30 text

© NTT Communications Corporation All Rights Reserved. 30 PandasAIの仕組みは？   PandasAIは、生成AIモデルを使って自然言語クエリを理解・解釈し、PythonやSQLクエリに変換そのコードを使ってデータを操作し、結果をユーザーに返却  内部の実行過程は以下    ❖ 生成プロセスは以下の5段階（厳密には7段階）  ❖ PromptGeneration -> CodeGenerator -> CodeExecution ->   　　　　　　　　　　 ResultValidation -> ResultParsing    ➢ CacheLookup：データがキャッシュされているかどうかの確認  ➢ PromptGeneration ：プロンプトの生成  ➢ CodeGenerator ：プロンプトからコードを生成する  ➢ CachePopulation：生成されたデータのキャッシュ  ➢ CodeExecution ：コードの実行  ➢ ResultValidation ：実行結果の検証  ➢ ResultParsing ：結果をデータに解析する   

Slide 31

Slide 31 text

Slide 32

Slide 32 text

© NTT Communications Corporation All Rights Reserved. 32 LLMには以下の2つの課題が存在する。    LLMの潜在的な課題（参考）   この問題に対応するためにLLMを特定のドメインに適用させ、   その知識を更新するためにLLMへの知識注入といった考え方が存在する   一般的に考えられる対処法   1. ファインチューニング  2. 検索拡張生成（RAG）   c  c  ❖ 正確性と信頼性に関する課題   ➢ 誤った情報を生成するリスクが存在する  ❖ 剽窃に関する課題   ➢ 検出器を回避できるほど高品質なコンテンツを生成できるため剽窃が助長される今回はこちらに着目 ❖ LLMは膨大なデータセットによる事前学習により驚くべき知識レベルを発揮する   ❖ 一方で、LLMの表現可能な知識には次の２つの制限がある   ➢ 1. 新しい情報には対応できない  ➢ 2. 特定の専門知識の情報が不足している  よって、モデルの学習データ範囲を超えるクエリや最新の情報が必要な場合は顕著な制限を示す。   

Slide 33

Slide 33 text

Slide 34

Slide 34 text

© NTT Communications Corporation All Rights Reserved. 34 悪意のあるコードが生成された場合は？   ❖ 例えば、環境変数を抜き出す様なコードを指示したり、内部でAPIをRequestするようなコードが生成された場合  ➢ 生成してほしくないライブラリも多くあるはず（os moduleは使ってほしくない、など）    ❖ デフォルトでは、PandasAIはホワイトリストに登録されたモジュールを使用するコードのみを実行可能  ➢ 悪意のあるコードがサーバー上またはローカルで実行されるのを防ぐため    ❖ ただし、カスタムモジュールをホワイトリストに追加することは可能  ➢ custom_whitelisted_dependencies: List[str] = Field(default_factory=list)    

Slide 35

Slide 35 text

© NTT Communications Corporation All Rights Reserved. 35 PandasAIを理解するためのメインコンポーネント３つ   ❖ SmartDataframe  ➢ 単一のデータフレームを操作する場合はこちら    ❖ SmartDatalake  ➢ 複数のデータフレームを使用したクエリを利用する場合はこちら    ❖ Agent  ➢ エージェントは会話の状態を追跡し、複数ターンの会話に対応可能  ➢ Clarification questions（質問を明確に）  ■ クエリに答えるのに十分な情報を持っていない場合、明確な質問を要求する  ■ クエリに答えるためにより多くの情報を得るために、エージェントがユーザーに尋ねることができる最大3つの明確な質問を返します  ➢ Explanation（説明）  ■ ユーザーに与えられた答えを説明することができます  ➢ Rephrase Question（質問を言い換える）  ■ モデルから正確で包括的な回答を得るために質問を言い換える 

Slide 36

Slide 36 text

Slide 37

Slide 37 text

© NTT Communications Corporation All Rights Reserved. 37 「突然ですか…今からデータ分析部署に移動です」   背景設定：「あなたはデータ分析コンサルティングの現場担当者です。今回、小売業界におけるデータ分析プロジェクトの分析担当者としてアサインされました。クライアントであるウォルマートの重鎮と共にプロジェクトを進める必要があり、クライアントからの下記の質問に答えて下さい。」    ボス＜「早速で悪いんだけど、顧客から以下の回答を求められてるんだ。Pythonのスペシャリストって聞いてるよ、Python使えるってことは分析もできるんだよね？よろしく！」    ❖ 売上高が最大である店舗を教えてください。  ❖ 売上が大きく変動する店舗を教えて下さい。  ❖ 2012年第3四半期において、四半期ごとの成長率が高いのはどの店舗か教えて下さい。  ❖ 全店舗を合わせた非ホリデーシーズンの平均売上高よりも高い売上高を持つホリデーシーズンを見つけてください。  ❖ 一週間後の店舗の需要予測の売上を予測して下さい。  ❖ データから得られるインサイトについて可能な限り教えて下さい。   

Slide 38

Slide 38 text

© NTT Communications Corporation All Rights Reserved. 38 まとめ    ❖ PandasAIがなにかわかる  ❖ 動作原理について理解する（デモ有）  ❖ データ分析の雰囲気がわかる  ❖ データ分析における生成AI事例を理解する    ❖ 前提知識  ➢ ChatGPTを知っている  ➢ Pythonの基礎的な文法  ➢ オブジェクト指向の考え方  ■ ライブラリが普通に使えればOK！  ➢ OpenAI（Azure）でAPIキーが発行できる  ■ お試し程度なら無料分で十分すぎます    ❖ 話さないこと  ➢ 生成AI（大規模言語モデル、GPT）の仕組みは話しません！  ➢ NTT版大規模言語モデル「tsuzumi」もしません！笑  ■ 2024年3月25日に商用開始〜  ■ （ただ、関係者には繋げられると思います）