Slide 1

Slide 1 text

Power BI 勉強会 GW合宿 2022 第壱夜 夜のデータ準備

Slide 2

Slide 2 text

須藤 明洋 すとう あきひろ 秋田県 出身 集英社 勤務 Power BI 2021.04~ Python 2021.09~ Rugby 1991.04~ Kendama 2020.04~

Slide 3

Slide 3 text

Power BI Premiumでデータ準備

Slide 4

Slide 4 text

● Power BI Premiumの一部機能をご紹介 ○ 💎配置パイプライン ○ 💎データフロー ○ 💎高度なAI ○ 💎機械学習 Power BI Premiumでデータ準備

Slide 5

Slide 5 text

配置パイプライン

Slide 6

Slide 6 text

● BI 作成者は組織のコンテンツのライフサイクルを管理 ○ 開発環境→テスト環境→プロダクション環境 ○ パラメーターの管理 ○ データベースの変更 配置パイプライン

Slide 7

Slide 7 text

No content

Slide 8

Slide 8 text

No content

Slide 9

Slide 9 text

No content

Slide 10

Slide 10 text

No content

Slide 11

Slide 11 text

No content

Slide 12

Slide 12 text

No content

Slide 13

Slide 13 text

No content

Slide 14

Slide 14 text

No content

Slide 15

Slide 15 text

No content

Slide 16

Slide 16 text

No content

Slide 17

Slide 17 text

No content

Slide 18

Slide 18 text

No content

Slide 19

Slide 19 text

No content

Slide 20

Slide 20 text

No content

Slide 21

Slide 21 text

● 開発環境 100行 ○ インポートしたときに作業しやすい ● テスト環境 1,000,000行 ○ 前年比など確認 ● 運用環境 1,000,000,000行 → 全データ 配置パイプライン

Slide 22

Slide 22 text

● 開発環境 100行 ○ インポートしたときに作業しやすい ● テスト環境 1,000,000行 ○ 前年比など確認 ● 運用環境 1,000,000,000行 → 全データ 配置パイプライン Power BI Desktop Power BI Service

Slide 23

Slide 23 text

Dataflow

Slide 24

Slide 24 text

● Power BI 内の多くのデータセットおよびレポートで共有できる再利用 可能な変換ロジックを作成できる。 ○ Power Query Online ● 独自の Azure Data Lake Storage Gen 2 内にデータが公開される。 Dataflow

Slide 25

Slide 25 text

No content

Slide 26

Slide 26 text

● データフローを使用することで、データソースに何度もアクセスされる ことを防ぐことができる。 → Azure Data Lake Storage Gen2 にアクセス Dataflow

Slide 27

Slide 27 text

No content

Slide 28

Slide 28 text

No content

Slide 29

Slide 29 text

No content

Slide 30

Slide 30 text

● データフローを使用することで、データソースに何度もアクセスされる ことを防ぐことができる。 → Azure Data Lake Storage Gen2 にアクセス ● アクセス負荷軽減 ● セキュリティ ● 権限設計 Dataflow

Slide 31

Slide 31 text

Power BI Premium の Dataflow

Slide 32

Slide 32 text

● 💎処理の高速化 ● 💎増分更新 ● 💎リンクテーブル ● 💎計算テーブル Power BI Premium の Dataflow

Slide 33

Slide 33 text

💎処理の高速化

Slide 34

Slide 34 text

● Power BI Pro ○ ベスト エフォート ● Power BI Premium ○ 専用容量が割り当てられる →処理が早い 💎処理の高速化

Slide 35

Slide 35 text

💎処理の高速化 ● Pro環境 ● Premium環境 データ読込速度比較

Slide 36

Slide 36 text

💎処理の高速化 ● Pro環境:更新時間の制限 ○ 個々のエンティティのレベルで 2 時間 ○ データフロー全体のレベルで 3 時間

Slide 37

Slide 37 text

No content

Slide 38

Slide 38 text

💎処理の高速化 ● Premium環境:更新時間の制限 ○ データフロー全体のレベルで 24 時間

Slide 39

Slide 39 text

No content

Slide 40

Slide 40 text

● 例が良くない ○ すみません ● 体感時間 ○ 半分くらい 💎処理の高速化

Slide 41

Slide 41 text

💎増分更新

Slide 42

Slide 42 text

● Datasetの増分更新 ○ Proライセンスでも可能 ● Dataflowの増分更新 ○ Premiumライセンスが必要 💎増分更新

Slide 43

Slide 43 text

● 更新が高速化される ● 更新の信頼性が高くなる ● リソースの使用が減る 💎増分更新

Slide 44

Slide 44 text

No content

Slide 45

Slide 45 text

No content

Slide 46

Slide 46 text

No content

Slide 47

Slide 47 text

No content

Slide 48

Slide 48 text

💎リンクテーブル&💎計算テーブル

Slide 49

Slide 49 text

● 💎リンクテーブル ○ 既存のデータフローを参照する。 ○ 複数のデータフロー内で再利用できるテーブルを作成する。 💎リンクテーブル&💎計算テーブル

Slide 50

Slide 50 text

No content

Slide 51

Slide 51 text

No content

Slide 52

Slide 52 text

No content

Slide 53

Slide 53 text

● 💎計算テーブル ○ リンク テーブルを参照し、書き込み専用の方法でそのテーブルに 対して操作を実行する。 ○ その結果として新しいテーブルが作成される。 💎リンクテーブル&💎計算テーブル

Slide 54

Slide 54 text

No content

Slide 55

Slide 55 text

No content

Slide 56

Slide 56 text

データフローを使用してデ ータ ウェアハウスを作成す るためのベスト プラクティ ス - Power Query | Microsoft Docs

Slide 57

Slide 57 text

データフローを使用してデータ ウェアハウスを作成する ためのベスト プラクティス - Power Query | Microsoft Docs

Slide 58

Slide 58 text

シナリオに沿って紹介 ○ 夏のフェア 『ナツコミ』 ○ Twitterの反応を可視化したい 💎リンクテーブル&💎計算テーブル

Slide 59

Slide 59 text

No content

Slide 60

Slide 60 text

No content

Slide 61

Slide 61 text

No content

Slide 62

Slide 62 text

データ前処理

Slide 63

Slide 63 text

高度なAI

Slide 64

Slide 64 text

● テキストアナリティクス ● 画像へのタグ付け 高度なAI

Slide 65

Slide 65 text

● テキストアナリティクス 自然言語処理 ○ 言語の特定 ○ キーフレーズ抽出 ○ 感情スコア 高度なAI

Slide 66

Slide 66 text

No content

Slide 67

Slide 67 text

No content

Slide 68

Slide 68 text

No content

Slide 69

Slide 69 text

No content

Slide 70

Slide 70 text

No content

Slide 71

Slide 71 text

No content

Slide 72

Slide 72 text

データ前処理

Slide 73

Slide 73 text

データ前処理

Slide 74

Slide 74 text

● 更新のオーケストラレーション ○ 同じワークスペースに存在する場合 ○ 上流のデータが更新されると下流のリンクテーブル、計算テーブル は順次更新される。 💎リンクテーブル&💎計算テーブル

Slide 75

Slide 75 text

No content

Slide 76

Slide 76 text

No content

Slide 77

Slide 77 text

No content

Slide 78

Slide 78 text

No content

Slide 79

Slide 79 text

No content

Slide 80

Slide 80 text

No content

Slide 81

Slide 81 text

No content

Slide 82

Slide 82 text

No content

Slide 83

Slide 83 text

機械学習

Slide 84

Slide 84 text

● 経験からの学習により自動で改善するコンピューターアルゴリズム 機械学習 機械学習 - Wikipedia

Slide 85

Slide 85 text

● Power BI のAutoML ○ 二項分類 ○ 多項分類 ○ 回帰 機械学習 データフローと共に Machine Learning と Cognitive Services を使用する - Power BI | Microsoft Docs

Slide 86

Slide 86 text

DEMO Diamond データセット カラット カラーなどから 価格を予測する 機械学習 pycaret/pycaret: An open-source, low-code machine learning library in Python (github.com)

Slide 87

Slide 87 text

No content

Slide 88

Slide 88 text

ほかにも、 ● データフローへのダイレクトクエリ ● ページ分割されたレポート ● 最大48回更新 などなど Power BI Premium 便利! Power BI Premium の機能。 - Power BI | Microsoft Docs

Slide 89

Slide 89 text

ほかにも、 ● データフローへのダイレクトクエリ ● ページ分割されたレポート ● 最大48回更新 などなど Power BI Premium 便利! Power BI Premium の機能。 - Power BI | Microsoft Docs もう戻れない

Slide 90

Slide 90 text

No content