Slide 1

Slide 1 text

今さら聞けないシリーズ はじめてのPython 弥生 隆明 シニアソリューションアーキテクト データブリックス・ジャパン 2023年3月23日 (木) 16:00 - 16:55

Slide 2

Slide 2 text

自己紹介 弥生 隆明 (やよい たかあき) シニアソリューションアーキテクト ▪ 2020年からデータブリックス ジャパンにおいて、プレセー ルス、POCに従事 ▪ 前職はコンサルティングファーム、総合電機メーカーにて データ分析・Webサービス構築などに従事。 インド赴任経験あり。 ▪ Pythonを触り始めたのは6年前くらいからです。 ▪ Qiitaでいろいろ書いています。

Slide 3

Slide 3 text

©2023 Databricks Inc. — All rights reserved 日本初のデータブリックス本を出版しました データブリックス クイックスタートガイド ● 「データブリックスって聞くけど、一体どういうものなのだろうか」と思われている方、データブリックスを触り始めた方を対象として、 データブリックス・ジャパンのエンジニアの有志で本書を執筆しました。本書をご一読いただければ、データブリックスとは何か、 データブリックスをどのように使うのかを一通り理解できる内容となっています。 ● データとAIを活用して業務を変えたい、機械学習モデルを本格的に運用することを前提としてデータ /AI基盤を構築したいと考えら れている方に本書が一助になれば幸いです。 1章 Databricks(データブリックス)とは? 1. はじめに 2. 背景 3. レイクハウスの誕生 4. データブリックスとは 5. コンセプト 6. アーキテクチャ 7. 主要機能 8. コスト 2章 データブリックスのセットアップ 1. データブリックスのセットアップ - AWS 2. Azure Databricksのセットアップ 3. データブリックスのセットアップ - Google Cloud 3章 データブリックスを使ってみる 1. データブリックスのユーザー・グループ 2. Databricksクラスター 3. Databricksノートブック 4. データブリックスのジョブ 4章 ユースケース別ガイド 1. データエンジニアリング 2. 機械学習 3. BI 5章 ツール連携 1. Repos 2. Partner Connect 6章 MLOpsの実現に向けて

Slide 4

Slide 4 text

アジェンダ ● Pythonの基礎 ● pandasを用いたデータ分析 ● scikit-learnを用いた機械学習 ● Sparkのご紹介 ● まとめ

Slide 5

Slide 5 text

©2023 Databricks Inc. — All rights reserved Pythonの基礎 Pythonの歴史や背景は置いておいて早速実践に行きましょう ● 数値 & 文字列 ● 変数 ● Print文 ● リスト ● Forループ ● 関数 ● 条件文 ● 型と型チェック 個人的な感想 ● 言語構造自体は他の言語(R/Perl/PHPなど)と大 差ないと思います。 ● インデントによるブロック記述が可視性を高めてく れて助かります。 ● pandasのデータフレームを知ったら配列を用い た複雑なコーディングには戻れません。 ● 何よりも豊富なライブラリが魅力的。

Slide 6

Slide 6 text

アジェンダ ● Pythonの基礎 ● pandasを用いたデータ分析 ● scikit-learnを用いた機械学習 ● Sparkのご紹介 ● まとめ

Slide 7

Slide 7 text

©2023 Databricks Inc. — All rights reserved pandasを用いたデータ分析 pandasの歴史や背景はノートブックで説明します ● データの読み込み ● データの要約 ● データのスライスと加工 ● データのグルーピングと集計関数 ● 欠損データと重複への対応 ● 可視化

Slide 8

Slide 8 text

アジェンダ ● Pythonの基礎 ● pandasを用いたデータ分析 ● scikit-learnを用いた機械学習 ● Sparkのご紹介 ● まとめ

Slide 9

Slide 9 text

©2023 Databricks Inc. — All rights reserved scikit-learnを用いた機械学習 Pythonで機械学習を始めるならscikit-learn ● 機械学習とは何か ● 変数間の関係 ● トレーニングデータセット・テストデータセットの分割 ● 線形回帰 ● ワンホットエンコーディング ● パイプライン ● 評価メトリクス ● 予測結果の可視化

Slide 10

Slide 10 text

アジェンダ ● Pythonの基礎 ● pandasを用いたデータ分析 ● scikit-learnを用いた機械学習 ● Sparkのご紹介 ● まとめ

Slide 11

Slide 11 text

©2023 Databricks Inc. — All rights reserved Sparkのご紹介 PCで処理できるデータ量であればpandas/scikit-learnで十分ですが… ● Apache Sparkは、多数のマシンで並列でコードを実行するための洗練された分散処理フレームワー クです。これによって、大量データも効率的に処理することができます。 ● Sparkでもデータフレームでデータを取り扱うことが可能です。Python(PySpark)やRなどのAPIを提 供しており、pandasとの相互運用も可能です。 pandas pandas API on Spark (旧Koalas) Apache Spark(PySpark) データセットが小さい場合は pandasが正しい選択肢となりま す。 大量データを操作する必要があ り、PySparkではなくpandas APIを活用したいと考える際に は最適な選択肢となります。 ※APIの対応状況など注意事項があります。 大量データに対する処理が必要 な場合は、Apache Sparkのよう な並列データフレームを使用す ることで高速化が期待できま す。

Slide 12

Slide 12 text

アジェンダ ● Pythonの基礎 ● pandasを用いたデータ分析 ● scikit-learnを用いた機械学習 ● Sparkのご紹介 ● まとめ

Slide 13

Slide 13 text

©2023 Databricks Inc. — All rights reserved まとめ DatabricksでPythonを活用してビジネス価値を生み出してみませんか ● ノートブック、Pythonフォーマット、オー トコンプリートのサポート ● pandas/PySparkの相互運用性 ● 並列分散処理による高速化 ● 機械学習モデルの効率的管理 ブリックスちゃん Python Sparkとの連携

Slide 14

Slide 14 text

©2023 Databricks Inc. — All rights reserved まとめ 見てみたい! もっと知りたい! 試してみたい! デモ・ハンズオン ご興味のテーマに関し て深堀 PoC • 実環境を使ったデモや、一時的に触っ ていただける環境を活用したハンズオ ンを実施 • デモ・ハンズオン共に、ETLや機械学 習といったテーマでご案内 • セキュリティ・ガバナンス、アーキテク チャー、課金体系等気になる点に関し て追加での説明 or 資料共有 • 類似サービスとの比較・相違点等のご 紹介 • 無償でPoCをサポート • 通常2週間のPoC期間中、Databricks 使用料と技術サポートを無償でご提供 • パブリッククラウドのストレージ、コン ピュートコストはお客様ご負担となりま す (AWSの場合S3やEC2等) Databricksにご興味が出たらお声がけください

Slide 15

Slide 15 text

©2022 Databricks Inc. — All rights reserved 15 データブリックスに関してわかりやすく理解できる漫画シリーズ https://databricks.com/discover/manga-series-jp

Slide 16

Slide 16 text

©2021 Databricks Inc. — All rights reserved 16 JEDAIは、データブリックスを最大限 ご活用いただくための有益な情報を ご提供するとともに、ユーザー同士 がつながり、関係を深めることができ る場として活動いたします。
 2021年は5回の開催を予定していま す。ぜひお気軽にご参加ください。
 データブリックス・ジャパン株式会社 
 Senior Customer Success Engineer 
 徳元 大輔
 通信事業者で様々な業務を経験した 後にビッグデータ業界に。現在は Databricks Japanでポストセールス の頼れるなんでも屋さんを目指して いる。趣味は、飲み食べ歩き・キック ボクシングと過度なエクササイズ・海 外SF小説。好きな映画:ブレードラン ナー、パルプフィクション。座右の銘: 無欲は怠惰の元である。
 お客様セッション
 5・7・9・11・1月開催(予定)
 データブリックスをご利用頂いてるお客様企業やデータ&AIのプロ フェッショナルをお招きして、実際現場で苦悩されている点や、さらに は普段他では話すことのできないハプニング、ココでしか聞けない開 発秘話など、存分にお話いただきます。
 セッションの他にも、Q&Aの時間をたっぷり設け、オンラインの枠を 超えた、できる限りインタラクティブなコミュニケーションが取れるよう にいたします。
 テーマ別セッション
 6・8・10・12月開催(予定)
 データプロジェクトにおける世界の最新トレンドからAI/機械学習プロ ジェクトの実運用まで、毎回テーマを設定し、弊社のパートナー様や弊 社のデータ&AI プロフェッショナルが、ご説明します。セッションの他に も、Q&Aの時間をたっぷり設け、オンラインの枠を超えた、できる限り インタラクティブなコミュニケーションが取れるようにいたします。
 プログラム概要
 コミュニティへの登録方法
 コミュニティの運営は「Connpass」を利用いたします。
 こちらの登録は、Eメールアドレスに加え、各種ソーシャルアカウント(Twitter, Facebook)との連携が可能です。
 ご登録はこちら>
 https://jedai.connpass.com/
 Community Guide 


Slide 17

Slide 17 text

©2023 Databricks Inc. — All rights reserved 参考リンク集 ● ウェビナーで使用したノートブック・資料 ○ ノートブック: https://github.com/taka-yayoi/public_repo_2/tree/master/python_webinar ○ Python開発者向けDatabricksのご紹介 - Qiita https://qiita.com/taka_yayoi/items/d21eda71037575dcaf7d ○ pandasユーザーがPandas API on Sparkでつまづいたあれこれ - KAKEHASHI Tech Blog https://kakehashi-dev.hatenablog.com/entry/2022/12/24/090000 ○ 今さら聞けない機械学習 https://qiita.com/taka_yayoi/items/51583a581ce5a6ba6558 ● 書籍「データブリックス クイックスタートガイド」 ○ https://www.amazon.co.jp/dp/B09V1YXFVQ/ ● データブリックス漫画シリーズ ○ https://databricks.com/discover/manga-series-jp ● データブリックスユーザー会 ○ https://jedai.connpass.com/ ● データブリックスのQiitaページ ○ https://qiita.com/organizations/databricks

Slide 18

Slide 18 text

No content