機械学習 - pandas入門

Slide 1

Slide 1 text

pandas入門⼭本祐輔名古屋市⽴⼤学データサイエンス研究科 [email protected] 第2回機械学習発展（導入編）⼭本祐輔クリエイティブコモンズライセンス (CC BY-NC-SA 4.0)

Slide 2

Slide 2 text

1pandasとは?

Slide 3

Slide 3 text

⾏列として扱われる⼤規模データ ID Name Price 表 ID Name Price 機械学習数理モデリング

Slide 4

Slide 4 text

⾏列として扱われる⼤規模データ ID Name Price 表 ID Name Price 機械学習数理モデリング⾏列 (テンソル) 3 1 −4 −1 5 9 2 −6 5 変換

Slide 5

Slide 5 text

⾏列として扱われる⼤規模データ ID Name Price 表 ID Name Price 機械学習数理モデリンググラフテキスト画像⾏列 (テンソル) 3 1 −4 −1 5 9 2 −6 5 変換

Slide 6

Slide 6 text

⾏列として扱われる⼤規模データ ID Name Price 表 ID Name Price 機械学習数理モデリンググラフテキスト画像⾏列 (テンソル) 3 1 −4 −1 5 9 2 −6 5 変換表データは典型的なデータ分析対象

Slide 7

Slide 7 text

Pythonicなデータ処理の流れ⾏列変換⾼効率な⾏列処理データ処理の⼊り⼝となるpandasを押さえることは重要⾏列計算の効率化機械学習・数値解析表データの取り扱い

Slide 8

Slide 8 text

pandasとデータフレーム - 表データを効率良く扱うためのPythonライブラリ - データフレームと呼ばれるデータ構造を⽤いて表データを効率的に処理データフレーム pandas - 列ごとに型が定義された表データを扱うためのデータ構造 - NumPyの多次元配列（numpy.ndarray）と変換が容易

Slide 9

Slide 9 text

データフレームの構造レコード(行) カラム(列)

Slide 10

Slide 10 text

データフレームの構造インデックス名インデックスレコードを⼀意に識別するためのラベル

Slide 11

Slide 11 text

データフレームの構造カラム名

Slide 12

Slide 12 text

pandasと関係データベース管理システム (RDBMS) pandas RDBMS 扱えるデータサイズ小〜中（メモリサイズに依存）大（サーバ次第）処理速度遅い速い（索引 & クエリ最適化の恩恵）柔軟性高い（Pythonが使える）低い（SQLでできることに限られる）用途 - Pythonとの連携 - データの前処理 - 大規模データ管理 - 前処理対象となるデータの抽出・集約

Slide 13

Slide 13 text

表データの受け渡し CSV TSV RDB 表データ交換⽤のテキストファイル関係データベースに直接接続 Excelファイル

Slide 14

Slide 14 text

CSVファイル - 表形式のデータ交換⽤に⽤いられるテキストファイル - CSVファイルの⾏が表の⾏に相当 - 表の各項⽬の値をカンマ（,）で区切る - 1⾏⽬には表の構造を⽰す項⽬名を並べることがある - CSVファイルの拡張⼦はcsv ID,都道府県,県庁所在地 1,北海道, 札幌市 2,青森県, 青森市 3,岩手県, 盛岡市 ... CSVファイルの中⾝ ID 都道府県県庁所在地 1 北海道札幌市 2 青森県青森市 3 岩手県盛岡市 … 表データ解釈

Slide 15

Slide 15 text

TSVファイル - 表形式のデータ交換⽤に⽤いられるテキストファイル - TSVファイルの⾏が表の⾏に相当 - 表の各項⽬の値をタブ記号（\t: 不可視⽂字）で区切る - 1⾏⽬には表の構造を⽰す項⽬名を並べることがある - TSVファイルの拡張⼦はtsv ID 都道府県県庁所在地 1 北海道札幌市 2 青森県青森市 3 岩手県盛岡市 ... TSVファイルの中⾝ ID 都道府県県庁所在地 1 北海道札幌市 2 青森県青森市 3 岩手県盛岡市 … 表データ解釈

Slide 16

Slide 16 text

Hands-on タイム以下のURLにアクセスして， pandasを使いながら講義を受けよう https://mlnote.hontolab.org/ 17

Slide 17

Slide 17 text

2 最低限のpandas 18

Slide 18

Slide 18 text

Pythonでpandasを使う準備 import pandas as pd pandasライブラリをインポートコード中で頻繁にpandasライブラリを参照するので，短い名前でアクセスできるように略称を付けておく

Slide 19

Slide 19 text

CSV/TSVファイルの読み取り df = pd.read_table( “読み込むCSV/TSVファイルの場所 or URL”, sep=‘区切り⽂字’, header=⾒出し⾏の場所, index_col=‘インデックス名’ ) pandas.read_table ファイルからデータフレームを読み込むメソッド

Slide 20

Slide 20 text

CSV/TSVファイルの読み取り例 df = pd.read_table( “data/SSDSE-E-2024.csv”, sep=‘,’, header=2, index_col=‘地域コード’ ) ← 読み込むファイル ← 区切り⽂字はカンマ ← ⾒出しは2⾏⽬(数え始めはゼロ) ← 「地域コード」列をインデックスに pandas.read_table ファイルからデータフレームを読み込むメソッド

Slide 21

Slide 21 text

データフレームの基本情報（1/3） # データフーレムが変数df に格納されていると仮定 pandas.DataFrame.shape df.shape (48, 91) データフレームの⾏数と列数を返す ← dfの⾏数が48，列数が91であることを⽰す

Slide 22

Slide 22 text

データフレームの基本情報（2/3） # データフーレムが変数df に格納されていると仮定 pandas.DataFrame.columns df.columns Index(['都道府県', '総人口', '日本人人口', '15歳未満人口', '15〜64歳人口’,…]) データフレームの列名のリストを返す

Slide 23

Slide 23 text

データフレームの基本情報（3/3） # データフーレムが変数df に格納されていると仮定 pandas.DataFrame.describe df.describe() データフレームの基本統計量を返すメソッド

Slide 24

Slide 24 text

射影（1/2） # データフーレムが変数df に格納されていると仮定 df.総⼈⼝表⽰したい列をドットもしくは中括弧で指定 df[“総⼈⼝”]

Slide 25

Slide 25 text

射影（2/2） # データフーレムが変数df に格納されていると仮定中括弧で列名リストを指定すると複数列を射影 df[“都道府県”, “総⼈⼝”]

Slide 26

Slide 26 text

データフレーム × 四則演算（1/2） # 各⾏の総⼈⼝の値に100を加算射影した列にスカラーの四則演算を適⽤すると，射影した列データ全体に演算が適⽤される df[“総⼈⼝”] + 100 +100

Slide 27

Slide 27 text

データフレーム × 四則演算（2/2） # 各⾏の⽇本⼈⼈⼝の値をその⾏の総⼈⼝で割った値を返す射影した列間の四則演算を適⽤すると，各⾏の射影した列の値に対して演算が適⽤される df[“⽇本⼈⼈⼝”] / df[“総⼈⼝”]

Slide 28

Slide 28 text

新しい列の追加 # 各⾏の⽇本⼈⼈⼝の値をその⾏の総⼈⼝で割った値を返す中括弧を⽤いて新しい列に代⼊演算をすることで新しい列を追加することが可能 df[“⽇本⼈割合”] = df[“⽇本⼈⼈⼝”] / df[“総⼈⼝”] # ドットアクセスでの代⼊はできない # df.⽇本⼈割合 = df[“⽇本⼈⼈⼝”] / df[“総⼈⼝”]

Slide 29

Slide 29 text

データフレーム情報へのアクセス（1/2） # データフーレムが変数df に格納されていると仮定 pandas.DataFrame.head df.head() データフレームの先頭数⾏を返すメソッド # データフーレムが変数df に格納されていると仮定 df.tail() データフレームの末尾数⾏を返すメソッド pandas.DataFrame.tail ← メソッドの引数に整数を与えるとその数だけ⾏を返す ← メソッドの引数に整数を与えるとその数だけ⾏を返す

Slide 30

Slide 30 text

データフレーム情報へのアクセス（2/2） # データフレームdfの（ゼロから始めて）2⾏⽬を抽出 df[2] ⾏番号を⽤いることで，データフレームの各⾏にアクセスすることが可能 # df の先頭⾏から10⾏⽬未満（9⾏⽬）までを取得 df[:10] # df の2⾏から10⾏⽬未満（9⾏⽬）までを取得 df[2:10]

Slide 31

Slide 31 text

絞り込み（1/3） # 総⼈⼝の値が700万を超える⾏のみを抽出中括弧の中で条件を指定すると，条件にマッチする⾏を抽出したデータフレームが得られる df[df['総⼈⼝'] >= 7000000] # ドット表現を⽤いて条件を指定することも可能 # df[df.総⼈⼝ >= 7000000]

Slide 32

Slide 32 text

絞り込み（2/3）複数条件を指定する場合， AND条件は & ，OR条件は |（パイプ）でつなぐ（各条件を丸括弧で包むこと） # 総人口が700万人以上かつ都道府県名が「全国」でないレコードを抽出 df[(df.総人口 >= 7000000) & (df.都道府県 != '全国')] # 合計特殊出生率が1.8以上もしくは1.1未満のレコードを抽出 df[(df.合計特殊出生率 >= 1.8) | (df.合計特殊出生率 < 1.1)]

Slide 33

Slide 33 text

絞り込み（3/3） # 総人口が700万人以上かつ都道府県名が「全国」でないレコードを抽出 # df[(df.総人口 >= 7000000) & (df.都道府県 != '全国')] # 上のコードは以下のように書くことが可能 df.query(“総人口 >= 7000000 & 都道府県 != ‘全国’”) pandas.DataFrame.query queryメソッドを使うと絞り込みをすっきり書ける

Slide 34

Slide 34 text

データフレームの保存（1/2） df.to_csv( “保存先のファイル名”, sep=‘区切り文字’, header=True/False (デフォルトはTrue), index=True/False (デフォルトはTrue) ) pandas.DataFrame.to_csv データフレームをCSV/TSVファイルに書き出す ↓⾒出し情報を書き出すか否か ↑インデックス情報を書き出すか

Slide 35

Slide 35 text

データフレームの保存（2/2） df.query(‘総人口 >= 7000000’).to_csv( “data/big-prefecture.tsv”, sep=‘\t’, header=True, index=False ) pandas.DataFrame.to_csv データフレームをCSV/TSVファイルに書き出す ←TSVファイルで書き出す ←インデックス情報（地域コード）はナシで書き出す

Slide 36

Slide 36 text

Hands-on タイム以下のURLにアクセスして，ページ末尾のクイズを解いてみよう https://mlnote.hontolab.org/ 37

Slide 37

Slide 37 text

今後の予定 38 回実施⽇トピック 1 04/14 ガイダンス 2 04/21 pandas⼊⾨ 3 04/28 決定⽊からはじめる機械学習 4 05/12 クラスタリング1：k-means & 階層的クラスタリング 5 05/19 クラスタリング2：密度ベースクラスタリング 6 05/26 分類1：K近傍法 & 教師あり機械学習のお作法 7 06/02 分類2：サポートベクターマシン 8 06/09 分類3：ニューラルネットワーク⼊⾨