Upgrade to Pro — share decks privately, control downloads, hide ads and more …

はんなりpython の pandasハンズオンでのオープニング

kunai
March 15, 2019

はんなりpython の pandasハンズオンでのオープニング

はんなりpython の pandasハンズオンでのオープニング

資料はこちら
https://github.com/hannari-python/pandas-handson

各種リンク
http://kunai-lab.hatenablog.jp/entry/2019/03/21/133204

kunai

March 15, 2019
Tweet

More Decks by kunai

Other Decks in Programming

Transcript

  1. 自己紹介 くない ( twitter @jdgthjdg ) • はんなり python の運営 (大阪在住:

    非京都在住の方もぜひ〜) • 職業:エンジニア • 画像処理(C++) • データ収集・分析など(python/C++)  → 転職活動中です〜
  2. without pandas import numpy as np height = [140, 170,160]

    age = [ 12, 33, 89] print( height[1], age[1] ) print( np.mean(height), np.mean(age) ) # 配列1つずつに、毎回処理をかけていく
  3. with pandas import pandas as pd df = pd.DataFrame({"height":[140, 170,160],

    "age":[ 12, 33, 89]}) df["height"] # heightの配列を選択 print( df.iloc[1] ) # 各配列の 2番目の要素を選択 print( df.mean() ) # height, age それぞれの平均が求まる • 1操作で、 全部の配列(height, age)への処理ができる! 楽!
  4. pandas でよくでるやつら pandas.DataFrame:   複数の1次元配列たちを、 同じindexで締めあげている。 面倒でみんな df と言ってる。 pandas.Series:   DataFrameにまとめられている子分。  dfみたいな名前は見ないが、個人的には

    se ?   df との違いを認識しておかない困る場面が多々ある。   Series : index と 配列のペア   DataFrame: index + 配列 + 配列 + 配列 + 配列 (indexを共有)      正直、 さわって覚えた方がよい
  5. pandas の良さ • 様々なデータの読み書きが1メソッドで楽ちん (csv,excel,db, pdf など) • 各種統計量(mean,std,skew...)、窓関数などが揃っている •

    df だと複数配列の管理がしやすく、各配列への操作もまとめてできる • matplotlibなどの可視化ライブラリとの連携が楽   データ処理も、その前段階の処理も            総じて楽! (無いと困る)
  6. げんじつはきびしい まともなデータなぞない。 むかしの誰かが残した謎のエクセルのみ・・・。   df = pd.read_excel("本当の最新版_2019_コピー(仮).xlsx") • encoding 問題 • 独自の日付フォーマット

    • 型がバラバラ。 数値系と文字列 (全角英数字) • 複数のシートと、シート毎のズレ • 分割されてファイルが散り散り、 結合が必要・・・
  7. げんじつはきびしい まともなデータなぞない。 むかしの誰かが残した謎のエクセルのみ・・・。   df = pd.read_excel("本当の最新版_2019_コピー(仮).xlsx") • encoding 問題 • 独自の日付フォーマット

    • 型がバラバラ。 数値系と文字列 (全角英数字) • 複数のシートと、シート毎のズレ • 分割されてファイルが散り散り、 結合が必要・・・ 畑に行って収穫するところから!! ほんじつ・・芋掘り・・・体験・・できます・・・