Slide 30
Slide 30 text
© NTT Communications Corporation All Rights Reserved. 30
30
データの前処理
モデル定義・学習
モデルの評価
考察
データの可視化
必要なモジュールの
読み込み
使用する
データセットの
読み込み
データセットの
仕様確認
統計量の確認
(平均・分散)
データの可視化
# 必要なモジュールを準備
%pip install pandas
%pip install matplotlib
import pandas as pd
import matplotlib.pyplot as plt
# 2011年~2012年のワシントンD.Cで使われた自転車シェアサイクルのデータを利用
# データを読み込んで df の変数に格納する
df = pd.read_csv("07_share_cycle_tutorial.csv", index_col=0, parse_dates=True)
df = df.drop(columns=[ "インデックス"])
# 読み込んだデータを確認
df.head(10)
# レコード数とカラム数を確認します
row_num, col_num = df.shape
print("レコード数:", row_num, ", カラム数:", col_num)
# include='all' はデータ型によらず全てのカラムを表示することを表す。
df.describe(include= "all")
# 時系列データを可視化
df["利用台数"].plot()
Pythonによるデータ分析の例
# 時系列データを可視化
df["気温"].plot()
# 時系列データを可視化
df["風速"].plot()
# 気温と利用台数の関係
plt.figure(figsize=(10, 6))
plt.scatter(df["気温"], df["利用台数"], alpha=0.5)
plt.title("Temperature vs Cycle Usage" )
plt.xlabel("Temperature (°C) " )
plt.ylabel("Usage Count")
plt.grid(True)
plt.show()