Slide 1

Slide 1 text

࣌ܥྻσʔλ෼ੳͱ1ZUIPO ʙΧϧϚϯϑΟϧλʹΑΔঢ়ଶਪఆʙ ୈ̏ճσʔλαΠΤϯε̡̩ˍษڧձ JO-*/&෱Ԭ

Slide 2

Slide 2 text

⽬次 • 時系列データの特性 • Pythonによる時系列データの取り扱い • Pythonで解析やってみた!(解析例)

Slide 3

Slide 3 text

⾃⼰紹介 2016年11⽉ カラビナ⼊社 趣味:筋トレ・登⼭ プログラミング歴1年 ⼤学の専攻は化学 鶴田 (!UTVSVCFF)

Slide 4

Slide 4 text

時系列データとは 時間の推移とともに観測されるデータのことで、 観測される順序に意味があることが⼤きな特徴 である。 <例> 経済・ファイナンシャルデータ(GDP・株価など) 気象データ(気温・湿度・⾬量など) 医療データ(脳波・⼼電図など) アクセスログデータ etc. http://www.kabu-1.jp/beginner/shikumi/kabuka-chart/

Slide 5

Slide 5 text

統計⼿法の多くは、データを「同⼀の確率分布 から得られた、互いに独⽴な標本の集まり」と ⾒なしています。 時系列データでは成り⽴たない!

Slide 6

Slide 6 text

よく⾒かける光景 その1 ヒストグラム ヒストグラムでは標本抽出の順序を考慮していないため、 毎回の標本抽出は互いに独⽴であることを認めているこ とになる。 時間情報の消失

Slide 7

Slide 7 text

よく⾒かける光景 その2 最尤推定 観測点 ", " が得られる確率 | " , 2 = 1 22 exp − " − " 2 22 トレーニングセット " , " "34 5 が得られる確率 = 1 | 1 , 2 × ⋯× | , 2 = ∏ | , 2 5 "34 データが互いに独⽴と仮定している

Slide 8

Slide 8 text

参考書 Pythonでやります!

Slide 9

Slide 9 text

時系列解析に使えるPythonライブラリ • pandas • matplotlib • statsmodels

Slide 10

Slide 10 text

リッチなデータ構造と関数を提供 ⾦融データ分析のために開発されたため、 時系列分析に最適 DataFrame:2次元データ

Slide 11

Slide 11 text

データの可視化に有⽤ IPython + matplotlibは科学計算にとって⾮常に ⽣産的な環境を提供 最近はSeabornもよく⾒かけるが、いまだ デファクトスタンダード

Slide 12

Slide 12 text

statsmodels statistical modeling and econometrics in Python 数多くの統計モデリング⼿法を提供 (⼀般化線形モデル、状態空間モデル、etc.) scipy.statsなどもあるが、おそらく⼀番機能が 充実している。

Slide 13

Slide 13 text

時系列解析やってみた! 東京都における⽕災件数の推移

Slide 14

Slide 14 text

解析の⽬的 観測される現象の背後にある「しくみ」の理解 例えば・・・ 年々⽕災件数は減少している →住宅⽤⽕災警報機の普及 →IHコンロの普及 冬場は⽕災が多い →空気が乾燥していて⽕災が起きやすい →暖房器具が稼働している たまたま多い、たまたま少ないなどのノイズを 除去した形でデータを眺めたい・・

Slide 15

Slide 15 text

状態空間モデル • ⾮常に幅広い概念で、もともとは物理システム の記述に使われていたが、1990年代頃から⾦ 融データをはじめとする時系列データに対する 応⽤が盛んになる • 状態空間モデルは、観測できない隠れた「状態 モデル」と観測した結果である「観測モデル」 からなる。 • 状態空間モデルを利⽤する最⼤のメリットは、 モデリングの柔軟性と増減要因の説明⼒

Slide 16

Slide 16 text

状態空間モデル 観測できない隠れた(状態モデル) xt-1 xt xt+1 隠れた状態から観測した結果(観測モデル) yt-1 yt yt+1 ϩʔΧϧϨϕϧϞσϧ = < + ~ 0, 2 :観測値撹乱項

Slide 17

Slide 17 text

すべてのデータ4:F が与えられたもとでのす べての潜在変数(真の⽔準)を知りたい・・ 4:F |4:F 事後同時分布 計算きびしい・・・ カルマンフィルタを使おう! 線形ガウス状態空間モデルに対する計算アルゴリズム

Slide 18

Slide 18 text

༧ଌͱϑΟϧλϦϯά 条件付き分布を1時点ずつ更新して求めていく 逐次計算アルゴリズム カルマンフィルタのイメージ 時間 変数 t-1 t t+1 観測値 予測値 予測 フィルタリング

Slide 19

Slide 19 text

解析結果

Slide 20

Slide 20 text

解析結果

Slide 21

Slide 21 text

今後やりたいこと 「予測にいかす統計モデリングの基本」より抜粋