時系列データ解析まとめ

時系列データ解析（仮）

こんな形の池で釣りをするとしよう x軸(場所)から池に向かって直線で竿を振る

こんな形の池で釣りをするとしよう x軸(地点)から池に向かって直線で竿を振るこんなことが考えられそう・面積の広いところでは魚が多く釣れやすい・面積の狭いところでは魚が釣れにくい (狭いから針が入らなかった、とかは考えない) では、各地点から100回竿を投げて釣れた魚の量をグラフにしよう穴釣りでも釣れるから面積に関係ないだろ…とは言わないで

こんな形の池で釣りをするとしよう 1ブロック10匹 10 20 30 40 40 50 20

こんな形の池で釣りをするとしよう合計数210で各数を割るすると地点ごとの釣れ易さの確率として考えることが出来そう！ 0.05 0.1 0.15 0.2 0.2 0.25 0.1
1ブロック10匹

こんな形の池で釣りをするとしよう 0.05 0.1 0.15 0.2 0.2 0.25 0.1 y軸は各地点の時の釣れ易さの確率釣れた全体の質量(単位は匹だったけど
) に対して各地点で釣れた魚の質量を確率で表していることから y軸を「確率質量」と呼ぶ

もっとずっと細かく分けてみるそして頂点を点で結ぶこんな形の池で釣りをするとしよう線を決めることが出来れば、ある区間を積分して、その地点の釣れる魚の確率質量を求めることができるこの線を関数 f(x) として考える。
質量でなく、「ある地点の魚の生息密度」を示していると考えるこれを確率密度関数(probability density function:PDF) と呼ぶ y軸を確率密度と呼ぶ確立質量と確率密度とかは離散と連続の話になるので勘弁

こんな形の池で釣りをするとしよう釣れる魚の量は、地点Xによって変化するその値はf(x)であり、確率に直しているので確立P(x)と考えることもできる “釣れる魚の量”は一定でなく背後にある確率によって変化するのでこれを「確率変数」と呼ぶ

原系列・・・何の変換も加えていない時系列データ対数系列・・・分散不均一、時間がたつと振れ幅が大きくなる時系列解析の解析できる前提「定常性」を満たすために変換 log y 階差系列・・・差分系列とも。y t -y t-1 単位根仮定の差分系列は定常過程になる
Δ y 対数差分系列・・・変化率の代わりになる変化率y t -y t-1 /y t-1 log(y t )-log(y t-1 )=log(y t /y t-1 )=log(1+y t -y t-1 /y t-1 ) 対数差分系列を一次のテイラー展開すると変化率と同じ式になる log(1+x)→x 一次のテイラー展開計算が楽 Δlog y 時系列の”値”について考える

トレンド(上がり調子・下がり調子) 季節調整済系列はトレンド成分とノイズだけになる周期成分(季節成分) ホワイトノイズ(純粋な雑音) ・期待値0 ・自己相関0 ・分散一定ホワイトノイズ以外の要素を数学的な式で抽出しきるように頑張るのが時系列解析の難しい所

4月 8月 12月時点t 時点t+1 時点t+2 時点tでの値の平均値は 25±〇℃ 時点t+1での値の平均値は 32±〇℃
時点t+2での値の平均値は 5±〇℃ 季節によって平均気温は変わる。 (±もちょこっと変わるだろう) これを図にすると時系列の”値”について考える

時系列の”値”について考えるある時点ごとにばらつく幅・平均気温が変化するある時点ごとに確率分布が潜んでいると考え、この確率分布は季節によって幅・平均値が変わると考えるこのようなデータの発生の構造のことをデータ生成過程 DGP
と呼ぶ時に過程や確率過程と呼ばれ、このデータに対する確率過程が時系列モデルと呼ばれる確率分布として考えて下さい =

時系列の難しいところはデータが一点しかないことである 2020-03-15は世界に1回だけしかないイベントである釣りのように100回観測することもできないよって・前数日,数カ月の値・4月である、8月であるなど外部情報のパターンから推測することになる

= =1 ={y 1 ,y 2 ,…y T } T時点までの時系列データをYというベクトルで表す
期待値は E(y t ) 分散は Var(y t -y bar ) 各値ytの従う確率分布をチルダを使って表記する下記は正規分布N y t ~ N(μ,σ2)

lagを取った過去の時点との共分散を自己共分散と呼ぶ (時系列のユニークな母数) γ 1t =Cov(y t ,y t-1 ) 1tとなっているのは1つ前とt時点の共分散である
これを「1次の自己共分散」と呼ぶ k次の自己共分散は、「t時点が大きければt-k時点も大きい」を判断する指標になる kを変数と考えて自己共分散関数と呼ぶこともある

ρkt =Corr(y t ,y t-k )= 自己共分散を正規化したものをこれを「k次の自己相関」と呼ぶ k次を変えていったもの kを変数と見た時の関数
自己相関関数(ACF,autoは自己って意味)とよぶ acfを右図のようにしたものをコレログラムと呼ぶ現時点t+1 = 8月コレログラムの単位が月ごとなら lag=12(カ月)の地点を確認すると、去年の夏と今年の夏の値は互いに似た正の値になり正の棒が立つ , − −

編自己相関実は一つ前と一定の係数で関係性を持っているだけの系列を考える y t = 0.8 y t-1 二つ前の値との関係を見ると、これとも関係を持っているように見える yt
= 0.64 y t-2 y t = 0.8 y t-1 y t-1 =0.8y t-2 よりy t = 0.8 (0.8y t-2 ) このように、t時点と過去のt-k時点までの間に関係性がある場合、純粋に関係性を比較できないそこでt-k時点までの間の関係性を取り除いたものが偏自己相関とよばれるもの

ただしαはを最小にするものとして求める ො = −1 − ො 2 1時点前との関係性を抽出したyhatを考える比較したい時点の過去方向にも
ො −2 = β−1 −2 − ො −2 2 二次点前との偏自己相関は 2 = − ො , −2 − ො −2 − ො −2 − ො −2 2が任意のkであるとき、PACF 偏自己相関関数とよぶ計算にはダービンのアルゴリズムが使われる

ホワイトノイズの値(確率変数)を ε t とするホワイトノイズの定義は以下であり、時系列の周期・トレンドを含んでいないノイズのことである・期待値は0 ・分散は一定 cov(ε t ,ε
t ) = σ2 ・自己相関は0 cov(ε t ,ε t-k ) =0 ※自己相関のkは0以外表記を ε t ~ W.N.(σ2) 実用では正規分布として考えて ε t ~ N(0,σ2) 独立同一分布の系列 iid系列 iid系列は y t ~ iid(μ,σ2) のように表記するちなみにホワイトノイズはiid系列であり強定常過程の例でもある期待値0の独立同一のiid系列は攪乱項としてモデルの残差を表現するために使われるが、独立・同一など厳密な過程をせずとももう少し気軽に使える攪乱項としてホワイトノイズが使われる

ドリフト率δ δは定数で、ランダムウォークに足されると、ノイズの乗った線形トレンドとなるホワイトノイズの累積和からなる確率過程 y t = y t-1 + ε
t ※ε t ~N(0,σ2) 確率的に増えたり減ったりしてトレンドをつくることから、確率的トレンドと呼ぶランダムウォーク

定常性・・・同時分布や統計量の時間不変性に関する性質実問題では非定常な場合が多いそもそもの波がランダムウォークのようにつかみどころがないバブル崩壊で大きな下降ピークが起こるウイルス流行によって停滞する等ただし定常性があると確率過程として時点ごとに確率分布を置いてモデル化することができる。そのため差分系列や特定の安定区間を見つけて区切ってモデル化する
外部から非定常を生み出している原因を見つけてデータから取り除くなどのテクニックが必要となる定常な形にデータを変形できればモデル化も考えやすい

弱定常性・・・過程の期待値と分散が時間によらず一定自己共分散が時差によってのみ影響を受ける共分散定常性とも呼ぶ強定常性・・・任意のt,kで同時分布が同一となる性質分析の対象としてほとんど出てこない性質が厳しすぎて実問題に登場しない弱定常性では、値yは時点tに依存せず、時間差にだけ影響を受ける強定常性では、kの範囲ならどこで切り取っても同時分布が等しくなる正規過程gaussian processの特別な性質・・・任意の時点tと差kに対して
(yt,yt-1…yt-k)を考えた時同時分布が多変量正規分布であり、期待値と共分散により構造が完全に決定されるので弱定常正規過程は強定常と呼んで問題ないつまりガウス過程では弱定常と強定常は同じである。

(弱)定常性を持つ時系列がホワイトノイズと、ある定数μによって作れたとする yt = μ + εt しかし、ある値にノイズを加えただけのモデルで経済を説明することは出来ないそこで分散の変動を許したり、自己相関(周期・過去との波形の類似性)を考えたり
といった一般的なモデルを考える必要がある。

自己相関の検定古典的な方法として自己相関を使うものがある。データの構造を過去のデータが説明してくれるものである。自己相関が過程できないと古典的なモデルでは扱えなくなって… よってまず自己相関があるかを調べるまず得られているデータから統計量を調べる k個であるがT-kでなくTで割ることで正定値になる性質がある ത = 1
෍ =1 Ƹ = 1 ෍ =+1 − ത − − ത ො = Ƹ Ƹ 0 標本平均標本自己共分散標本自己相関係数 k = 0,1,2,… k = 1,2,…

帰無仮説：標本自己相関が0である対立仮説：標本自己相関は0ではないこれを検定するために標本自己相関の漸近分布を調べる iid系列であるのならば、標本自己相関はN(0, 1/T)に従うという性質がある仮にyをiid系列とするならば標本自己相関の平均値が1.96* sqrt(1/T)を超えた場合には 5%で帰無仮説が棄却され、有意なk次の自己相関を持つことになるコレログラムに有意である閾値が引かれている場合これを超えたものが自己相関を持っているの時点として判断できる
上記は1点のみに対しての検定であったが、全体を見て少なくとも1つは相関を持つ時点があることを確かめたい場合もある帰無仮説：すべての標本自己相関係数が0である対立仮説：少なくとも1つは0でないものがある

かばん検定統計量Q(m)は自由度mのカイ二乗分布χ(m)に従うことがしられており、 95%点からQ(m)のほうが大きければ帰無仮説は棄却される(もしくはP値が小さいときに棄却) = + 2 ෎ =1 ො 2
− mが小さい場合には自己相関を見逃しやすい mが大きい場合には検出力が小さくなる(帰無仮説が正しくないときに棄却(正しくない)できる確率) m = log(T)が一般的に使われるが、決め打ちせず複数のmでかばん検定を試すのがよい

単位根過程・・・原系列は非定常だが1階差分系列にすると定常性を持つ過程のこと 1階差分をとった時には非定常だったが2階差分だと定常性を示す場合もあるこの系列を2次和分過程とよびI(2)とかく d階ならd次I(d) 単位根過程は1次和分過程(integrated process)であり原系列のままで定常なら0次和分過程誤差項が定常であるとき、AR過程の特性方程式がz=1という解を１つもつので、単位根過程 (unit
root process) と呼ばれるようになった別名差分定常過程(difference stationary process)

毎回ドリフト率δだけ増えるような系列はトレンド定常過程 yt =tδ+εt ※εtはホワイトノイズこの差分を考えると Δyt =yt – yt-1 =tδ
+ εt – (t-1)δ – εt-1 =δ＋εt-εt-1 εt-εt-1はホワイトノイズに等しい定数にホワイトノイズ足された時系列であるので定常となったランダムウォーク(確率的トレンド)はホワイトノイズ累積和であり非定常だが、その差分系列はホワイトノイズであり定常であるランダムウォークの将来予測はytの値に依存する。ただし、係数が1よりも小さいときは、攪乱項の期待値に収束するが係数が1であるとき、収束せずランダムウォークを続ける。予測としてはytにh*σ^2までのばらつきを考えることになる。季節階差・・・階差のd次として前周期の同じ期を引くことで定期的な波の成分を取り除く

ARIMAモデル AR,MA,I(d)の考え方が組み合わさった時系列モデル自己回帰 ARモデル yt = c + Φ1yt-1 +
εt Φ1は係数 ARモデルではy=ax+bのxが「相関を持つ過去のデータ」を使って表現する何時点前までのデータを見てモデルを作るかを決める p時点前までを使う場合をAR(p)と表現する ARモデルのyt-1が変数xとなり、 yt-1がわかれば係数や定数を組み合わせて次の時点ytの値を予測することができるこの考え方から未来の値を条件付き期待値として考えられる E(yt|yt-1) = c + Φ1yt-1 + εt ※今までの定常過程の予測については過去の値は関係なく、期待値・分散の固定から予測していた = + ෍ =1 Φ i − +

データ生成過程とは時間変化とともに変化する確率分布のことこの考えをARモデルから説明する P(yt|yt-1) ~ N(c + Φ1yt-1 , εt) yt-1が変化することで期待値が脈々と変化する確率分布である
AR(1)モデルで係数が1の場合はランダムウォークとなる 1を超えると爆発的増加となるもし係数が1よりも小さい時徐々に前時点の影響は小さくなっていく(勾配消失のように) AR(1)の自己相関はΘ=Φの時MA(1)のグラフよりも滑らかになる。・自己相関の絶対値がAR(1)のほうが大きいことを意味する・Φ>0の時AR(1)過程は2次以降の自己相関もすべて正になるという性質のためである

K次の自己相関を考えるまず自己共分散から γk = Cov(yt, yt-k) = Cov(Φ1yt-1 + εt,
yt-k) = Cov(Φ1yt-1,yt-k) + Cov(εt, yt-k) = Φ1γk-1 両辺をγ0で割ると自己相関が出てくる ρk = Φ1ρk-1 この式をユール・ウォーカー方程式と呼ぶ「AR過程の自己相関はytが従うAR過程と同一の係数を持つ差分方程式に従う」ということを示す式ここでρ0=1が前提であり、ρk=ρ-kが成り立つという性質があることに注意すると、 ρ0がわかればp次だろうが自己相関を逐次的にもとめることができる

AR(p)過程の性質 ① μ = E(yt) = c/1-Φ1 –Φ2-・・・Φp ② γ0=Var(yt)
= σ^2 / 1-Φ1ρ1-・・・Φpρp ③ 自己共分散・自己相関はAR過程と同じ係数を持つことが知られているため、 p次差分方程式をかいてやれば求まる γk = Φ1γk-1…Φpγp ρk = Φ1ρk-1…Φpρp ※k>=1 ④ AR過程の自己相関は指数的に減衰するとりあえず自己相関の値はユールウォーカーの差分方程式で求まるってのは重要

反転可能性 MA過程では同一の期待値と自己相関構造を持つ異なるMA過程が複数存在することが問題となる自己相関のモデル化のときに、どのMAモデルを選択すべきかわからなくなるそこで反転可能性を確認して決めるそのまえに AR過程の定常性について左辺をAR多項式、式全体をAR特性方程式と呼びこのすべての解が1より大きいときAR過程は定常となるという性質がある例
AR(1)の定常となる条件について yt = c+Φ1yt-1+εt 特性方程式1-Φ1z=0 からz=Φ1^-1=1/Φ1 この値が1を超えるためには |Φ1|<1である時のみ。(1はランダムウォーク、1以上は爆発的、からも確かである) 1 − 1 − ⋯ − = 0

例 AR(2)の定常となる条件について yt = c+Φ1yt-1 +Φ2yt-2 +εt 特性方程式1-Φ1z-Φ2z^2=0 から解の公式を使って解を置く。
1を超えない係数が出てしまうことから、AR(2)は定常とならないことがわかる性質：定常なARとMAの関係 ARが定常であるとき、MAで書き換えることができる。定常のAR(1)を使って例示。簡単のためc=0 yt =Φ1yt-1 +εt = Φ1(Φ1yt-2+ εt-1) +εt = Φ1^myt-m + Σ(k=0,m-1) Φ1^k εt-k ここで|Φ1|<1であった時定常なので、mが∞になるとき前項が0になるよって yt=Σ(k=0,m-1) Φ1^k εt-k となり、これは∞次の移動平均過程を表している重要な性質として、 Φ1^kのkが大きくなるに従い0に減衰していくことがわかる。

ようやく反転可能性 MA過程は常に定常であることが知られている定常性は満たせても、複数の同一な自己相関構造が存在するのが問題 MA(1)で確認 yt=εt + Θεt-1 yt=εt + 1/Θεt-1
上記は二つとも期待値、γ0,1,kがすべてひとしくなるそこで MAがAR(∞)に書き直せるようなMA過程を選ぼうという点が反転可能性である反転可能の時攪乱項が過去のytを使った関数として表現できるので、予測誤差として解釈できるそのため本源的な攪乱項とよんだりするパラメータ推定に便利これもMA特性方程式の解が1より大きいとき反転可能となる MA(1)がAR(∞)となることの説明 εt =-Θεt-1 + yt =(-Θ)^m εt-m + Σ(k=0,m-1)(-Θ)^kyt-k 反転可能の条件は特性方程式より|Θ|<1より Σ(k=0,∞)(-Θ)^kyt-kのみが残るちょっとわからないけどAR(∞)でytに書き換えられる

ARMA過程の定常・反転可能性 ARMAモデルの作り方 ARMAはAR+MAの和の時系列であり、・定常に定常を足しても結果は定常である・MAは常に定常であるの二点を考えると、まずMAは無視してARが定常であることをいかにして作り出せばいいか、ということになる。つまり、ARMA過程もMA(∞)に書き換え可能ならばARMAが定常であることを示せる ARモデルはytを被説明yt-1を説明変数と考える回帰モデルとしてとらえ、 p次ならば重回帰モデルとして係数を求める
求め方は最小二乗法を用いる

最小二乗法(OLS)はSSRを最小にするように推定するもの推定された値はOLS推定量と呼ぶ SSRを偏微分して0と置いたとき、その方程式を正規方程式と呼ぶ OLS推定量の性質は・標本数が多くなったとき、真のパラメータにちかづく（一致推定量）・推定量は基準化すると漸近的に正規分布に従う(平均が推定量、分散が攪乱項の正規分布) OLSで求めるのが難しい場合は最尤法になる

尤度の話からAIC,BIC(SIC)の話よいモデルの選択についてAICを使うどちらを使うと良いかは経験的に判断するしかない AIC,SICで判断したときにどのような性質があるのかはわかっていないモデルの選択偏自己相関を見て、パタッと消えた地点の一個前がARモデルの候補(それ以前の情報がないことから) AR(p) ただし、ARMAのようなモデルであると、相関は次第に減衰していくので、 ARMAが考えられるときにはある程度網羅的に(p,q)の組み合わせを探すそのうえでAICを使って比べる

移動平均 MAモデル移動平均を使って自己相関を表現していると考える移動平均によって周辺の値を馴らしている過去の値で未来を表現できるのならば、過去のいくつかの値の平均値使えば次の地点も似たような値になるんじゃね？という考え方。 Θは過去のどの時点が重要かによって変更することもできる拡張した移動平均がMAモデルであるもし
yt=a+b+c+d yt-1 = b+c+d+e という関係があれば、共通しているb,c,dの情報は大切だし、とりあえずその平均値は使ってみよう。の精神 yt = μ +Σ Θi εt-1 + εt

p次AR(p)・・・p時点までさかのぼって考える q次MA(q)・・・q区間のホワイトノイズの加重和これらを組み合わせたARMA(p,q)モデルで自己相関を柔軟に表現することを考える ෍ =1 − ෍ =1 − yt=
c+ εt + + 定常データへの適応を前提としているAR,MAモデルに対して、原系列が非定常の場合、差分系列をとることがある。 d次和分過程に対してARMAモデルを適応したものを ARIMA(p,d,q)と呼ぶ

差分系列以外にも季節性の変化を使って説明した方がいい場合もある (ARモデルを季節的な間隔・周期に対して考えたもの) SARIMA(p,d,q)(P,D,Q)[s]と呼ぶ 1時点前の値で・・・というよりも今年の夏は去年の夏から説明しよう、という考え。シーズンが12ならD=1なら12ずらす。と思う季節性の周期をsとして、季節性のモデルをPDQでとらえるさらに残った成分をpdqで説明するつまり季節階差をとった系列にARIMAを適応している。
日単位のように細かい場合は季節性よりも外的変数から影響を受けている前提で作られた ARIMAXで説明するのが良いかも

ラグ演算子を使ってSARIMAの式を一般化演算子Bを使う = −1 = −2 1 − 1 =
1 + 1 Δ = 1 − ARIMA(1,0,1) I(d) − 1 = + 1 = 1 −1 + + 1 −1 Δ = − = − −1 I(1) Δ

ラグ演算子を使ってSARIMAの式を一般化演算子Bを使う ARIMA(p.d.q) 1 − ෍ =1 Δ = 1
+ ෍ =1 = Δ 季節性の周期がsである時、季節性の抽出モデルは 1 − ෍ I=1 ′ Δ = 1 + ෍ J=1 ′ ′ = ′ Δ 1 − ෍ =1 1 − ෍ I=1 ′ Δ Δ = 1 + ෍ =1 1 + ෍ J=1 ′ 上記からSARIMA(p,d,q)(P,D,Q)[s]

ARIMAX ARIMA with eXpgenous variables model ダミー変数や外部変数を使って値を説明する。 ARIMAモデルに外部変数k番目Xkに変数ごとの係数βkを求めて足す ARIMAX(p,0,q)
෍ =1 − ෍ =1 − yt= c+ εt + + + ෍ =1 , d階差分を取ったデータに上記を適応したらいい。 SARIMAに対してもSARIMAXとして考えることもできる時系列に線形回帰を使ってから、残った残差にARIMAを使う方法をARIMA Errorモデルと呼ぶ ARIMAXと考えは同じ見た目は変わる

まとめ時系列 = 短期自己相関 (ARMA)+ 周期変動(S)＋トレンド(I)＋外因性(X)＋ホワイトノイズ(攪乱項) トレンドは差分で消してモデル化した後、差分を取った関係を逆に累積和にしてやれば求まる

Box Jenkins法時系列モデルを作るときに使う有名なフレームワーク差分を取って単位根検定(KPSSやADF)をして、何階差分にするか決めるカルマンフィルタ・最尤法によってパラメータを求める ARMAの次数の探索範囲を決める(コレログラムの確認) AICによって複雑さを気にしながら過学習しないように次数との釣り合いを取る RMSEではパラメータを気にしないため、過学習になる

単位根検定

KPSS検定帰無仮説：単位根なし対立：あり危険率5%で有意を調べる = + + ෍ =1 +
εは定常過程 uiはiid(0,σ^2) つまり定数項+トレンド+ランダムウォーク+定常過程もしトレンド成分があれば、時系列にはランダムウォークと定常が残り、単位根が残っているはず σ^2が0ならばランダムウォークは無いと考えるこれを帰無仮説とする対立は0でない。 β=０とした後に、残った成分に検定を行う？？

ADF検定 dickey fullar 検定対象がAR(1)モデルを仮定する帰無：単位根あり対立：なし DF検定の拡張Argumentである AR(1)モデルの係数が1のときホワイトノイズの累積和(ランダムウォーク)となり単位根をもつ帰無仮説：係数が1 対立：係数が1より小さい(ランダムウォークでなく減衰していく)
これがDF検定棄却点を求めるのが難しい AR(p)モデルに拡張したDF検定がADF

標準ブラウン運動や汎関数中心極限定理超一致推定量はpass

PP検定 phillips perron ADF検定はAR(p)過程を対象とした検定だった ARモデルだけが対象でなく、さらに広い範囲の自己相関や分散不均一性(heteroskedasticity)を考慮した検定長期分散 Newey west 推定量
bartlettカーネル parzenカーネル gallant推定量

以上のモデル選択(AIC)でえられたいくつかの候補、次数を元に次を調べる ARMAモデルが正しい階差をとれたデータに適応できている場合、その値は定常性と反転可能性を満たすはず定常性は・MAは常に定常よりARが定常であるかを確認する ARモデルが定常であるとわかった場合、ARモデルは反転可能であるよってMAの反転可能条件がARMAの反転可能条件と等しくなる定常・反転どちらも係数の特性方程式の解が1より大きいかどうかで確認する

auto ARIMA KPSS検定単位根があれば差分を取る差分系列にKPSS検定これを単位根が見つからなくなるまで繰り返す差分の次数が決まったら差分系列にARMAモデルを適応する定数項をつける・つけない+p,qの次数の組み合わせを網羅的に試す網羅したモデルをAICを計算
定常性・反転可能を確認満たすモデルを残す残ったモデルでAICを比較して小さいものを選択残差に抽出しきれていない要素(残差の自己相関)がないかチェック Ljung-box検定残差がちゃんとホワイトノイズ(正規分布)から大きく外れていないか正規性テスト Jarque-bera検定(尖度歪度で理論的な正規分布と比較)、 shapiro-wilk検定 SARIMAも同じ手順で自動化できる季節階差Dはcanova-hansen検定で判断していく定常性のある原系列に差分を取ろうとすると過剰差分(情報損失)が起こる

過剰差分定常性をもつ原系列に差分を取ってしまい情報が失われること ARFIMAモデル自己回帰実数和分移動平均モデル小数点以下を含む次数で差分を取ることで情報損失を最小にする考え or 非定常をそのまま表す状態空間モデルを使う or 単なる曲線フィッティング問題として解く prophet

最適予測 optimal forecast MSE最小となる予測のこと条件付き期待値がMSE最小にしてくれる yt= β+αyt-1+εt εtは0.8の確率で3 0.2の確率で-12を取る。 αβは既知
yt-1が与えられた時、将来のytの推定はεtによってのみ変化する MSE(c)=0.8*(αyt-1+3 - c)^2 + 0.2 *(αyt-1-12 - c)^2 これをcで微分して0に等置することでMSE最小の予測値が得られるつまり最適予測は条件付き期待値になる

将来の予測値の信頼区間 AR(1)でもAR(2)でもモデルが決まり、必要なyの値がそろっていれば少し先が予測できる ARモデルの誤差項がホワイトのイズであるならば、正規化して1.96を見ることで95%区間を計算できる現代ではシミュレーションのによって誤差項のとりそうな値を計算するシミュレーションN回のうち、よく出る値は多くのこりめったに出ない値もちょっとは出る以上のようにして信頼区間を近似することができるホワイトノイズ以外の分布場合ももちろんある。
カルマンフィルタを使用した信頼区間の求め方も存在する。そのためシミュレーションはあくまでも近似である

MA過程の最適予測 MA過程の値ではランダムウォークになっている無限個のyがあれば、階差数列を取れば分散εが求まる。ここでMSEは単にεのσ^2になる。ここで信頼区間をARと同じように求めることもできる

株価を予測するのは難しい効率的市場仮説市場が効率的なら株価は市場で関係する情報をすべて使って決まっている利用可能なデータだけで予測するには複雑すぎて難しい投資家はできるだけ情報を集め、その中の機微に反応する必要がある中にはこれで稼ぐ投資家も多い投資家の感じている特別な説明力を持つ変数を考えることは予測に重要になることは理解できるだろうしかし、その説明変数も時系列データであり、将来のデータがあるわけではないので、予測するのはやはり難しいもしxtが将来の値までわかっているのならば、予測式
pt = α + βxt + εt から予測できる xtがランダムウォークであった場合、ptも単位根過程であるならば有意な係数がえられてしまう

時系列データに線形回帰を使うと見せかけの回帰と呼ばれるものが起こるホワイトノイズに回帰をおこなっても有意な係数は得られないが(p値の性質から5%は有意になる) 単位根を持つホワイトノイズの累積和であるランダムウォークを回帰すると、p値が有意な係数や決定係数が求められるようになってしまう (無関係な単位根過程の間に有意な関係があるように見えてしまう現象のこと) 見せかけの回帰は、残差に自己相関があることで生じる残差の自己相関の有無を Durbin-Watson検定で調べる
回帰式 yt = β0 + β1xt + ut の残差部分の二乗和と、残差の階差の二乗和を割り算することでDW統計量が得られる無相関であれば統計量はおよそ2になる小さいと自己相関を疑う W = ෌ =2 − −1 2 ෌ =1 2

見せかけの回帰を回避するにはラグ変数を回帰に含ませることで回避できる yt = α + β1xt + β2xt-1 +
β3yt-1 + εt つまりArimaXやVAR、状態空間、一般化最小二乗法などを使う場合は気にする必要がない残差の自己相関も何らかの方法で表現することが必要また、ホワイトノイズは見せかけの回帰を起こしにくく、ランダムウォークはみせかけの回帰が起こることから、階差を計算してホワイトノイズ（定常過程）に戻せばいいという考えもあるが、差分を取ることで誤ったモデルを推定されてしまうこともあるので注意 1,実は差分を取る前から定常であった→過剰差分と呼ばれる過剰差分は反転可能でなくなるそのため差分を取る前に単位根検定を行う 2,もとの関係が見せかけの回帰でなく共和文関係である場合以上のことから、まず、見せかけの回帰の関係であるかを見極める必要がある単位根検定から単位根がなければ一般最小二乗法あれば共和分をチェック、共和分がなければ階差系列をとり共和分があれば階差をとると情報を失うことになるので注意

xtとytが単位根であるという前提があるならば誤差項が単位根の時は見せかけの回帰の関係誤差項が定常過程の時は共和文の関係になるつまり誤差項が単位婚過程であるかを調べればいいしかし、αもβも未知の状態では誤差項は求められないので、OLS残差を誤差項の情報として考える。この誤差項はあくまでも推定値なので、通常の単位根検定とは異なる棄却店をつかうこの検定はEngle-Granger共和分検定とよばれる

一般化最小二乗法 GLS は最小二乗法OLSと異なり、明示的に自己相関をモデルに組み込んでいるしかし、一般的にデータを見ただけでは自己相関の成分を事前に検討をつけることが難しいそのため、細かくOLSを適応し、自己相関のパラメータを逐次推定していく。この方法を実行可能Feasible GLS (FGLS)と呼ぶ AR(1)のモデルを例にして（prais-winsten法）
yt = β0+β1xt + ut ここで ut = ρut-1 + et と置いて係数ρをOLSによって求める y1=√(1-ρ^2)y1 yt=yt-ρyt-1 x1=√(1-ρ^2)x1 xt=xt-ρxt-1 と変換する Φ1=√(1-ρ^2) Φt=1-ρ 以上を使って以下をOLSによってβを推定する yt=β0Φt + β1xt + error

線形回帰する残差に対して切片なしの回帰を行うこの係数がρ

共和文とは定常過程の線形和は定常過程だった単位婚と定常の線形和は単位婚になる←d1>d2のときI(d1)とI(d2)の線形和はI(d1)となる、d2=0も同じ単位婚と単位婚の結果は？定常にも単位婚にもなる定常I(0)になるときを、共和文の関係が存在する(共和文している) という線形和なのでaxt + bytが定常I(0)になるようなa,bが存在する時を共和文とよぶ
より一般的にa’yがI(0)になるようなときに共和文の関係という a’を共和文ベクトルとよび、これは一位にさだまらない (線形和の関係なので、定数倍してもI(0)が崩れないから)

utは互いに独立な定常過程 wは互いに独立な単位婚過程 xt=αw1t+u1t yt=βw1t+u2t これはI(1)+I(0)過程となっている関係性としてd2>d1であればd2が優先されるはず変形して xt – α/β
yt = u1t – α/β u2t をみるとI(0)過程となっているつまりこのに変数には共和文の関係が存在し、共和文ベクトルは(1,-α/β)である

xt=w1t+u1t I(1) yt=w2t+u2t I(1) 任意のaを使ってxt-aytがI(1)となる線形和がI(0)にならないので共和文関係が存在しない見せかけの回帰は問題となる

xt=w1t+u1t I(1) yt=w2t+u2t I(1) st=w1t+w2t+u3t I(1) x,yに共和文は存在しない stとx,yにも共和文はないしかし xt
+ yt – st = u1t + u2t + u3t はI(0)であるよって3変数のとき共和文関係がある共和文ベクトルは(1,1,-1) 以上のことから、含まれる変数の関係性によっては共和文関係がうまれることになる

xt=w1t+u1t I(1) yt=w2t+u2t I(1) st=w1t+2w2t+u3t I(1) vt=2w1t+w2t+u4t I(1) a=(1,2,-1,0) b=(2,1,0,-1)
となる他にも共和文ベクトルを考えることができるが、それも結局はa,bの線形和によって表現される四変数の間には2個の共和文関係が成り立っている複数の共和文関係が存在する最大で変数の数-1個存在し、この値を共和文ランクとよぶ

x,yに共和文関係があるとは、x,yが単位婚過程である必要があった単位婚過程は将来の予測ができず、信頼区間は発散するしかし、共和文関係とはz=y-axtが定常過程I(0)になるということでもあった線形和が定常であれば、定常は予測できるつまり、x,y個別ではわからないのに、共和文関係の変数を関係させることで定常になり予測できるのである定常とはつまり最終的にyt-axt-b=0になるように収束していくというものだった b=E(z)であるつまりy=ax+bが成り立っていると考えられる。以上の概念はgrangerとengleの貢献によるものが大きい

ケインズ型の消費関数消費は所得水準のみできまるこの関係を線形で表すと ct = α + βyt ytはt期の所得(GDP)であり、ctは消費である αは基礎消費ともよばれ
βは限界消費性向とよばれるこの数式は単に回帰分析で係数を求めるだけではうまく溶けないなぜなら消費もGDPも単位婚過程に従うことが多いので見せかけの回帰関係になるそこで共和文関係を検証しよう共和文関係が存在するならば、共和文関係のほうを消費関数として扱っていいということになる

購買力平価 PPP 仮説とは、為替レートで同じ通貨に換算したら各国の物価水準が等しくなるという過程これは背後に一物一価の法則で、物価水準の安い方で購入し、高い方で売れば利益になるので為替レートを調節した後の二国の物価水準に大きな差はないという法則長期的にはPPP仮説が成立するように為替レートが調節されていくはずこれを共和文関係をつかって考えるならば
PJPt 日本物価水準 PUSt アメリカ物価水準 Et 円ドル為替レート (円/ドル) とする。PPP仮説は PJPt = Et * PUSt が成立する、ということである両辺対数をとる。対数を取った三項は単位婚過程に従うことがおおい。もしPPP仮説が成立するならば近似誤差Ztが定常過程であると言えるはず log(PJP) = log(E) + log(PUS) +zt zt~I(0) 共和文ベクトル(1,-1,-1)とおいて成り立つかしらべることで3変数間に共和文があるかを調べればよい

リスクプレミアムとフィッシャー効果社積の名目金利 rt 国債の名目金利it インフレ率πt が単位婚過程であることが知られているとする社債には信用リスクが存在し、国債の金利よりも高いことが想像つく rt-itはリスクプレミアムと呼ばれるこれは景気によって変動するが、定常であることが予測される。以上の関係を確かめるには
rt = α1 + it + u1t u1tはI(0) という共和文が成り立てばよい名目金利が変化しても、実質金利(名目金利-πt)が変化しないことはフィッシャー効果と呼ばれるフィッシャー効果が正しければ it = α2+πt + u2t u2tはI(0) という関係が成立することになる。 3変数からなる関係が以上の2つの共和文で表せるならば成立するはず

差分系列の共和分データXの各変数がd次の和分過程I(d)に従う変数の線形結合をとるとI(d-b)に次数が減る時 Xの各変数xtは共和分の関係にあると呼びxt~CI(d,b)とかく 1次の和分過程(単位根をもつ) の変数同士を線形結合すると定常過程(0次の和分過程)になるとする x1=0.6*ランダムウォーク+ノイズ x2=0.4*ランダムウォーク+ノイズ x1
- 0.6/0.4 x2 = Z とする。線形結合(定数倍と足し引き)によってランダムウォークの差分系列になったよってランダムウォークはホワイトノイズ(定常 0次)になる以上の関係が共和分関係である。 x1,x2でなくx,yの関係にある時、差分系列をとると、本来の0.6や0.4といった関係が見逃されることになる

共和分検定ベクトル誤差修正モデル VECM や Engle-Granger法などがある後者は2変数の共和分関係しか調べられない単位根を持つデータにOLSで回帰する残差に単位根検定を行い、単位根が無くなれば共和分ありとみなす共和分関係にあれば、係数の推定(線形結合)によって残差に単位根が残らなくなる。
残差の単位根検定はADFやKPSSでなくPO検定(phillips-Ouliaris検定)を使う

共和文ベクトルを推定するなら a=(1,-γ2, -γ3,・・・) y1t = α + γ2 y2t +
γ3 y3t・・・これをOLSで推定する。 yたちに複数の共和文があった場合、今回推定した共和文ベクトルが求めている関係性であるとは限らないので注意あくまでもOLS残差が説明変数の線形和のなかで定常になるものを除く方法であり、それらと無相関になるような共和文ベクトルが求められるだけである

共和文関係であるのかの検定としては共和文ベクトルがわかっている場合ならば、 a=(1,1,-1) pjp = et + pus を qt
= pjp – e – pus と変形してからqtに単位婚検定を行うもし共和文ベクトルが未知で1つである場合にはengle granger共和文検定を使う a=(1,-γ2,・・・) y1t=α+γ2y2・・・のOLS残差に単位婚検定を行う棄却できなければ共和文棄却なら見せかけの回帰となる。これらにもまだまだ問題はある。 johansenのVECMに基づいた検定トレース検定と最大固有値検定は問題に対して対処できるらしいがむずいのですいません。。。

VARモデルベクトル自己回帰モデル目的としては・複数変数で精度を上げる・変数間の動的な関係を分析する ARモデルをベクトル(1変数間でなく複数変数の行列)に拡張したもの VAR(p)ならp期前の自己の値と定数で時点tを表現するモデルである複数の時系列データを統合してモデル化する・Granger因果という考え方で因果の有無を調べる
・ある時系列の増加に対して、別の時系列の変化はどうかという変化・影響を定量化できる関係性を表したものをインパルス応答関数とよぶ（2変量） 1次VARモデル yt=c1 + Φ11yt-1 + Φ12xt-1 +ε1t xt=c2 + Φ21yt-1 + Φ22xt-1 +ε2t お互いの値をお互いの一つ前の値で表現するモデル

VARモデルはARモデルと同じく定常になるとは言えない特性方程式を解いて解の絶対値が1を超える時に定常になる VARはVMA(∞)に変形することができる VARはytを表すためにx1tやx2tといった同時点tの他変数の値は参照しない同時方程式モデル(simultaneous equation model)では無いと言えるただし、無関係というわけではなく誤差項の相関を通じて関係しているので、見かけ上無関係な回帰モデル(SUR:seemingly
unrelated regression model)と呼ばれる予測対象yを含むn変数であるn変量VARモデル SURモデルは、誤差項の相関を使うため、n本の回帰式を同時に解く必要がある VARモデルはSURと異なり、各回帰式が同一の説明変数を使うので同時に解く必要がない。個別にOLSで解いていけばいいという利点から流行の原因にもなった

VARモデルはパラメータが多い (誤差項、係数行列) ARモデルと同じく次数を1から最大値まで動かしてAICの最もいいものを選ぶ方法が主流だがパラメータが大きいので小さいモデルが優先的になる場合がある動きの少ない時系列データの影響をとらえるためには次数が大きくなくてはならない場合が多いので経験的判断が必要 VARMAも存在するが前述のパラメータの多さからあまり実践に好まれて使われてはいない

Granger因果性検定相手の時系列データがあることで予測精度が上がるかどうかで判断因果関係があるとデータから言うのは因果推論でも極めて難しい問題 Grangerでは「その時系列を使って表現すると予測精度が上昇する」という関係性を因果の代用とする考え ※定常データを対象にした分析にしか使えない yだけの予測よりも xを使用したyの予測のほうが精度が上昇するとき、xからyへのグレンジャー因果性がある
という通常の因果性の必要条件であるが十分条件ではない因果はx-yという方向でもグレンジャー因果はy-xとして表示されることもあるので、因果背景が確かめられていない場合は、あくまでも予測精度を良くする調整項として考える

ytがxt-kと期待値0の誤差を使って表せるとき yはxの分布ラグモデルに従うというただし、誤差項とxの相関は無相関である cov(x,ε) 任意のt,sで。∀t,s ytはxt-kの情報からのみ表現することができる逆に言えばytによってxtを表現することができない。すなわち、ytがxtの分布ラグモデルによって表現できるとき、 xtはytへのグレンジャー因果性を持ち、ytはxtにグレンジャー因果性を持たない

インパルス応答関数IRF impulse response function 一方に変化を与えた時、もう一方にどれだけ影響が残るのか調べる xtの攪乱項εtに変化を与えた時、yのt+k期後に影響が出たことを考える。 xtがショックを受けることでyt+kが反応したことを非直行化インパルス応答と呼ぶこのkを関数として考え、非直行化インパルス応答関数と呼ぶ
yt+kに関する偏微分を、変数Xのεtの偏微分で割った値が応答の値 k=0から逐次ためして調べるしかし、攪乱項は変数間に相関がある。そのため、ショックを与えたら影響が出るのは当然。そこで、相関する誤差項と、そうでない誤差項に分けて考えるべきというものが直行化インパルス応答関数の考え。

2変数のノイズについて、相関している部分と独立な部分に分ける互いに無相関な攪乱項は、直交化攪乱項とよばれる無相関な攪乱項のインパルス応答を求める関数を直行化インパルス応答関数と呼ぶしかし、相関していない攪乱項に分解するというのは仮定がなければ難しいそこで、攪乱項の分散共分散行列を三角分解したとき、攪乱項が無相関なものに分解できるという前提仮説のもとに分解する方法。
コレスキー分解三角分解再帰的構造あたり不明だったP93 再度補足を調べることどの変数がどのくらいのラグで影響が出るのかどのくらい影響は続くのかを確認するもの

分散分解別名予測誤差分散分解予測対象の変数の説明できない不確かさ(不確実性)は、他の変数でどれだけ説明できるのかを分析するものインパルス応答関数で直行化された誤差項からどの変数がどれだけの影響を与えているかを測るもの影響率を相対的分散寄与率RVCと呼ぶ

構造VAR 構造攪乱項構造型誘導型同時方程式バイアス再帰的構造型VAR このあたり不明調べること

ARCH 自己回帰条件付き分散不均一モデル conditional heteroskedasticity model ARCH(1)を考える一時点前のノイズが大きければ、次の時点もノイズの分散は大きいまま継続してノイズは大きくなる、というモデルである

GARCH 一般化ARCHモデルより長いデータのブレ幅（ボラリティ）が続くことを考えたモデルパラメータはすくなくしたい ARCH(m)の次数を増やすとm時点前までのノイズを考慮する m時までのノイズを加味するのでパラメータも複数追加される GARCHではばらつきが次第に大きくなっていく

GARCH 経済データではボラリティが大きく変化する時期がある例えばウイルスで株価が落ちれば手放す人は増えるし逆に購入者が殺到する場合もあるだろうこのように金融商品には収益率が変動する時期があり、このボラリティは不安定であるこの現象をボラティリティクラスタリングと呼ぶボラティリティ変動モデルとして、ばらつき自身の相関もモデルに組み込むことで、ばらつき自体もモデルとして考える方法の代表的なものがGARCHである

ボラティリティのモデル化株式収益率yt 効率的市場仮説からytの予測は難しいだろう yt = μ +ut (utはホワイトノイズ) とモデル化するとしよう ut
= y – μ として、これの二乗 ut^2 = (y – μ)^2 についてacfをつくる。もしacfが大きな値を残している場合、モデルが性格でないことが考えられる。つまり過去のばらつきから現時点のばらつきの値も変化させてやりたい E(ut|ut-1・・・)

求めたいものは予測値であり、起こるかもしれない幅をモデル化することに重要性を感じないかもしれないがボラティリティは現在の株のリスクを表すものでもある。 yt = μt + ut =
μt + √htvt というモデルを考える。μtはARやARMAのような条件付き期待値モデル ht,vtが条件付き独立であるならば E[(yt-μt)^2 |yt-1,yt-2・・・] = E[(ut^2|yt-1,yt-2・・・)] が成り立ち、独立性からutをht,vtに分解することで =E[ht| yt-1・・・]*E[vt|yt-1・・・] =E[ht| yt-1・・・] となる。htのモデル化は2タイプある

1つめGARCHモデル htはt-1までの情報集合に宇熊れる変数からモデル化される E[(yt-μt)^2 |Ωt-1]=E[ht|Ωt-1] = ht 条件付き分散自体をhtとして考える方法 2つ目確率的ボラティリティモデル(SV:stochastic volatility model)
htは過去の情報集合に含まれない確率変数を含む

GARCHモデルまずARCHとはARモデルの考えを分散の当てはめに使うモデル ARCH(m) ht=ω + α1ut-1^2 + α2ut-2^2 +・・・とモデル化したもの。
wt = ut^2 – ht = ut^2 –E[ut^2|ut-1,ut-2・・・] とすると ut^2=ω + α1ut-1^2 + α2ut-2^2 +・・・+wt と表現でき、攪乱項の二乗をARモデルで表現したことになる。しかし、u^2には初期値が必要となり、初期値にはyt-μtの標本分散を使うことが多いまた、ht>0であり、これを満たすための制約としてω>0,αj>=0がある

ARCH構造のutの性質 ut^2の定常性は、ARモデルであるので特性方程式の解が1以上なら定常といえるただし、αj>=0の制約ではα1+α2・・・が1より小さくなる。定常ならば期待値を持ち、値は E[ut^2] = ω/1-α1-α2-・・・である ???utの四次モーメントが存在するにはα1^2< 1/3
である必要がある???四次モーメントってなんで必要なんだっけ

今までARCHの話をしてきたが、ボラティリティは上側と下側で挙動が違うことも考えられる金融ではボラティリティは比較的長く正の自己相関をもつことがあるそのため、ARCHで金融データを当てはめようとすると次数が大きくなってしまうことが考えられる次数が大きければパラメータも増えるより単純なモデルで自己相関を表現できるモデルとしてGARCH(r,m)が考えられた ht = ω+β1ht-1 +
・・・＋βrht-r + α1ut-1^2 +・・・+ αmut-m^2 htはh1から順に推定していく hとu^2は両方の初期値が必要となるどちらもyt-μtの標本分散を用いることが多い ht>0のための制約としてω>0,αj>=0,βj>=0が仮定されることが多い GARCHのut^2はARCHで推定したものではないことに注意

ARCHでの推定ではないこと wt=ut^2-ht=ut^2 –E[ut^2|yt-1,yt-2,…] とすると ut^2=ω+(α1+β1)ut-1^2+(α2+β2)ut-2^2…(αp+βp)ut-p^2 +wt-β1wt-1 –β2wt-2・・・-βrwt-r 以上からut^2はARCHでなくARMA(p,r)過程でモデル化されている p=max[r,m]である ARの係数は(αj+βj)である
MAの係数は-βjである特にGARCH(1,1)が良く使われる。 ht = ω+βht-1 + αut-1^2 ボラティリティクラスタリングなどの減少をうまくモデル化できる場合が多いそのため天下り的にこのモデルが使われる場合がおおい

GARCH(1,1)モデルの定常条件はARの係数α+β<1となること α+βが大きいほど分散が持続する α+β=1のとき分散は恒久的に持続する。これを特にIGARCHモデル integrated GARCHモデルと呼ばれる定常のGARCH(1,1)モデルのとき、 ut^2の期待値は ω/1-α-β
今回のモデルもボラティリティの正のショックと負のショックは分散に対して同一である金融や株では負のショックのほうが影響が大きいことが知られているこれをレバレッジ効果と呼ぶ株が下落して企業のレバレッジが上昇し株の信用性が下がるためであるまた、投資家も負のショック後は様子見をしやすい心理がはたらく

GJRモデル Glosten-Jagannathan-Runkle GARCH model のように、状況によってノイズの変わり方を分けることができるモデルがある GARCHモデルのひとつ実際にはut-1<0のときにダミー変数に1が入り、 ut-1>=0のときには0をとるようなIt-1という変数をつくっている ht=ω+βht-1 +
αut-1^2 +γut-1^2*It-1 この変数を利用して、正のショックはαという影響をもち、条件付き分散を増大させる負のショックはα+γというショックを持つように表現するこうしてショックごとに挙動を変えるモデルをつくることができた GJR(1,1)モデルでhtが必ず正となる条件は ω>0,α>=0,β>=0,α+γ>=0 である

他にもGARCHモデルの一種として EGARCHモデル(exponential GARCH) log ht = ω+βlog ht-1 + γvt-1
+δ(|vt-1|-E[vt-1]) 対数化しているため必ずht>0となるのでパラメータに制約がなくなるショックはut-1でなくvt-1が使われるショックは二乗でなく絶対値で組み込まれている δ>0のとき大きなショックが分散を増大させる γ<0のとき正のショックよりも大きい影響を及ぼす

GARCH-Mモデル(GARCH in the mean model) 条件付き分散が条件付き期待値に影響を与える条件付き分散が大きいとき、期待値も高くなるというモデルであり、ハイリスクハイリターンを表すもでるとなる

GARCHモデルの推定最尤推定によって行われる一般化誤差分布やファットテイルは調べるか GARCHとARCHとGJRモデルはAICやBICによって同列で比較することができる (お互いにパラメータを加えたモデル関係になっているから)

状態変化を表すモデル景気の変動などが時系列には含まれる ARMAやGARCHも時系列の循環やボラティリティを表現するという意味では変動をとらえているしかし、景気や外因性による時系列の変化点などを表現することは難しい方法としては観測可能な変数で表現する閾値モデル平滑推移モデル観測不可能な変数があるとして表現するマルコフ転換モデルの二通りがある

閾値(threshold)モデルある変数がある閾値を超えているかどうかでytの従う値を変化させるこの時使う変数を状態変数というある値からモデル自体が変化するようなときに使われる特にTAR(threshold AR)モデルを紹介する yt=Φ01 + Φ11yt-1 +
σ1εt st<c yt=Φ02 + Φ12yt-1 + σ2εt st>=c 閾値を超えた時点でモデルを切り替える今回はAR(1)モデルを切り替えるようにした 3状態以上にも拡張できる閾値stの選択としてyt-dが使われることがある過去のy自身の値を使ってモデルが変化するので自己励起型閾値モデル self exciting threshold model と呼ばれる d=1が用いられることが多い

さらに自己励起型閾値モデルにARモデルを使った場合はSETARモデルと呼ばれる stには時点tを使うこともあるつまりある時点を超えた段階でモデルを切り替えるというもの。閾値モデルはある点から大きくモデルが変化するしかし、すべてがある地点を境に変化するとは限らない。もっと滑らかに変化していくことも考えられる滑らかな変化を考えたモデルを平滑推移モデル smooth transition
model であり、ARモデルが使われるときSTARモデルと呼ばれる

2状態のSTAR(1)モデル G(・)を推移関数transition functionとする stを推移変数とする yt = (Φ01 + Φ11yt-1)(1-G(st)) +
(Φ02 + Φ12yt-1)G(st) + σεt 上式で2つの状態を持つ状態変化の仕方が滑らかになっているのが特徴 stは自身の値yt-d や線形トレンド t/T が使われる推移関数にはロジスティック型が使われるもの(LSTAR)や指数型(ESTAR)が代表的ロジスティック型の推移関数は G(st,γ,c) = 1/ 1+exp(-γ(st-c)) ただしγ>0 γは推移速度を調整するパラメタ大きいほど変化が大きい ∞ならばcにおいて0から1に急に変化するのでLSTARはTARと同値になる cは推移の中心を決めるパラメタ

stが観測不可な場合のマルコフ転移(MS)モデルmarkov switching model 経済の分野では状態のことをレジーム(regime)と呼び MSモデルはレジーム転換(RS)モデルと呼ばれることもある状態は未知であり、stがM個のパターン存在すると考える yt=Φ01 + Φ11yt-1 +
σ1εt st=1 yt=Φ02 + Φ12yt-1 + σ2εt st=2 st=Mのときまで拡張できる MSAR(1)では一般化すると yt=Φ0(st) + Φ1 (st) yt-1 + σ (st) εt と表現できる状態stは確率過程としてマルコフ連鎖を採用する来期の状態を今季と過去の値を反映させて決めるためにマルコフ連鎖が使われる

状態空間モデル見えない状態があると仮定したモデル観測値に現れる観測誤差の他に、誤差でなく影響を与える何かの変化があると考えるもの状態の変化と観測誤差を分けることで、誤差として考えていいかも判断できるようになるメリット状態を表す方程式状態から観測地が得られる過程を表す観測方程式をつくる差分を取る必要がない ARIMAも表現できる欠損地があってもいい
ただし、box jenkinsのようにフレームワーク化していないので自動化は難しい box-jenkinsと状態空間どちらに取り組むべきかはコストに応じたり状態という解釈可能性をとったりといった観点で選ぶどっちが精度いいってわけじゃない

状態 = 前時点の状態を使って予測値を得る + 過程誤差(状態で生じる誤差?) 観測値 = 状態 + 観測に関する誤差
フィルタを使ってパラメタを推定ここではカルマンフィルタ+最尤推定粒子フィルタも有名線形かつノイズが正規分布に従うデータしかできない線形ガウス状態空間モデルもしくは動的線形モデル DLM と呼ばれるベイズ推定+HMC法で、状態とパラメタを分けずに同時に求める方法もあるこの場合stanが必要一気に計算を行う方法なので計算コストが高い

フィルタとは、状態の初期値を決める状態を予測する予測した状態から観測地を予測実際の観測地と比較状態を修正さらに１step先を予測これを繰り返し状態を修正していくことこれを行うのがカルマンフィルタ、カルマンの補足版の散漫カルマンフィルタ

平滑化観測値が得られたうえで、過去の状態を未来を含めたすべての観測地で修正する

過程誤差wt (0,σv)、観測誤差Vt (0,σw)の分散を最尤法により推定するこれらを取り入れた基本的なモデルローカルレベルモデルまたはランダムウォークプラスノイズモデル μt = μt-1
+ wt yt = μt + Vt ホワイトノイズの累積和過程であるランダムウォークに観測誤差としてのノイズが加わっている過程誤差と観測誤差の期待値は0であるため、yt=μt-1となるそのため将来の予測には使えないようなモデルであるとわかる

ローカル線形トレンドモデルトレンド成分の傾きが時間経過によって変化することを表せる δt= δt-1 + ξt μt = μt-1 +
δt-1 + wt yt = μt + Vt 線形回帰 yt=α + t*β + Vt δt= β μt = μt-1 + δt-1 yt = μt + Vt ただし初期μ0=α

線形ガウス状態空間モデルの状態方程式・観測方程式 xt = Tt xt-1 + Rt ξt (0,Qt) yt
= Zt xt +εt (0,Ht) ローカルレベルモデル μt = μt-1 + wt yt = μt + Vt ローカルレベルはTt=1 Rt=1 Zt=1 Xt=μt Qt=σ^2w Ht=σ^2v である。ローカル線形トレンドモデルはTtやRt等を行列形式に変換すると線形ガウス状態空間モデルで表現できる

基本構造時系列モデルBasic structural time series model 時系列=トレンド+周期変動+ホワイトノイズ今までの方法ではトレンドを差分で消した状態空間モデルではトレンドは状態で表現できる ARIMAXモデルでは外生変数（回帰成分とも呼ぶ）から外因性をモデルに組み込める状態空間では傾きが時間によって変化する
時変係数も表現できるローカルレベルモデルに時変係数を入れるとできる βt= βt-1 + τt μt = μt-1 + wt yt = μt + βt Φt + Vt Φtは外生変数でありβtは変化する回帰係数 (ローカル線形トレンドモデルみたい) δt= δt-1 + ξt μt = μt-1 + δt-1 + wt yt = μt + Vt

カルマンフィルタによる状態推定補正後の状態(フィルタ化推定量)=補正前の状態+カルマンゲイン*(実際の観測地-予測値) カルマンゲインは1以下の値で学習率のようなものカルマンゲインは過程誤差と観測誤差をもとに決めるもし観測誤差が大きければ、そもそもモデル化できないわけなので、補正すべきではないカルマンゲイン=状態の予測誤差の分散 / (状態の予測誤差の分散 + 観測誤差の分散)

ローカルレベルモデルの予測とカルマンフィルタによるフィルタリングの流れ予測ローカルレベルモデルでは・状態の予測=前期の状態の値 1step進むと過程誤差が足される・状態の予測誤差の分散=前期の状態の予測誤差の分散 + 過程誤差の分散・観測値の予測値=状態の予測値これに観測誤差が加わる
・観測値の予測誤差の分散=状態の予測誤差の分散+観測誤差の分散フィルタリング・カルマンゲインの計算観測誤差の分散は観測値の予測誤差の分散に置き換えていい・予測値と実測の差を求めてフィルタ化推定量を求めるフィルタ化推定量=補正した状態フィルタ化推定量の分散=補正状態の予測誤差の分散こうして将来を予測する。

状態の初期値μ0 状態の予測誤差の分散の初期値P0 パッケージdlmではμ0=0,P0=100000で設定とりあえずで決められていることに注意カルマンフィルタの流れ t時点の状態のフィルタ化推定量をμt|t Pt=var(μt|Yのt-1までの値) 状態の条件付き分散 Ft 観測値の予測誤差の分散
Kt カルマンゲイン μt = μt-1|t-1 Pt=Pt-1|t-1 + σ^2w y(予測)t=μt Ft=Pt+σ^2v Kt = Pt / Pt+σ^2v = Pt / Ft yresid,t = yt-y予測t μt|t = μt L Kt*yresid,t Pt|t =(1-Kt) Pt

散漫カルマンフィルタ散漫初期化カルマンフィルタでとりあえず置いている状態の初期値を置かない状態の予測誤差の分散は∞とする散漫初期化を行ったカルマンフィルタを散漫カルマンフィルタと呼ぶ状態の予測誤差の分散を決めてしまうことで初期部分のモデル化に失敗する大きな値にすることで状態の補正が早くなる。過程誤差の分散が小さければ状態の値は初期値のまま観測誤差の分散が小さい時は状態で観測値を表現してしまう

平滑化平滑化推定量昨日のフィルタ化推定量 + 昨日のフィルタ化推定量の分散/今日の観測値の予測誤差の分散 * 今日の予測残差

時系列データ解析まとめ

時系列データ解析まとめ

More Decks by Ringa_hyj

Other Decks in Science

Featured

Transcript