BSTS貝葉斯結構時間序列模型(Bayesian Structural Time Series)
一、引言——“胖”回歸下變量選擇+即時預測
人們判斷影響變量都是通過自己的主觀看法,但是主觀看法下,就會出現(xiàn)"fat regression"問題(變量極多,但是觀測值不夠),下面BSTS方法就是針對這一問題提出使用的。
當預測變量比觀測變量還要多的時候,當在短期時間序列預測過程中,我們的方法是結合三種貝葉斯方法:卡爾曼濾波法、spike-and-slab回歸、模型平均。
Choi and Varian展示了如何應用搜索引擎的數(shù)據(jù)進行宏觀經(jīng)濟指標的預測,這種即時預測的方式,非常得中央銀行的喜歡,并進行了很多相關研究。Arola and Galan [2012], McLaren and Shanbhoge [2011], Hellerstein and Middeldorp [2012],Suhoy [2009], Carri`ere-Swallow and Labb′e [2011]. Choi and Varian [2012] 就進行了相關的研究。
二、變量選擇問題
Castle et al. [2009, 2010] 描繪了21中變量選擇的技術,時間序列的預測重要歸類為四種方法:顯著性檢驗(向前、向后逐步回歸法);信息準則(AIC BIC);主成分因子分析模型;lasso 嶺回歸和其他懲罰性模型。
三、BSTS模型的子模型族
1、BSTS是一個模型集合體,BSTS結合了三種統(tǒng)計方法進一個集體系統(tǒng)中(兩個部分:趨勢部分+回歸部分)。
a、用基礎的狀態(tài)空間結構模型做趨勢和季節(jié)擬合(模型的趨勢部分),卡爾曼濾波用來估計先驗p的分布;
b、用spike-slab 回歸做變量選擇(模型的回歸部分);
c、用貝葉斯模型平均法(Bayesian model averaging)做預測;
d、估計方法,用MCMC模擬后驗分布生成的樣本集,來進行估計。
很多下述學者應用了卡爾曼濾波法對時間序列數(shù)據(jù)進行預測,空間狀態(tài)結構模型將時間序列進行劃分,成水平項,常規(guī)趨勢,季節(jié)效應和誤差項。這個模型是一個泛隨機化的模型,這個模型加入了季節(jié)效應的作為一個回歸組成。
卡爾曼濾波法是很好的估計狀態(tài)空間模型的方法,他能夠計算p(x/x)預測分布濾波與平滑是常見的空間狀態(tài)模型的計算步驟
George and McCulloch[1997]) and Madigan and Raftery [1994].論文研究了spike-slab對于變量的選擇。
spike-and-slab在回歸估計之前的變量稀疏問題,這個系統(tǒng)從龐大的模型集中尋找有貢獻的模型,我們用他來進行即期預測,但這一方法可以用在很多短期預測
5、模型的估計
Scott and Varian【2012】,用MCMC技術通過后驗分布來生成模擬樣本這些技術生成了參數(shù)后驗分布的樣本集,這些樣本集可以作為預測用。
四、結果分析
1、后驗包含分布
等式8強加給系數(shù)為0的變量一個正向概率(與概率密度不同)(給系數(shù)施加一個密度約束條件的方程),因此這個等式是全后驗分布的一個共同特征,并不是簡單的模型中的值。
這個的全概率無法計算,但是邊緣包含概率可以被蒙特卡羅模擬的樣本估計出來。
2、initial claims data模型后驗分布
在最初數(shù)據(jù)中對狀態(tài)的貢獻。圖4.5是每一個時點潛在狀態(tài)的動態(tài)后驗分布
圖4代表聯(lián)合狀態(tài),代表沒有數(shù)據(jù)噪聲下序列的平穩(wěn)值。
圖5代表,每一個組成部分地貢獻(脈沖圖類似)。圖5是一個最初變量被趨勢、季節(jié)和回歸部分所解釋的多少。趨勢部分兩次觸底,但是季節(jié)和回歸部分,展示了更顯著的變化。
黑色實線是狀態(tài)均值,1%的中值置信是淺顏色的,一直到99%置信,顏色逐漸變淡。
可以看到前期預測的效果不是很好,波動幅度很大,所以造成前期預測誤差。后期預測誤差趨于穩(wěn)定,直到很小。
增量顯示圖,季節(jié),趨勢,某兩個個體的趨勢圖下面還有誤差的圖。
消費者信心使用趨勢預測數(shù)據(jù)的分解,MAE是平均絕對誤差,這個與隨機森林變量選擇中的(重要性評分)原理相同,越大越好。
(需要Code的,加我好友,私信我,帖子下面的回復不太能夠看到...)