BSTS貝葉斯結(jié)構(gòu)時(shí)間序列模型(Bayesian Structural Time Series)
一、引言——“胖”回歸下變量選擇+即時(shí)預(yù)測(cè)
人們判斷影響變量都是通過自己的主觀看法,但是主觀看法下,就會(huì)出現(xiàn)"fat regression"問題(變量極多,但是觀測(cè)值不夠),下面BSTS方法就是針對(duì)這一問題提出使用的。
當(dāng)預(yù)測(cè)變量比觀測(cè)變量還要多的時(shí)候,當(dāng)在短期時(shí)間序列預(yù)測(cè)過程中,我們的方法是結(jié)合三種貝葉斯方法:卡爾曼濾波法、spike-and-slab回歸、模型平均。
Choi and Varian展示了如何應(yīng)用搜索引擎的數(shù)據(jù)進(jìn)行宏觀經(jīng)濟(jì)指標(biāo)的預(yù)測(cè),這種即時(shí)預(yù)測(cè)的方式,非常得中央銀行的喜歡,并進(jìn)行了很多相關(guān)研究。Arola and Galan [2012], McLaren and Shanbhoge [2011], Hellerstein and Middeldorp [2012],Suhoy [2009], Carri`ere-Swallow and Labb′e [2011]. Choi and Varian [2012] 就進(jìn)行了相關(guān)的研究。
二、變量選擇問題
Castle et al. [2009, 2010] 描繪了21中變量選擇的技術(shù),時(shí)間序列的預(yù)測(cè)重要?dú)w類為四種方法:顯著性檢驗(yàn)(向前、向后逐步回歸法);信息準(zhǔn)則(AIC BIC);主成分因子分析模型;lasso 嶺回歸和其他懲罰性模型。
三、BSTS模型的子模型族
1、BSTS是一個(gè)模型集合體,BSTS結(jié)合了三種統(tǒng)計(jì)方法進(jìn)一個(gè)集體系統(tǒng)中(兩個(gè)部分:趨勢(shì)部分+回歸部分)。
a、用基礎(chǔ)的狀態(tài)空間結(jié)構(gòu)模型做趨勢(shì)和季節(jié)擬合(模型的趨勢(shì)部分),卡爾曼濾波用來估計(jì)先驗(yàn)p的分布;
b、用spike-slab 回歸做變量選擇(模型的回歸部分);
c、用貝葉斯模型平均法(Bayesian model averaging)做預(yù)測(cè);
d、估計(jì)方法,用MCMC模擬后驗(yàn)分布生成的樣本集,來進(jìn)行估計(jì)。
很多下述學(xué)者應(yīng)用了卡爾曼濾波法對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行預(yù)測(cè),空間狀態(tài)結(jié)構(gòu)模型將時(shí)間序列進(jìn)行劃分,成水平項(xiàng),常規(guī)趨勢(shì),季節(jié)效應(yīng)和誤差項(xiàng)。這個(gè)模型是一個(gè)泛隨機(jī)化的模型,這個(gè)模型加入了季節(jié)效應(yīng)的作為一個(gè)回歸組成。
卡爾曼濾波法是很好的估計(jì)狀態(tài)空間模型的方法,他能夠計(jì)算p(x/x)預(yù)測(cè)分布濾波與平滑是常見的空間狀態(tài)模型的計(jì)算步驟
George and McCulloch[1997]) and Madigan and Raftery [1994].論文研究了spike-slab對(duì)于變量的選擇。
spike-and-slab在回歸估計(jì)之前的變量稀疏問題,這個(gè)系統(tǒng)從龐大的模型集中尋找有貢獻(xiàn)的模型,我們用他來進(jìn)行即期預(yù)測(cè),但這一方法可以用在很多短期預(yù)測(cè)
5、模型的估計(jì)
Scott and Varian【2012】,用MCMC技術(shù)通過后驗(yàn)分布來生成模擬樣本這些技術(shù)生成了參數(shù)后驗(yàn)分布的樣本集,這些樣本集可以作為預(yù)測(cè)用。
四、結(jié)果分析
1、后驗(yàn)包含分布
等式8強(qiáng)加給系數(shù)為0的變量一個(gè)正向概率(與概率密度不同)(給系數(shù)施加一個(gè)密度約束條件的方程),因此這個(gè)等式是全后驗(yàn)分布的一個(gè)共同特征,并不是簡(jiǎn)單的模型中的值。
這個(gè)的全概率無法計(jì)算,但是邊緣包含概率可以被蒙特卡羅模擬的樣本估計(jì)出來。
2、initial claims data模型后驗(yàn)分布
在最初數(shù)據(jù)中對(duì)狀態(tài)的貢獻(xiàn)。圖4.5是每一個(gè)時(shí)點(diǎn)潛在狀態(tài)的動(dòng)態(tài)后驗(yàn)分布
圖4代表聯(lián)合狀態(tài),代表沒有數(shù)據(jù)噪聲下序列的平穩(wěn)值。
圖5代表,每一個(gè)組成部分地貢獻(xiàn)(脈沖圖類似)。圖5是一個(gè)最初變量被趨勢(shì)、季節(jié)和回歸部分所解釋的多少。趨勢(shì)部分兩次觸底,但是季節(jié)和回歸部分,展示了更顯著的變化。
黑色實(shí)線是狀態(tài)均值,1%的中值置信是淺顏色的,一直到99%置信,顏色逐漸變淡。
可以看到前期預(yù)測(cè)的效果不是很好,波動(dòng)幅度很大,所以造成前期預(yù)測(cè)誤差。后期預(yù)測(cè)誤差趨于穩(wěn)定,直到很小。
增量顯示圖,季節(jié),趨勢(shì),某兩個(gè)個(gè)體的趨勢(shì)圖下面還有誤差的圖。
消費(fèi)者信心使用趨勢(shì)預(yù)測(cè)數(shù)據(jù)的分解,MAE是平均絕對(duì)誤差,這個(gè)與隨機(jī)森林變量選擇中的(重要性評(píng)分)原理相同,越大越好。
(需要Code的,加我好友,私信我,帖子下面的回復(fù)不太能夠看到...)