雙重機(jī)器學(xué)習(xí)(Double Machine Learning, DML)方法不要求核心解釋變量必須是0-1的二值變量。雖然很多研究中應(yīng)用雙重機(jī)器學(xué)習(xí)方法時(shí),核心解釋變量(treatment variable)是政策的影響,這通常表現(xiàn)為一個(gè)二值變量(例如是否接受政策干預(yù):1代表接受,0代表未接受),但這并不意味著該方法只能用于處理二值變量的場(chǎng)景。
核心解釋變量為連續(xù)變量的情況
雙重機(jī)器學(xué)習(xí)方法的理論框架能夠處理核心解釋變量是連續(xù)變量的情形。這種情況下:
核心解釋變量可以是任何形式的數(shù)值變量,例如一個(gè)特定指標(biāo)的水平、時(shí)間序列中的觀測(cè)值或其他連續(xù)的特征。
只要問(wèn)題符合因果推斷的需求,并且滿足DML方法的關(guān)鍵假設(shè)(如條件獨(dú)立性假設(shè)、平滑性假設(shè)),雙重機(jī)器學(xué)習(xí)都可以適用。
例如,在分析經(jīng)濟(jì)政策的影響時(shí),核心解釋變量可以是:
稅率的水平(連續(xù)變量)。
某種經(jīng)濟(jì)刺激的規(guī)模(連續(xù)變量)。
某種環(huán)境變量(例如溫度、污染水平)。
理論支持
雙重機(jī)器學(xué)習(xí)的核心思想是結(jié)合機(jī)器學(xué)習(xí)方法解決傳統(tǒng)因果推斷方法中的偏誤問(wèn)題,同時(shí)保持參數(shù)估計(jì)的解釋性。無(wú)論核心解釋變量是二值變量還是連續(xù)變量,DML都會(huì)遵循以下兩個(gè)階段:
第一階段:通過(guò)機(jī)器學(xué)習(xí)方法對(duì)控制變量(confounders)的高維模型進(jìn)行擬合,估計(jì)核心解釋變量和結(jié)果變量的偏差。
對(duì)于連續(xù)的核心解釋變量,會(huì)使用回歸模型來(lái)估計(jì)核心解釋變量對(duì)結(jié)果變量的關(guān)系。
第二階段:從第一階段的估計(jì)中提取核心解釋變量的影響,并調(diào)整控制變量的干擾,實(shí)現(xiàn)對(duì)核心參數(shù)的無(wú)偏估計(jì)。
實(shí)際應(yīng)用
對(duì)于核心解釋變量是連續(xù)變量的情況,通常需要調(diào)整模型中因果推斷框架的表示:
如果采用工具變量(IV)方法,則工具變量本身需要滿足相關(guān)性假設(shè)和排他性假設(shè)。
在非參數(shù)設(shè)置下,通過(guò)正則化或懲罰項(xiàng)來(lái)控制估計(jì)中的偏差。
注意事項(xiàng)
條件獨(dú)立性假設(shè):需要確保核心解釋變量與結(jié)果變量之間的關(guān)系在控制所有混雜變量后是可識(shí)別的。
機(jī)器學(xué)習(xí)模型選擇:適當(dāng)選擇機(jī)器學(xué)習(xí)方法(如Lasso、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò))來(lái)估計(jì)偏差。
偏誤校正:使用目標(biāo)變量的殘差回歸來(lái)校正模型中可能存在的偏差。
文獻(xiàn)支持
許多理論研究和應(yīng)用都表明,雙重機(jī)器學(xué)習(xí)適用于連續(xù)變量的因果推斷。例如:
Chernozhukov等人在其開(kāi)創(chuàng)性的論文《Double/Debiased Machine Learning》明確表明,DML可以用于線性和非線性框架下的核心解釋變量,無(wú)論其是離散還是連續(xù)。
相關(guān)應(yīng)用中,DML被用于估計(jì)例如教育年限(連續(xù)變量)對(duì)收入的影響,污染水平(連續(xù)變量)對(duì)健康的影響等。
總結(jié)
雙重機(jī)器學(xué)習(xí)不局限于核心解釋變量為二值變量的場(chǎng)景,對(duì)于連續(xù)變量同樣適用。關(guān)鍵在于滿足方法的基本假設(shè),并合理地對(duì)數(shù)據(jù)中的偏差和混雜因素進(jìn)行控制。
|