【計(jì)量經(jīng)濟(jì)學(xué)】變量?jī)?nèi)生性和工具變量知識(shí)匯總
計(jì)量經(jīng)濟(jì)學(xué)中,線性回歸模型的本意是給定x值,然后預(yù)測(cè)(或估計(jì))y的條件均值。在給定的x值下,y值可能忽高忽低(即y是隨機(jī)變量),其變化程度也可大可小(即y有方差),但其條件均值是可以通過(guò)回歸方法來(lái)估計(jì)的。至于y的條件方差,在只有一個(gè)固定的x值下是無(wú)法估計(jì)的(在重復(fù)測(cè)量樣本下也許可以做到,因?yàn)檫@時(shí)有多個(gè)固定相同的x值),所以只好簡(jiǎn)單地假設(shè)對(duì)于任何給定的x,y的條件方差都是一樣的(即同方差假設(shè)),此時(shí)才可以通過(guò)多個(gè)樣本點(diǎn)來(lái)估計(jì)一個(gè)相同的方差,然后進(jìn)行各種t檢驗(yàn)、f檢驗(yàn)。
通俗一點(diǎn)說(shuō),回歸的思想就是先抓住x,然后觀察y將如何變化。比如說(shuō)居民收入r與消費(fèi)c,先抓住1000元收入水平的消費(fèi)群體,然后看他們將如何消費(fèi),c|1000是條件隨機(jī)變量(當(dāng)然,實(shí)際數(shù)據(jù)中1000元水平的觀測(cè)可能只有一個(gè));然后再抓住1500元收入水平的群體,再看他們將如何消費(fèi),依次類推。一般來(lái)說(shuō),隨著收入增長(zhǎng),消費(fèi)的條件均值將同步增長(zhǎng),此時(shí)回歸關(guān)系成立。
但是,令我們苦惱的是,實(shí)際中很有可能是“無(wú)法抓住x”的,因?yàn)閤在變,y也在變,然后y的變化又影響到了x,所以我們觀測(cè)到的結(jié)果,很有可能是x與y相互影響的結(jié)果;通俗一點(diǎn)說(shuō),就是x已經(jīng)與y糾纏到了一起,你哪里還能辨清哪是x,哪是y?比如說(shuō)收入與消費(fèi),可以說(shuō)賺得多,花得也多,但錢花完了,又得想辦法去多賺點(diǎn),這時(shí)收入與消費(fèi)是相互影響的,你是無(wú)法"按住x"的。因?yàn)榈饶?quot;按住x"了,去觀察y,y的變動(dòng)回過(guò)頭來(lái)又造成了x的變化,你轉(zhuǎn)身一看,壞了,x已經(jīng)不是原來(lái)那個(gè)x了,它已經(jīng)變了!這個(gè)相互影響的過(guò)程,你是觀測(cè)不到的,你觀測(cè)到的只是結(jié)果。所以在你觀測(cè)到實(shí)際數(shù)據(jù)的時(shí)候,x已經(jīng)不是本來(lái)的x,x中混雜了y的信息。既然x已經(jīng)不是本來(lái)意義上的x,你又如何去估計(jì)它對(duì)Y的真實(shí)影響?這就是我們通常所說(shuō)的聯(lián)立性偏誤(simultaneity bias),即x與y是同時(shí)變動(dòng)的。這種情況下,x與回歸模型的誤差項(xiàng)表現(xiàn)為相關(guān),違背了經(jīng)典OLS(ordinary least square,普通最小二乘法)的假設(shè)。此時(shí),你應(yīng)該可以知道,你很難估計(jì)x對(duì)y的真實(shí)影響,即在經(jīng)典回歸假設(shè)下,估計(jì)出的回歸系數(shù)是有偏的。這是造成內(nèi)生性 Endogeneity 的情況之一。
還有可能是x在變,其他影響y的因素也在變(因?yàn)槌藊影響y外,也有其他因素在影響y),但這些因素你沒(méi)有納入模型的解釋變量中,此時(shí)x與回歸模型的誤差項(xiàng)也表現(xiàn)為相關(guān)(因?yàn)檫z漏因素的影響歸入了誤差項(xiàng))。此時(shí),你如何能辨清y的變化,有多少是x造成的,又有多少是“其他因素”造成的?于是估計(jì)再次陷入僵局。這種情況的產(chǎn)生,需要兩個(gè)條件:一是x變化,其他因素也同時(shí)變化(x與其他因素相關(guān)),二是其他因素要能影響y(即其他因素要與y相關(guān)),這是造成內(nèi)生性的情況之二。
一、方法簡(jiǎn)介
1、內(nèi)生性的例子
工資和受教育水平同時(shí)受到能力的影響,然而,即使我們可以通過(guò)其他相關(guān)的測(cè)試得出能力的代理變量,能力是不可直接觀測(cè)的變量,這就帶來(lái)了遺漏變量的內(nèi)生性問(wèn)題。又比如,在聯(lián)立方程中,消費(fèi)和收入同時(shí)受一些宏觀因素的影響,這就帶來(lái)了聯(lián)立方程偏誤。我們可以通過(guò)工具變量的方法來(lái)解決內(nèi)生性的問(wèn)題。
2、內(nèi)生性的原因
內(nèi)生性的根源:互為因果、聯(lián)立性、遺漏變量、測(cè)量誤差
總的說(shuō)來(lái),內(nèi)生性主要由以下原因造成:
1. 遺漏變量:如果遺漏的變量與其他解釋變量不相關(guān),一般不會(huì)造成問(wèn)題。否則,就會(huì)造成解釋變量與殘差項(xiàng)相關(guān),從而引起內(nèi)生性問(wèn)題。
2. 解釋變量與被解釋變量相互影響
3. 度量誤差 (measurement error):由于關(guān)鍵變量的度量上存在誤差,使其與真實(shí)值之間存在偏差,這種偏差可能會(huì)成為回歸誤差(regression error)的一部分,從而導(dǎo)致內(nèi)生性問(wèn)題。
3、內(nèi)生性的定義
解釋變量與error term相關(guān)。例子:y is earnings, x is years of schooling,u is error term (includingability), z is proximity to college。
外生: 解釋變量x和error term u獨(dú)立影響被解釋變量y。
內(nèi)生: error u 影響解釋變量x,因而間接影響被解釋變量y。
工具變量:工具變量z與x相關(guān),但與error term u無(wú)關(guān)。即z能且只能通過(guò)x影響y。
4、工具變量z的要求:
5、Instrumental Variables的原理
假設(shè)一個(gè)linear model:y=xβ+μ
內(nèi)生性問(wèn)題就是當(dāng)一個(gè)或多個(gè)解釋變量與error term相關(guān):
OLS的估計(jì)系數(shù)將會(huì)是有偏的(biased):
上述方程可寫(xiě)為:
其中,y1是被解釋變量,y2是內(nèi)生變量,x1是外生變量。X由[y2, x1]組合而成,包含了內(nèi)生和外生變量。
假設(shè)我們可以找到一組外生的變量(工具變量)z=[x1,x2],其中x1是自己的工具變量,x2是y2的工具變量。
6、The two stage leastsquares (2SLS) 估計(jì)過(guò)程。
兩階段OLS用工具變量對(duì)內(nèi)生變量的預(yù)測(cè)值代替了內(nèi)生變量本身 ,首先,在第一階段對(duì)只包含外生變量的方程進(jìn)行回歸,
其次,產(chǎn)生內(nèi)生變量的回歸預(yù)測(cè)值,然后用預(yù)測(cè)值代替內(nèi)生變量:
7、關(guān)于識(shí)別的問(wèn)題
階條件:工具變量的數(shù)量至少要與內(nèi)生變量一樣多。
秩條件:為了求逆,矩陣z'x必須是滿秩的。
恰好識(shí)別的情況:
當(dāng)每一內(nèi)生變量各有一個(gè)工具變量的時(shí)候,我們稱這一工具變量模型恰好識(shí)別。估計(jì)系數(shù)是無(wú)偏的。
Under-identifiedmodel
當(dāng)內(nèi)生變量的數(shù)量多于工具變量的個(gè)數(shù)時(shí),我們稱這一工具變量模型是Under-identified的。
此模型有無(wú)數(shù)解,所以沒(méi)有統(tǒng)一的估計(jì)值存在
過(guò)度識(shí)別:
當(dāng)工具變量的個(gè)數(shù)大于內(nèi)生變量的個(gè)數(shù)時(shí),這時(shí)這個(gè)工具變量模型是過(guò)度識(shí)別的。此時(shí)我們可以得到兩種不同的估計(jì)值。
The twostage least squares (2SLS) (當(dāng)殘差項(xiàng)服從獨(dú)立同分布的時(shí)候是最好的估計(jì)方法。)
GMM(廣義矩估計(jì):Thegeneralized method of moments)
當(dāng)w=(z'z)^(-1)時(shí),這與2SLS估計(jì)一樣。通常有:
其中等式右邊是z'μ估計(jì)方差,當(dāng)存在異方差的時(shí)候GMM估計(jì)更優(yōu)。
8、檢驗(yàn)
內(nèi)生性的檢驗(yàn):
1、Hausman test
豪斯曼檢驗(yàn)檢驗(yàn)解釋變量是內(nèi)生的還是外生的。
通過(guò)對(duì)比OLS和IV的結(jié)果是否存在顯著的差異來(lái)判斷,如果差別顯著,則解釋變量為內(nèi)生,反之亦然。
2、Durbin-Wu-Hausmantest
TheDurbin-Wu-Hausman test主要檢驗(yàn)等式
是否成立。
估計(jì)第一階段方程:
把殘差項(xiàng)(μ)放進(jìn)方程:
如果μ的系數(shù)rho顯著異于0,則判斷變量為內(nèi)生,反之,則為外生變量。
過(guò)度識(shí)別限制檢驗(yàn)
用GMM方法估計(jì)并得到下面檢驗(yàn)統(tǒng)計(jì)量:
這是一個(gè)服從自由度等于過(guò)度識(shí)別的限制數(shù)的卡方分布,原假設(shè)為:至少有一個(gè)工具變量不是有效的。
弱工具變量檢驗(yàn)
當(dāng)一個(gè)內(nèi)生變量和一個(gè)工具變量時(shí),這兩個(gè)變量的弱相關(guān)性可以說(shuō)明這是一個(gè)弱工具變量。
當(dāng)多個(gè)工具變量對(duì)一個(gè)內(nèi)生變量時(shí),工具變量的強(qiáng)弱可以用第一階段的F統(tǒng)計(jì)量來(lái)衡量,一半認(rèn)為10是安全值閥,大于10安全。
弱工具變量的后果
一是會(huì)降低估計(jì)的精度;另外,IV的估計(jì)值是漸進(jìn)一致、有偏的。偏誤的大小與工具變量的弱度正向相關(guān),與樣本量的大小反向相關(guān)。ǹ膳掳。
9、工具變量和聯(lián)立系統(tǒng)方程
假設(shè)有兩個(gè)內(nèi)生變量,方程如下:
簡(jiǎn)化后:
2階段最小二乘或3階段最小二乘估計(jì)過(guò)程:
首先,通過(guò)對(duì)簡(jiǎn)化式進(jìn)行OLS估計(jì)得到y(tǒng)的預(yù)測(cè)值(y帽),然后用y的預(yù)測(cè)值估計(jì)下式:
最后,用2階段最小二乘估計(jì)的結(jié)果計(jì)算下式:
此時(shí)的β即為3階段最小二乘估計(jì)結(jié)果。
對(duì)比2SLS和3SLS的估計(jì)性質(zhì):3SLS比2SLS更有效。但是3SLS在殘差項(xiàng)存在異方差的時(shí)候的估計(jì)非一致。