描述性統(tǒng)計分析在實(shí)證研究中的作用及具體軟件實(shí)現(xiàn)
——以SPSS為例
為了提升經(jīng)管代碼庫(http://xalimeijing.com/forum-2626-1.html)人氣,一大早起床,打算就微觀實(shí)證分析中描述性統(tǒng)計分析作用及SPSS具體軟件實(shí)現(xiàn)做個詳細(xì)的說明,理由如下:
一是有壇友在論壇上問:看到很多實(shí)證研究在建模前有做描述性統(tǒng)計分析,問做這個有何意義(網(wǎng)址鏈接:http://xalimeijing.com/thread-929635-1-1.html),說明有實(shí)際需求;二是論壇上也沒看見有什么詳細(xì)闡述這個問題的,說明有實(shí)際需求而無有效供給。故而特開此貼,希望能吸引更多對計量實(shí)證感興趣的朋友關(guān)注經(jīng)管代碼庫,來多多發(fā)此類原創(chuàng)帖。不多說,圖文并茂的開講啦!
做用SPSS具體做描述性統(tǒng)計分析前,先簡要說一下我個人認(rèn)為的在實(shí)證分析中做描述性統(tǒng)計分析的作用——探究數(shù)據(jù)分布趨勢,找出極端異常值。由于此貼只講描述性統(tǒng)計分析,故而不對極端異常值對模型的影響,數(shù)據(jù)分布趨勢不是正態(tài)進(jìn)一步詳盡處理展開來說,只點(diǎn)到即止,后續(xù)帖子陸續(xù)補(bǔ)充。
在用SPSS做描述性統(tǒng)計分析前,先截兩張實(shí)證論文中一般做的描述性統(tǒng)計分析表格。進(jìn)而可以直觀看到我們一般做描述性統(tǒng)計分析要交待哪些統(tǒng)計量。
以上兩個表格是常見的描述性統(tǒng)計分析表述表格,一般實(shí)證論文中,做描述性統(tǒng)計分析要報告以下4個統(tǒng)計量:均值、標(biāo)準(zhǔn)差、最小值和最大值(有的文章限于表格篇幅,只報道均值和標(biāo)準(zhǔn)差)。問題來了,做了描述性統(tǒng)計分析后,結(jié)果要怎么看呢?我們要怎么才能確認(rèn)結(jié)果是好或者不好呢(即變量是否符合正態(tài)分布呢)?
這個問題一般看均值和標(biāo)準(zhǔn)差。如果標(biāo)準(zhǔn)差>>均值,那表明數(shù)據(jù)可能存在極端異常值,這時可能要對數(shù)據(jù)做進(jìn)一步的處理。如做箱形圖看是否存在極端異常值(頭上標(biāo)*的就是)。然而,一般情況下如果均值和標(biāo)準(zhǔn)差相差不大,如上表中“1998—2003年年均調(diào)整地塊百分比”這類變量,可以就這樣,不用做進(jìn)一步處理。若存在極端異常值,參見我這篇帖子的處理方法:http://xalimeijing.com/thread-3569928-1-1.html。
下面用SPSS截圖演示怎么做描述性統(tǒng)計分析吧(案例用的SPSS自帶文件accidents.sav)。
軟件操作:分析——描述統(tǒng)計——描述
得到如下結(jié)果:這時平均值>>標(biāo)準(zhǔn)偏差,說明數(shù)據(jù)離散程度不高,可以進(jìn)一步進(jìn)行后面的建模分析。
為了看看變量的趨勢,我們再做一個直方圖,附加正態(tài)分布曲線看看。
軟件操作:圖形—圖表構(gòu)建器(彈出對話框,點(diǎn)確認(rèn))—選擇直方圖(直接將下面的圖形拖動到圖表預(yù)覽窗口即可),選擇“風(fēng)險人口”變量到X軸,右邊勾選“顯示正態(tài)曲線”。
如果還不放心,做一個箱圖看看是否存在極端異常值。
軟件操作:圖形—圖表構(gòu)建器(彈出對話框,點(diǎn)確認(rèn))—選擇箱圖。這時,“風(fēng)險人口”這種連續(xù)變量放縱坐標(biāo),性別等類別變量放橫坐標(biāo)(前提是你想看不同性別風(fēng)險人口是否存在極端異常值,若只想看變量總體的分布是否存在極端異常值,則只將關(guān)心的連續(xù)變量拖到縱坐標(biāo)框即可,橫坐標(biāo)不用管,然后點(diǎn)確定)。我們這里只看總體吧。
看結(jié)果,上面沒有“*”出現(xiàn),表明不存在極端異常值。可對數(shù)據(jù)進(jìn)一步做建模處理。
分界點(diǎn):下面我們?nèi)藶榈母淖円幌略紨?shù)據(jù)大小,使其出現(xiàn)兩個極端異常值(極大值和極小值),看看情況。我們把原始數(shù)據(jù)人口第一行從198522改為10000,第6行208239改為1000000。然后再重復(fù)前面的描述性統(tǒng)計分析過程。
由上表可知,標(biāo)準(zhǔn)偏差>平均值的(但可能是否遠(yuǎn)遠(yuǎn)大于不好判斷,因?yàn)樵紨?shù)據(jù)量就只有6個,比較少)。這時我們持保留態(tài)度?聪鋱D。
軟件操作:圖形—圖表構(gòu)建器(彈出對話框,點(diǎn)確認(rèn))—選擇箱圖。
這時,我們看到這個箱形圖的上下方各有一個“*”,表明存在極端異常值。接下來就是對極端異常值的處理了。限于篇幅,本篇描述性統(tǒng)計分析介紹就到這里,下一篇是極端異常值的診斷和處理。請期待經(jīng)管代碼庫的下篇解說,謝謝。