散點(diǎn)圖主要是度量?jī)勺兞筷P(guān)系強(qiáng)弱的最直觀的圖形,雖然三維圖形也在起著類(lèi)似的作用,但就直觀性上仍然不能取代二維圖的效果,不過(guò)在探索多維變量間關(guān)系上提供了非常好的視角,另外比較常用的是偵察相對(duì)回歸面的異常值,尤其具有可視化的優(yōu)勢(shì),不過(guò)個(gè)人認(rèn)為這并不比二維圖更清晰。至于矩陣圖其本質(zhì)上仍然是二維關(guān)系。
下面從不同的側(cè)重點(diǎn)來(lái)說(shuō)明
1)探索數(shù)據(jù)主體模型
| proc sort data=data_anl.performance;by scale;run; proc sgplot data=data_anl.performance; scatter x=gcharacteristic y=jaim /group=scale; ellipse x=gcharacteristic y=jaim; run; |
散點(diǎn)的相對(duì)疏離程度主要反映在相關(guān)系數(shù)上,其趨勢(shì)狀況是由回歸系數(shù),或斜率來(lái)反映。 散點(diǎn)分布信息如線性,非線性,提供了統(tǒng)計(jì)模型的多項(xiàng)式信息;而分布的長(zhǎng)短對(duì)應(yīng)數(shù)據(jù)或統(tǒng)計(jì)信息的大小。圖中顯示了線性、且第一組提供的信息更豐富一點(diǎn)(方差大)。 95%的預(yù)測(cè)區(qū)間,給出了數(shù)據(jù)的主體模型,及其可能存在異常值的觀測(cè)信息,如果兩變量s與j線性關(guān)系已經(jīng)確定的話,那么符號(hào)圓點(diǎn)、加號(hào)兩組均有異常案例,其中圓點(diǎn)組有較多的異常。這對(duì)模型的預(yù)測(cè)效果將產(chǎn)生很大的影響。 |
2)探索模型殘差信息
| proc sort data=data_anl.performance;by scale;run; proc sgplot data=data_anl.performance; title 'reg to fit'; reg y=gcharacteristic x=jaim/group=scale clm cli; run; |
第一組數(shù)據(jù)的離散性更大一點(diǎn),預(yù)示著不同類(lèi)型的異常信息,提示在建模時(shí)對(duì)這些觀測(cè)需多加小心,其中杠桿點(diǎn)最值得關(guān)注。 95%的預(yù)測(cè)區(qū)間和置信區(qū)間,給出了不同組模型的擬合效果,兩組數(shù)據(jù)比較相近,故置信區(qū)間有些重疊,至于模型殘差信息,以第一組為例,紅色箭頭指向的那個(gè)點(diǎn)和藍(lán)色箭頭指向的點(diǎn),均是較強(qiáng)的杠桿點(diǎn),但杠桿點(diǎn)所起的效應(yīng)是否會(huì)破壞模型的有效性,需要視OLS估計(jì)的殘差而定,我們知道回歸參數(shù)標(biāo)準(zhǔn)誤來(lái)源于殘差等信息的計(jì)算(正向關(guān)系),因此紅色箭頭點(diǎn)將帶來(lái)的相對(duì)較大的殘差(相對(duì)第一組回歸線而言),如果這種信息超出了一定的規(guī)則,OLS估計(jì)將無(wú)效。 垂直特異性是另一個(gè)值得關(guān)注的異常信息,像第一組的數(shù)據(jù)(最下方的幾個(gè)圓點(diǎn),包括紅色箭頭指向的點(diǎn))可能帶來(lái)回歸截距的變化(當(dāng)然回歸線兩邊分布點(diǎn)大致相當(dāng)?shù)脑挸猓绻麛?shù)據(jù)點(diǎn)同時(shí)具有上述兩種特征,那么該數(shù)據(jù)點(diǎn)沒(méi)有理由不處理。 |
3)探索殘差的相對(duì)信息
| proc sgpanel data=data_anl.performance; title "Scatter plot for staff performance"; panelby scale / columns=2; reg x=jaim y=gcharacteristic / cli clm; run; title; |
| proc sgscatter data=data_anl.performance; matrix gcharacteristic jaim jhonour jcompetency jpromotion jhonour /group=scale; run; |
矩陣圖或鑲有嵌板的圖,在觀測(cè)多變量或不同特征群組間的關(guān)系時(shí),很方便。 上面的兩幅圖提供的信息很類(lèi)似,例如矩陣散點(diǎn)中,變量G與3個(gè)J均有不同數(shù)據(jù)點(diǎn)偏離的比較遠(yuǎn),這預(yù)示著在多維空間里,這些點(diǎn)的特殊性,不過(guò)這要結(jié)合更專(zhuān)業(yè)的殘差圖綜合分析,例如某殘差的權(quán)勢(shì)圖、穩(wěn)健距離圖等等。 |