關(guān)于本站
人大經(jīng)濟(jì)論壇-經(jīng)管之家:分享大學(xué)、考研、論文、會(huì)計(jì)、留學(xué)、數(shù)據(jù)、經(jīng)濟(jì)學(xué)、金融學(xué)、管理學(xué)、統(tǒng)計(jì)學(xué)、博弈論、統(tǒng)計(jì)年鑒、行業(yè)分析包括等相關(guān)資源。
經(jīng)管之家是國(guó)內(nèi)活躍的在線教育咨詢平臺(tái)!
經(jīng)管之家新媒體交易平臺(tái)
提供"微信號(hào)、微博、抖音、快手、頭條、小紅書、百家號(hào)、企鵝號(hào)、UC號(hào)、一點(diǎn)資訊"等虛擬賬號(hào)交易,真正實(shí)現(xiàn)買賣雙方的共贏!菊(qǐng)點(diǎn)擊這里訪問】
TOP熱門關(guān)鍵詞
專題頁(yè)面精選
- 經(jīng)濟(jì)學(xué) 管理學(xué) 金融學(xué) 統(tǒng)計(jì)學(xué)
- 會(huì)計(jì)學(xué) 財(cái)政學(xué) 國(guó)際貿(mào)易 財(cái)務(wù)管理
- 工商管理學(xué) 人力資源管理 風(fēng)險(xiǎn)管理
- 成本會(huì)計(jì)學(xué) 財(cái)務(wù)會(huì)計(jì) 酒店管理
- 市場(chǎng)營(yíng)銷學(xué) 審計(jì)學(xué) 保險(xiǎn)學(xué)
- 國(guó)際金融學(xué) 企業(yè)管理學(xué) 保險(xiǎn)精算
- 精算學(xué) 心理學(xué) 哲學(xué)
壇友互助群 |
掃碼加入各崗位、行業(yè)、專業(yè)交流群 |
第十四章:主成分和因子分析
主成分分析(PCA)是一種數(shù)據(jù)降維技巧,它能將大量相關(guān)變量轉(zhuǎn)化為一組很少的不相關(guān)變量,這些無關(guān)變量稱為主成分。探索性因子分析(EFA)是一系列用來發(fā)現(xiàn)一組變量的潛在結(jié)構(gòu)的方法。它通過尋找一組更小的、潛在的或隱藏的結(jié)構(gòu)來解釋已觀測(cè)到的、顯式的變量間的關(guān)系。
PCA與EFA模型間的區(qū)別
http://mmbiz.qpic.cn/mmbiz/njjfaJS7c9ryGpaiaMSsVn4dsd9DWArhIaIVUEZffN3SnlMIktKficQUpa6sA9cumLh7yO8SwIKOwEQN4dHeLwxA/0?wx_fmt=png
主成分(PC1和PC2)是觀測(cè)變量(X1到X5)的線性組合。形成線性組合的權(quán)重都是通過最大化各主成分所解釋的方差來獲得,同時(shí)還要保證個(gè)主成分間不相關(guān)。相反,因子(F1和F2)被當(dāng)做是觀測(cè)變量的結(jié)構(gòu)基礎(chǔ)或“原因”,而不是它們的線性組合。代表觀測(cè)變量方差的誤差(e1到e5)無法用因子來解釋。圖中的圓圈表示因子和誤差無法直接觀測(cè),但是可通過變量間的相互關(guān)系推導(dǎo)得到
14.1 R 中的主成分和因子分析
psych包中有用的因子分析函數(shù)
principal() | 含多種可選的方差旋轉(zhuǎn)方法的主成分分析 |
fa() | 可用主軸、最小殘差、加權(quán)最小平方或最大似然法估計(jì)的因子分析 |
fa.parallel() | 含平行分析的碎石圖 |
factor.plot() | 繪制因子分析或主成分分析的結(jié)果 |
fa.diagram() | 繪制因子分析或主成分的載荷矩陣 |
scree() | 因子分析和主成分分析的碎石圖 |
最常見的步驟:
(1) 數(shù)據(jù)預(yù)處理。PCA和EFA都根據(jù)觀測(cè)變量間的相關(guān)性來推導(dǎo)結(jié)果。用戶可以輸入原始數(shù)據(jù)矩陣或者相關(guān)系數(shù)矩陣到principal()和fa()函數(shù)中。若輸入初始數(shù)據(jù),相關(guān)系數(shù)矩陣將會(huì)被自動(dòng)計(jì)算,在計(jì)算前請(qǐng)確保數(shù)據(jù)中沒有缺失值。
(2) 選擇因子模型。判斷是PCA(數(shù)據(jù)降維)還是EFA(發(fā)現(xiàn)潛在結(jié)構(gòu))更符合你的研究目標(biāo)。如果選擇EFA方法,你還需要選擇一種估計(jì)因子模型的方法(如最大似然估計(jì))。
(3) 判斷要選擇的主成分/因子數(shù)目。
(4) 選擇主成分/因子。
(5) 旋轉(zhuǎn)主成分/因子。
(6) 解釋結(jié)果。
(7) 計(jì)算主成分或因子得分。
14.2 主成分分析
PCA的目標(biāo)是用一組較少的不相關(guān)變量代替大量相關(guān)變量,同時(shí)盡可能保留初始變量的信息,這些推導(dǎo)所得的變量稱為主成分,它們是觀測(cè)變量的線性組合。如第一主成分為:PC1=a1X1+a2X 2+……+ak Xk它是k個(gè)觀測(cè)變量的加權(quán)組合,對(duì)初始變量集的方差解釋性最大。第二主成分也是初始變量的線性組合,對(duì)方差的解釋性排第二,同時(shí)與第一主成分正交(不相關(guān))。后面每一個(gè)主成分都最大化它對(duì)方差的解釋程度,同時(shí)與之前所有的主成分都正交。數(shù)據(jù)集USJudgeRatings為例,數(shù)據(jù)框包含43個(gè)觀測(cè),12個(gè)變量。
14.2.1 判斷主成分的個(gè)數(shù)
判斷PCA中需要多少個(gè)主成分的準(zhǔn)則:
根據(jù)先驗(yàn)經(jīng)驗(yàn)和理論知識(shí)判斷主成分?jǐn)?shù);
根據(jù)要解釋變量方差的積累值的閾值來判斷需要的主成分?jǐn)?shù);
通過檢查變量間k × k的相關(guān)系數(shù)矩陣來判斷保留的主成分?jǐn)?shù)。
利用fa.parallel()函數(shù),可以同時(shí)對(duì)三種特征值判別準(zhǔn)則進(jìn)行評(píng)價(jià)
> fa.parallel(USJudgeRatings[,-1],fa="PC",n.iter=100,
+ show.legend=FALSE,
+ main="Scree plotwith parallel analysis")
http://mmbiz.qpic.cn/mmbiz/njjfaJS7c9ryGpaiaMSsVn4dsd9DWArhIRPZlqPFfzTO13ztD5dQY5P7ujiaPOX529XRZUzHLLqXibMPlArxIIONQ/0?wx_fmt=png
評(píng)價(jià)美國(guó)法官評(píng)分中要保留的主成分個(gè)數(shù)。碎石圖(直線與x符號(hào))、特征值大于1準(zhǔn)則(水平線)和100次模擬的平行分析(虛線)都表明保留一個(gè)主成分即可。三種準(zhǔn)則表明選擇一個(gè)主成分即可保留數(shù)據(jù)集的大部分信息
14.2.2 提取主成分
principal()函數(shù)可以根據(jù)原始數(shù)據(jù)矩陣或者相關(guān)系數(shù)矩陣做主成分分析。格式為:principal(r,nfactors=,rotate=,scores=)
r是相關(guān)系數(shù)矩陣或原始數(shù)據(jù)矩陣;
nfactors設(shè)定主成分?jǐn)?shù)(默認(rèn)為1);
rotate指定旋轉(zhuǎn)的方法[默認(rèn)最大方差旋轉(zhuǎn)(varimax)
scores設(shè)定是否需要計(jì)算主成分得分(默認(rèn)不需要)。
> pc<-principal(USJudgeRatings[,-1],nfactors=1)
> pc
由于PCA只對(duì)相關(guān)系數(shù)矩陣進(jìn)行分析,在獲取主成分前,原始數(shù)據(jù)將會(huì)被自動(dòng)轉(zhuǎn)換為相關(guān)系數(shù)矩陣。PC1欄包含了成分載荷,指觀測(cè)變量與主成分的相關(guān)系數(shù)。如果提取不止一個(gè)主成分,那么還將會(huì)有PC2、PC3等欄。成分載荷(component loadings)可用來解釋主成分的含義。此處可以看到,第一主成分(PC1)與每個(gè)變量都高度相關(guān),也就是說,它是一個(gè)可用來進(jìn)行一般性評(píng)價(jià)的維度。
h2欄指成分公因子方差——主成分對(duì)每個(gè)變量的方差解釋度。u2欄指成分唯一性——方差無法被主成分解釋的比例.如,體能(PHYS)80%的方差都可用第一主成分來解釋,20%不能。相比而言,PHYS是用第一主成分表示性最差的變量。SS loadings行包含了與主成分相關(guān)聯(lián)的特征值,指的是與特定主成分相關(guān)聯(lián)的標(biāo)準(zhǔn)化后的方差值(本例中,第一主成分的值為10)。最后,Proportion Var行表示的是每個(gè)主成分對(duì)整個(gè)數(shù)據(jù)集的解釋程度。此處可以看到,第一主成分解釋了11個(gè)變量92%的方差。
14.2.3 主成分旋轉(zhuǎn)
旋轉(zhuǎn)是一系列將成分載荷陣變得更容易解釋的數(shù)學(xué)方法,它們盡可能地對(duì)成分去噪。旋轉(zhuǎn)方
法有兩種:使選擇的成分保持不相關(guān)(正交旋轉(zhuǎn)),和讓它們變得相關(guān)(斜交旋轉(zhuǎn))。旋轉(zhuǎn)方法也會(huì)依據(jù)去噪定義的不同而不同。最流行的正交旋轉(zhuǎn)是方差極大旋轉(zhuǎn),它試圖對(duì)載荷陣的列進(jìn)行去噪,使得每個(gè)成分只是由一組有限的變量來解釋(即載荷陣每列只有少數(shù)幾個(gè)很大的載荷,其他都是很小的載荷)。
方差極大旋轉(zhuǎn)的主成分分析
>rc<-principal(Harman23.cor$cov,nfactors=2,rotate="varimax")
> rc
觀察RC1欄的載荷,你可以發(fā)現(xiàn)第一主成分主要由前四個(gè)變量來解釋(長(zhǎng)度變量)。RC2欄的載荷表示第二主成分主要由變量5到變量8來解釋(容量變量),兩個(gè)主成分旋轉(zhuǎn)后的累積方差解釋性沒有變化(81%),變的只是各個(gè)主成分對(duì)方差的解釋度(成分1從58%變?yōu)?4%,成分2從22%變?yōu)?7%)。各成分的方差解釋度趨同,準(zhǔn)確來說,此時(shí)應(yīng)該稱它們?yōu)槌煞侄皇侵鞒煞郑ㄒ驗(yàn)閱蝹(gè)主成分方差最大化性質(zhì)沒有保留)。
14.2.4 獲取主成分得分
從原始數(shù)據(jù)中獲取成分得分
> library(psych)
> pc<-principal(USJudgeRatings[,-1],nfactors=1,score=TRUE)
> head(pc$scores)
當(dāng)scores = TRUE時(shí),主成分得分存儲(chǔ)在principal()函數(shù)返回對(duì)象的scores元素中。
還可以獲得律師與法官的接觸頻數(shù)與法官評(píng)分間的相關(guān)系數(shù):
> cor(USJudgeRatings$CONT,pc$score)
PC1
[1,] -0.008815895
律師與法官的熟稔度與律師的評(píng)分毫無關(guān)聯(lián)
獲取主成分得分的系數(shù)
> library(psych)
>rc<-principal(Harman23.cor$cov,nfactors=2,rotate="varimax")
> round(unclass(rc$weights),2)
主成分得分:
PC1=0.25*height+0.3*arm.span+0.3*forearm+0.29*lower.leg-0.06*weight-0.08*bitro.diameter-0.1*chest.girth-0.04*chest.width
14.3 探索性因子分析
EFA的目標(biāo)是通過發(fā)掘隱藏在數(shù)據(jù)下的一組較少的、更為基本的無法觀測(cè)的變量,來解釋一組可觀測(cè)變量的相關(guān)性。這些虛擬的、無法觀測(cè)的變量稱作因子。(每個(gè)因子被認(rèn)為可解釋多個(gè)觀測(cè)變量間共有的方差,因此準(zhǔn)確來說,它們應(yīng)該稱作公共因子。)模型的形式為:http://mmbiz.qpic.cn/mmbiz/njjfaJS7c9ryGpaiaMSsVn4dsd9DWArhIFyVqFTaX8vKU6kb2bicH2DAt2yB4qS4B1TeQ6IlK2xllcAB8VQLQO2Q/0?wx_fmt=png
其中Xi是第i個(gè)可觀測(cè)變量(i = 1…k),Fj是公共因子(j = 1…p),并且p<k。Ui是Xi變量獨(dú)有的部分(無法被公共因子解釋)。ai可認(rèn)為是每個(gè)因子對(duì)復(fù)合而成的可觀測(cè)變量的貢獻(xiàn)值。
> options(digits=2)
> covariances<-ability.cov$cov
> correlations<-cov2cor(covariances)
> correlations
14.3.1 判斷需提取的公共因子數(shù)
用fa.parallel()函數(shù)可判斷需提取的因子數(shù):
> library(psych)
> covariances<-ability.cov$cov
> correlations<-cov2cor(covariances)
> fa.parallel(correlations,n.obs=112,fa="both",n.iter=100,
+ main="Screeplots with parrallel analysis")
http://mmbiz.qpic.cn/mmbiz/njjfaJS7c9ryGpaiaMSsVn4dsd9DWArhIcCnZicbCLaTqHhBa4R17yKKicTtdBwFNsvxnYp5plfYEQWhxFPHWzk1Q/0?wx_fmt=png
判斷心理學(xué)測(cè)驗(yàn)需要保留的因子數(shù)。圖中同時(shí)展示了PCA和EFA的結(jié)果。PCA結(jié)果建議提取一個(gè)或者兩個(gè)成分,EFA建議提取兩個(gè)因子
14.3.2 提取公共因子
決定提取兩個(gè)因子,可以使用fa()函數(shù)獲得相應(yīng)的結(jié)果。fa()函數(shù)的格式如下:fa(r,nfactors=,n.obs=,rotate=,scores=,fm=)
r是相關(guān)系數(shù)矩陣或者原始數(shù)據(jù)矩陣;
nfactors設(shè)定提取的因子數(shù)(默認(rèn)為1);
n.obs是觀測(cè)數(shù)(輸入相關(guān)系數(shù)矩陣時(shí)需要填寫);
rotate設(shè)定旋轉(zhuǎn)的方法(默認(rèn)互變異數(shù)最小法);
scores設(shè)定是否計(jì)算因子得分(默認(rèn)不計(jì)算);
fm設(shè)定因子化方法(默認(rèn)極小殘差法)。
與PCA不同,提取公共因子的方法很多,包括最大似然法(ml)、主軸迭代法(pa)、加權(quán)最小二乘法(wls)、廣義加權(quán)最小二乘法(gls)和最小殘差法(minres)未旋轉(zhuǎn)的主軸迭代因子法:
> fa<-fa(correlations,nfactors=2,rotate="none",fm="pa")
> fa
兩個(gè)因子解釋了六個(gè)心理學(xué)測(cè)驗(yàn)60%的方差。不過因子載荷陣的意義并不太好解釋,此時(shí)使用因子旋轉(zhuǎn)將有助于因子的解釋。
14.3.3 因子旋轉(zhuǎn)
用正交旋轉(zhuǎn)提取因子
> fa.varimax<-fa(correlations,nfactors=2,rotate="varimax",fm="pa")
> fa.varimax
結(jié)果顯示因子變得更好解釋了。閱讀和詞匯在第一因子上載荷較大,畫圖、積木圖案和迷宮在第二因子上載荷較大,非語言的普通智力測(cè)量在兩個(gè)因子上載荷較為平均,這表明存在一個(gè)語言智力因子和一個(gè)非語言智力因子。
用斜交旋轉(zhuǎn)提取因子:
> fa.promax<-fa(correlations,nfactors=2,rotate="promax",fm="pa")
> fa.promax
根據(jù)以上結(jié)果,你可以看出正交旋轉(zhuǎn)和斜交旋轉(zhuǎn)的不同之處。對(duì)于正交旋轉(zhuǎn),因子分析的重點(diǎn)在于因子結(jié)構(gòu)矩陣(變量與因子的相關(guān)系數(shù)),而對(duì)于斜交旋轉(zhuǎn),因子分析會(huì)考慮三個(gè)矩陣:因子結(jié)構(gòu)矩陣、因子模式矩陣和因子關(guān)聯(lián)矩陣。因子模式矩陣即標(biāo)準(zhǔn)化的回歸系數(shù)矩陣。它列出了因子預(yù)測(cè)變量的權(quán)重。因子關(guān)聯(lián)矩陣即因子相關(guān)系數(shù)矩陣。factor.plot()或fa.diagram()函數(shù),你可以繪制正交或者斜交結(jié)果的圖形。
http://mmbiz.qpic.cn/mmbiz/njjfaJS7c9ryGpaiaMSsVn4dsd9DWArhISIaauMEbcEh4z5p3iaHfJyicxC6rjGjUCciamIXEEQqhEJicjGo9xjtWFg/0?wx_fmt=png
> fa.diagram(fa.promax,simple=FALSE)
http://mmbiz.qpic.cn/mmbiz/njjfaJS7c9ryGpaiaMSsVn4dsd9DWArhIKho25e1XkJ8XEHLLWl5IrjtI5PUa2RbULbwOv3MTm023UTqC4I3fIg/0?wx_fmt=png
14.3.4 因子得分
EFA并不那么關(guān)注計(jì)算因子得分。在fa()函數(shù)中添加score = TRUE選項(xiàng)(原始數(shù)據(jù)可得時(shí))便可很輕松地獲得因子得分。
> fa.promax$weights
http://mmbiz.qpic.cn/mmbiz/njjfaJS7c9pcxNeeKU0zq8TEgvw4J3EiczPnHX3JCqRe1pvFe0VHKph4SV6k6DR1h909nau18CYWO4NK8RlZVXw/0?wxfmt=jpeg
免流量費(fèi)下載資料----在經(jīng)管之家app可以下載論壇上的所有資源,并且不額外收取下載高峰期的論壇幣。
涵蓋所有經(jīng)管領(lǐng)域的優(yōu)秀內(nèi)容----覆蓋經(jīng)濟(jì)、管理、金融投資、計(jì)量統(tǒng)計(jì)、數(shù)據(jù)分析、國(guó)貿(mào)、財(cái)會(huì)等專業(yè)的學(xué)習(xí)寶庫(kù),各類資料應(yīng)有盡有。
來自五湖四海的經(jīng)管達(dá)人----已經(jīng)有上千萬的經(jīng)管人來到這里,你可以找到任何學(xué)科方向、有共同話題的朋友。
經(jīng)管之家(原人大經(jīng)濟(jì)論壇),跨越高校的圍墻,帶你走進(jìn)經(jīng)管知識(shí)的新世界。
掃描下方二維碼下載并注冊(cè)APP
本文論壇網(wǎng)址:http://xalimeijing.com/thread-3702212-1-1.html
您可能感興趣的文章
- 期刊庫(kù) | 境外投資企業(yè)名錄(截止至2017年7 ...
- 期刊庫(kù) | 網(wǎng)絡(luò)首發(fā):《終極問題2.0》-客戶 ...
- 期刊庫(kù) | 《中國(guó)知識(shí)產(chǎn)權(quán)》雜志投稿咨詢, ...
- 期刊庫(kù) | 當(dāng)今中國(guó)優(yōu)秀經(jīng)濟(jì)學(xué)期刊排行榜( ...
- 期刊庫(kù) | 企業(yè)層面的數(shù)據(jù)去哪兒找
- 期刊庫(kù) | [英文]弗里曼統(tǒng)計(jì)學(xué)第4版 statis ...
- 期刊庫(kù) | 【EVIEWS】ARIMA模型中AR MA各取 ...
- 期刊庫(kù) | 英文GUT 期刊文獻(xiàn)一篇
人氣文章
本文標(biāo)題:R in action讀書筆記(19)第十四章 主成分和因子分析
本文鏈接網(wǎng)址:http://xalimeijing.com/jg/qikan_qikanku_3702212_1.html
2.轉(zhuǎn)載的文章僅代表原創(chuàng)作者觀點(diǎn),與本站無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),本站對(duì)該文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性,不作出任何保證或承若;
3.如本站轉(zhuǎn)載稿涉及版權(quán)等問題,請(qǐng)作者及時(shí)聯(lián)系本站,我們會(huì)及時(shí)處理。