關(guān)于本站
人大經(jīng)濟(jì)論壇-經(jīng)管之家:分享大學(xué)、考研、論文、會(huì)計(jì)、留學(xué)、數(shù)據(jù)、經(jīng)濟(jì)學(xué)、金融學(xué)、管理學(xué)、統(tǒng)計(jì)學(xué)、博弈論、統(tǒng)計(jì)年鑒、行業(yè)分析包括等相關(guān)資源。
經(jīng)管之家是國內(nèi)活躍的在線教育咨詢平臺(tái)!
經(jīng)管之家新媒體交易平臺(tái)
提供"微信號、微博、抖音、快手、頭條、小紅書、百家號、企鵝號、UC號、一點(diǎn)資訊"等虛擬賬號交易,真正實(shí)現(xiàn)買賣雙方的共贏!菊堻c(diǎn)擊這里訪問】
TOP熱門關(guān)鍵詞
專題頁面精選
數(shù)據(jù)降維:特征值分解和奇異值分解的實(shí)戰(zhàn)分析現(xiàn)在我們再回顧下這些問題,首先,提取主成分的必要性,從數(shù)字信號的角度分析,主成分時(shí)方差較大,稱為信號,而噪聲是方差較小的;極限講,如果100個(gè)樣本點(diǎn)都匯集成一個(gè)點(diǎn) ...
壇友互助群 |
掃碼加入各崗位、行業(yè)、專業(yè)交流群 |
數(shù)據(jù)降維:特征值分解和奇異值分解的實(shí)戰(zhàn)分析
現(xiàn)在我們再回顧下這些問題,首先,提取主成分的必要性,從數(shù)字信號的角度分析,主成分時(shí)方差較大,稱為信號,而噪聲是方差較小的;極限講,如果100個(gè)樣本點(diǎn)都匯集成一個(gè)點(diǎn),也就是方差為0,那么不就相當(dāng)于我們手上有1個(gè)點(diǎn)嗎,因?yàn)槠渌?9個(gè)對我們的最終的目標(biāo)不會(huì)有任何作用了,相對的,我們更喜歡來一個(gè)與之散的比較開的點(diǎn),這樣會(huì)對我們的模型起到一個(gè)實(shí)質(zhì)的作用。
不管是特征值分解法,還是奇異值分解法,需要理解以下基本知識點(diǎn):
向量在某個(gè)正交基空間上的投影,等于點(diǎn)乘這個(gè)主軸;
通過一次正交變換,可以實(shí)現(xiàn)一次向量的旋轉(zhuǎn);
正交方陣能使一個(gè)正交基變換為另一個(gè)正交基
已經(jīng)分析了如何利用特征值分解完成數(shù)據(jù)的降維和提取主成分,下面看下如何利用奇異值分解完成數(shù)據(jù)降維,要知道它可以實(shí)現(xiàn)兩個(gè)方向的降維,而特征值分解是做不到的。然后總結(jié)下它們的實(shí)際應(yīng)用。
SVD分解過程
我們的原始數(shù)據(jù)樣本:
A = np.array([[2, 4], [1, 3],[0,0]])
A
array([[2, 4],
[1, 3],
[0, 0]])
#轉(zhuǎn)化為我們想要的A,將特征定為axis=0
A = A.T
A
array([[2, 1, 0],
[4, 3, 0]])
調(diào)用 Numpy中的奇異值分解API:
#奇異值分解
np.linalg.svd(A)
得到的結(jié)果為三個(gè)數(shù)組U*Sigma*V轉(zhuǎn)置
(array([[-0.40455358, -0.9145143 ],
[-0.9145143 ,0.40455358]]),
array([ 5.4649857 ,0.36596619]) ,
array([[-0.81741556, -0.57604844,0. ],
[-0.57604844,0.81741556,0. ],
[ 0. ,0. ,1. ]]))
現(xiàn)在看下數(shù)據(jù)A是如何奇異值分解的:
#U矩陣是通過A.dot(A.T)的特征值求得的(按照特征值由大到小排序)
np.linalg.eig( A.dot(A.T) )
(array([ 0.13393125,29.86606875]),array([[-0.9145143 , -0.40455358],
[ 0.40455358, -0.9145143 ]]))
#奇異值(特征值的開根號)
np.sqrt(29.86606875),np.sqrt(0.13393125)
#V的轉(zhuǎn)置是通過A.T.dot(A)的特征值求得的(按照特征值由大到小排序)
np.linalg.eig(A.T.dot(A))
(array([ 29.86606875, 0.13393125,0. ]),
array([[ 0.81741556, -0.57604844,0. ],
[ 0.57604844,0.81741556,0. ],
[ 0. ,0. ,1. ]]))
SVD降維實(shí)例
對于SVD的奇異值也是按照從大到小排列,而且奇異值梯度很大。在昨天,我們介紹過:在很多情況下,前10%,甚至有的1%的奇異值的和就占了全部的奇異值之和的99%,這是什么意思呢,這就表示原矩陣可以被壓縮為一個(gè)很小的矩陣,并且還能保證其主要成分信息不會(huì)丟失。
也就是說,我們也可以用最大的 k 個(gè)的奇異值和對應(yīng)的左右奇異向量來近似描述原始矩陣數(shù)據(jù),如下圖表達(dá)的含義:
接下來,我們實(shí)際演練下這個(gè)過程,利用 numpy庫隨機(jī)生成一個(gè)5*9的二維數(shù)組(也可以稱為矩陣吧)A:
array([[6, 4, 9, 4, 2, 7, 6, 2, 6],
[6, 3, 0, 5, 6, 2, 5, 4, 8],
[6, 0, 4, 2, 3, 5, 4, 9, 7],
[6, 1, 3, 6, 5, 1, 3, 7, 1],
[4, 1, 6, 4, 2, 4, 1, 3, 6]])
那么如何先進(jìn)行特征降維呢? 比如降維成 5* r 列,只要降維后的 r列能近似表達(dá)原矩陣就行吧,已知奇異值分解的公式:
因此如果想要把A降維成特征r個(gè),那么只需要上個(gè)近似等式兩邊同乘以 Vr*n ,如下:
因?yàn)閂r*n是正交矩陣,所以V的轉(zhuǎn)置等于V的逆,所以,上式進(jìn)一步化簡為:
這樣,近似等號的右側(cè)就是一個(gè)m*r的矩陣,它是將A矩陣壓縮后的近似矩陣,V就是中間的變換矩陣。
借助numpy的API,我們發(fā)現(xiàn)取取3個(gè)奇異值,就已經(jīng)表達(dá)了84%的奇異值的和,所以取前3個(gè)奇異值,因此,求出 U * Singular等于如下:(取小數(shù)點(diǎn)后1位顯示)
array([[-15.3, 6.3, -0.8],
[-13.2,-3.9,-4.9],
[-14.5,-1.4, 2.9],
[-11.2,-4.6, 2.5],
[-10.9, 2.6, 0.6]])
這就完成了對特征的壓縮,將含有9個(gè)特征的數(shù)據(jù),最后壓縮為3個(gè)特征。那么如何來按照行對數(shù)據(jù)壓縮呢,和上面的原理差不多,在奇異值分解的等式兩側(cè)乘以U的轉(zhuǎn)置,就可以推導(dǎo)出下式,等號右邊不就是 r*n的按行壓縮后的矩陣嗎!
至此,SVD按照特征壓縮,和數(shù)據(jù)樣本壓縮,兩個(gè)方向的壓縮方法和例子就說完了,接下來看看它的實(shí)際應(yīng)用吧。
數(shù)據(jù)壓縮的實(shí)際應(yīng)用
例如sklearn的 iris 經(jīng)典數(shù)據(jù)集中,iris的4個(gè)特征,被PCA后,只提取了其中2個(gè)特征,便表達(dá)了其中的主要方差,這是一個(gè)數(shù)據(jù)降維的典型demo 。
另外,PCA的特征值分解和奇異值分解在圖像處理,壓縮方面也有很廣的應(yīng)用,可以將圖像的數(shù)據(jù)做奇異值分解,然后降維處理,例如下面的圖片,經(jīng)過奇異值分解法獲得的主成分提取后壓縮后的圖像,可以看到基本保留了原來的圖像主要信息。
簡單總結(jié)下,重點(diǎn)介紹了奇異值分解法壓縮矩陣的原理,和一個(gè)實(shí)際的例子,最后實(shí)戰(zhàn)介紹了PCA的實(shí)際應(yīng)用。前面介紹了決策樹的原理和例子解析,明天,基于次,再介紹一種經(jīng)典的機(jī)器學(xué)習(xí)集成算法,XGBoost,它可是中國的科學(xué)家發(fā)明的。
掃碼或添加微信號:壇友素質(zhì)互助
「經(jīng)管之家」APP:經(jīng)管人學(xué)習(xí)、答疑、交友,就上經(jīng)管之家!
免流量費(fèi)下載資料----在經(jīng)管之家app可以下載論壇上的所有資源,并且不額外收取下載高峰期的論壇幣。
涵蓋所有經(jīng)管領(lǐng)域的優(yōu)秀內(nèi)容----覆蓋經(jīng)濟(jì)、管理、金融投資、計(jì)量統(tǒng)計(jì)、數(shù)據(jù)分析、國貿(mào)、財(cái)會(huì)等專業(yè)的學(xué)習(xí)寶庫,各類資料應(yīng)有盡有。
來自五湖四海的經(jīng)管達(dá)人----已經(jīng)有上千萬的經(jīng)管人來到這里,你可以找到任何學(xué)科方向、有共同話題的朋友。
經(jīng)管之家(原人大經(jīng)濟(jì)論壇),跨越高校的圍墻,帶你走進(jìn)經(jīng)管知識的新世界。
掃描下方二維碼下載并注冊APP
免流量費(fèi)下載資料----在經(jīng)管之家app可以下載論壇上的所有資源,并且不額外收取下載高峰期的論壇幣。
涵蓋所有經(jīng)管領(lǐng)域的優(yōu)秀內(nèi)容----覆蓋經(jīng)濟(jì)、管理、金融投資、計(jì)量統(tǒng)計(jì)、數(shù)據(jù)分析、國貿(mào)、財(cái)會(huì)等專業(yè)的學(xué)習(xí)寶庫,各類資料應(yīng)有盡有。
來自五湖四海的經(jīng)管達(dá)人----已經(jīng)有上千萬的經(jīng)管人來到這里,你可以找到任何學(xué)科方向、有共同話題的朋友。
經(jīng)管之家(原人大經(jīng)濟(jì)論壇),跨越高校的圍墻,帶你走進(jìn)經(jīng)管知識的新世界。
掃描下方二維碼下載并注冊APP
本文論壇網(wǎng)址:http://xalimeijing.com/thread-6118512-1-1.html
您可能感興趣的文章
人氣文章
本文標(biāo)題:數(shù)據(jù)降維:特征值分解和奇異值分解的實(shí)戰(zhàn)分析
本文鏈接網(wǎng)址:http://xalimeijing.com/jg/kaoyankaobo_kaoyan_6118512_1.html
2.轉(zhuǎn)載的文章僅代表原創(chuàng)作者觀點(diǎn),與本站無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),本站對該文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性,不作出任何保證或承若;
3.如本站轉(zhuǎn)載稿涉及版權(quán)等問題,請作者及時(shí)聯(lián)系本站,我們會(huì)及時(shí)處理。