五月天婷亚洲天久久综合网,婷婷丁香五月激情亚洲综合,久久男人精品女人,麻豆91在线播放

  • <center id="8gusu"></center><rt id="8gusu"></rt>
    <menu id="8gusu"><small id="8gusu"></small></menu>
  • <dd id="8gusu"><s id="8gusu"></s></dd>

    數(shù)據(jù)降維:特征值分解和奇異值分解的實(shí)戰(zhàn)分析-經(jīng)管之家官網(wǎng)!

    人大經(jīng)濟(jì)論壇-經(jīng)管之家 收藏本站
    您當(dāng)前的位置> 考研考博>>

    考研

    >>

    數(shù)據(jù)降維:特征值分解和奇異值分解的實(shí)戰(zhàn)分析

    數(shù)據(jù)降維:特征值分解和奇異值分解的實(shí)戰(zhàn)分析

    發(fā)布:ada89k | 分類:考研

    關(guān)于本站

    人大經(jīng)濟(jì)論壇-經(jīng)管之家:分享大學(xué)、考研、論文、會(huì)計(jì)、留學(xué)、數(shù)據(jù)、經(jīng)濟(jì)學(xué)、金融學(xué)、管理學(xué)、統(tǒng)計(jì)學(xué)、博弈論、統(tǒng)計(jì)年鑒、行業(yè)分析包括等相關(guān)資源。
    經(jīng)管之家是國內(nèi)活躍的在線教育咨詢平臺(tái)!

    經(jīng)管之家新媒體交易平臺(tái)

    提供"微信號、微博、抖音、快手、頭條、小紅書、百家號、企鵝號、UC號、一點(diǎn)資訊"等虛擬賬號交易,真正實(shí)現(xiàn)買賣雙方的共贏!菊堻c(diǎn)擊這里訪問】

    提供微信號、微博、抖音、快手、頭條、小紅書、百家號、企鵝號、UC號、一點(diǎn)資訊等虛擬賬號交易,真正實(shí)現(xiàn)買賣雙方的共贏!菊堻c(diǎn)擊這里訪問】

    數(shù)據(jù)降維:特征值分解和奇異值分解的實(shí)戰(zhàn)分析現(xiàn)在我們再回顧下這些問題,首先,提取主成分的必要性,從數(shù)字信號的角度分析,主成分時(shí)方差較大,稱為信號,而噪聲是方差較小的;極限講,如果100個(gè)樣本點(diǎn)都匯集成一個(gè)點(diǎn) ...
    壇友互助群


    掃碼加入各崗位、行業(yè)、專業(yè)交流群


    數(shù)據(jù)降維:特征值分解和奇異值分解的實(shí)戰(zhàn)分析


    現(xiàn)在我們再回顧下這些問題,首先,提取主成分的必要性,從數(shù)字信號的角度分析,主成分時(shí)方差較大,稱為信號,而噪聲是方差較小的;極限講,如果100個(gè)樣本點(diǎn)都匯集成一個(gè)點(diǎn),也就是方差為0,那么不就相當(dāng)于我們手上有1個(gè)點(diǎn)嗎,因?yàn)槠渌?9個(gè)對我們的最終的目標(biāo)不會(huì)有任何作用了,相對的,我們更喜歡來一個(gè)與之散的比較開的點(diǎn),這樣會(huì)對我們的模型起到一個(gè)實(shí)質(zhì)的作用。
    不管是特征值分解法,還是奇異值分解法,需要理解以下基本知識點(diǎn):
    向量在某個(gè)正交基空間上的投影,等于點(diǎn)乘這個(gè)主軸;
    通過一次正交變換,可以實(shí)現(xiàn)一次向量的旋轉(zhuǎn);
    正交方陣能使一個(gè)正交基變換為另一個(gè)正交基
    已經(jīng)分析了如何利用特征值分解完成數(shù)據(jù)的降維和提取主成分,下面看下如何利用奇異值分解完成數(shù)據(jù)降維,要知道它可以實(shí)現(xiàn)兩個(gè)方向的降維,而特征值分解是做不到的。然后總結(jié)下它們的實(shí)際應(yīng)用。
    SVD分解過程
    我們的原始數(shù)據(jù)樣本:
    A = np.array([[2, 4], [1, 3],[0,0]])
    A
    array([[2, 4],
    [1, 3],
    [0, 0]])
    #轉(zhuǎn)化為我們想要的A,將特征定為axis=0
    A = A.T
    A
    array([[2, 1, 0],
    [4, 3, 0]])
    調(diào)用 Numpy中的奇異值分解API:
    #奇異值分解
    np.linalg.svd(A)
    得到的結(jié)果為三個(gè)數(shù)組U*Sigma*V轉(zhuǎn)置
    (array([[-0.40455358, -0.9145143 ],
    [-0.9145143 ,0.40455358]]),
    array([ 5.4649857 ,0.36596619]) ,
    array([[-0.81741556, -0.57604844,0. ],
    [-0.57604844,0.81741556,0. ],
    [ 0. ,0. ,1. ]]))
    現(xiàn)在看下數(shù)據(jù)A是如何奇異值分解的:
    #U矩陣是通過A.dot(A.T)的特征值求得的(按照特征值由大到小排序)
    np.linalg.eig( A.dot(A.T) )
    (array([ 0.13393125,29.86606875]),array([[-0.9145143 , -0.40455358],
    [ 0.40455358, -0.9145143 ]]))
    #奇異值(特征值的開根號)
    np.sqrt(29.86606875),np.sqrt(0.13393125)
    #V的轉(zhuǎn)置是通過A.T.dot(A)的特征值求得的(按照特征值由大到小排序)
    np.linalg.eig(A.T.dot(A))
    (array([ 29.86606875, 0.13393125,0. ]),
    array([[ 0.81741556, -0.57604844,0. ],
    [ 0.57604844,0.81741556,0. ],
    [ 0. ,0. ,1. ]]))
    SVD降維實(shí)例
    對于SVD的奇異值也是按照從大到小排列,而且奇異值梯度很大。在昨天,我們介紹過:在很多情況下,前10%,甚至有的1%的奇異值的和就占了全部的奇異值之和的99%,這是什么意思呢,這就表示原矩陣可以被壓縮為一個(gè)很小的矩陣,并且還能保證其主要成分信息不會(huì)丟失。
    也就是說,我們也可以用最大的 k 個(gè)的奇異值和對應(yīng)的左右奇異向量來近似描述原始矩陣數(shù)據(jù),如下圖表達(dá)的含義:


    接下來,我們實(shí)際演練下這個(gè)過程,利用 numpy庫隨機(jī)生成一個(gè)5*9的二維數(shù)組(也可以稱為矩陣吧)A:
    array([[6, 4, 9, 4, 2, 7, 6, 2, 6],
    [6, 3, 0, 5, 6, 2, 5, 4, 8],
    [6, 0, 4, 2, 3, 5, 4, 9, 7],
    [6, 1, 3, 6, 5, 1, 3, 7, 1],
    [4, 1, 6, 4, 2, 4, 1, 3, 6]])
    那么如何先進(jìn)行特征降維呢? 比如降維成 5* r 列,只要降維后的 r列能近似表達(dá)原矩陣就行吧,已知奇異值分解的公式:


    因此如果想要把A降維成特征r個(gè),那么只需要上個(gè)近似等式兩邊同乘以 Vr*n ,如下:


    因?yàn)閂r*n是正交矩陣,所以V的轉(zhuǎn)置等于V的逆,所以,上式進(jìn)一步化簡為:


    這樣,近似等號的右側(cè)就是一個(gè)m*r的矩陣,它是將A矩陣壓縮后的近似矩陣,V就是中間的變換矩陣。
    借助numpy的API,我們發(fā)現(xiàn)取取3個(gè)奇異值,就已經(jīng)表達(dá)了84%的奇異值的和,所以取前3個(gè)奇異值,因此,求出 U * Singular等于如下:(取小數(shù)點(diǎn)后1位顯示)
    array([[-15.3, 6.3, -0.8],
    [-13.2,-3.9,-4.9],
    [-14.5,-1.4, 2.9],
    [-11.2,-4.6, 2.5],
    [-10.9, 2.6, 0.6]])
    這就完成了對特征的壓縮,將含有9個(gè)特征的數(shù)據(jù),最后壓縮為3個(gè)特征。那么如何來按照行對數(shù)據(jù)壓縮呢,和上面的原理差不多,在奇異值分解的等式兩側(cè)乘以U的轉(zhuǎn)置,就可以推導(dǎo)出下式,等號右邊不就是 r*n的按行壓縮后的矩陣嗎!


    至此,SVD按照特征壓縮,和數(shù)據(jù)樣本壓縮,兩個(gè)方向的壓縮方法和例子就說完了,接下來看看它的實(shí)際應(yīng)用吧。
    數(shù)據(jù)壓縮的實(shí)際應(yīng)用
    例如sklearn的 iris 經(jīng)典數(shù)據(jù)集中,iris的4個(gè)特征,被PCA后,只提取了其中2個(gè)特征,便表達(dá)了其中的主要方差,這是一個(gè)數(shù)據(jù)降維的典型demo 。


    另外,PCA的特征值分解和奇異值分解在圖像處理,壓縮方面也有很廣的應(yīng)用,可以將圖像的數(shù)據(jù)做奇異值分解,然后降維處理,例如下面的圖片,經(jīng)過奇異值分解法獲得的主成分提取后壓縮后的圖像,可以看到基本保留了原來的圖像主要信息。


    簡單總結(jié)下,重點(diǎn)介紹了奇異值分解法壓縮矩陣的原理,和一個(gè)實(shí)際的例子,最后實(shí)戰(zhàn)介紹了PCA的實(shí)際應(yīng)用。前面介紹了決策樹的原理和例子解析,明天,基于次,再介紹一種經(jīng)典的機(jī)器學(xué)習(xí)集成算法,XGBoost,它可是中國的科學(xué)家發(fā)明的。
    掃碼或添加微信號:壇友素質(zhì)互助


    「經(jīng)管之家」APP:經(jīng)管人學(xué)習(xí)、答疑、交友,就上經(jīng)管之家!
    免流量費(fèi)下載資料----在經(jīng)管之家app可以下載論壇上的所有資源,并且不額外收取下載高峰期的論壇幣。
    涵蓋所有經(jīng)管領(lǐng)域的優(yōu)秀內(nèi)容----覆蓋經(jīng)濟(jì)、管理、金融投資、計(jì)量統(tǒng)計(jì)、數(shù)據(jù)分析、國貿(mào)、財(cái)會(huì)等專業(yè)的學(xué)習(xí)寶庫,各類資料應(yīng)有盡有。
    來自五湖四海的經(jīng)管達(dá)人----已經(jīng)有上千萬的經(jīng)管人來到這里,你可以找到任何學(xué)科方向、有共同話題的朋友。
    經(jīng)管之家(原人大經(jīng)濟(jì)論壇),跨越高校的圍墻,帶你走進(jìn)經(jīng)管知識的新世界。
    掃描下方二維碼下載并注冊APP
    本文關(guān)鍵詞:

    本文論壇網(wǎng)址:http://xalimeijing.com/thread-6118512-1-1.html

    人氣文章

    1.凡人大經(jīng)濟(jì)論壇-經(jīng)管之家轉(zhuǎn)載的文章,均出自其它媒體或其他官網(wǎng)介紹,目的在于傳遞更多的信息,并不代表本站贊同其觀點(diǎn)和其真實(shí)性負(fù)責(zé);
    2.轉(zhuǎn)載的文章僅代表原創(chuàng)作者觀點(diǎn),與本站無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),本站對該文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性,不作出任何保證或承若;
    3.如本站轉(zhuǎn)載稿涉及版權(quán)等問題,請作者及時(shí)聯(lián)系本站,我們會(huì)及時(shí)處理。
    數(shù)據(jù)分析師 人大經(jīng)濟(jì)論壇 大學(xué) 專業(yè) 手機(jī)版