- 線性回歸的目標(biāo)
- 線性回歸的計算原理
- 比較線性回歸和相關(guān)性
- 比較線性回歸和非線性回歸
- 通過線性回歸分析變換數(shù)據(jù)來分析非線性數(shù)據(jù)的方法存在哪些問題
上一篇【簡單線性回歸原理(一)】回顧:http://xalimeijing.com/thread-10410928-1-1.html
【比較線性回歸與相關(guān)性】
線性回歸不同于相關(guān)性。
01 二者的目的是什么?
線性回歸能夠找出根據(jù)X預(yù)測Y的最佳直線。相關(guān)性量化兩個變量的關(guān)聯(lián)程度。相關(guān)性不能擬合通過數(shù)據(jù)點的直線。你只是在計算相關(guān)系數(shù)(r),該系數(shù)可以告訴你一個變量隨另一個變量的變化。r為0.0時,無相關(guān)性。r為正值時,一個變量隨另一個變量升高而升高。r為負值時,一個變量隨另一個變量下降而升高。
02 二者適用于哪種數(shù)據(jù)?
X為操縱的變量(時間、濃度等)時,通常使用線性回歸。測量兩個變量時,幾乎總會用到相關(guān)性。如果一個變量是可以通過試驗操縱的變量,那么就不太適用。
03 哪個變量為X?哪個為Y?是否存在差異?
在回歸中決定將哪個變量稱為“X”,哪個變量稱為“Y”很重要,因為如果這兩個變量互換,將得到一條不同的最佳擬合線。根據(jù)X預(yù)測Y的最佳擬合線與根據(jù)Y預(yù)測X的最佳擬合線不同(然而,這兩條線具有相同的R2值)。通過相關(guān)性,你無需考慮因果關(guān)系。這兩個變量中的哪一個為“X”,哪一稱為“Y”并不重要。如果將兩者互換,得到的相關(guān)系數(shù)相同。
04 假設(shè)
通過線性回歸,X值可測量或X值可以為試驗者控制的變量。不假設(shè)X值是從高斯分布中抽樣。假設(shè)點到最佳擬合線的距離服從高斯分布,散點的SD與X或Y值無關(guān)。相關(guān)系數(shù)本身只是描述兩個變量如何一起變化的一種方式,因此可針對任何兩個變量進行計算和解讀。但進一步推理需另外假設(shè)X和Y均已測量(為區(qū)間或比率變量),兩者均從高斯分布中抽樣獲得。這稱為“二元高斯分布”。如果這些假設(shè)為真,則可解讀r和P值的置信區(qū)間,r和P值能夠檢驗零假設(shè) - 兩個變量之間實際上并無相關(guān)性(且你所觀察到的任何相關(guān)性均為隨機抽樣的結(jié)果)。
05 各結(jié)果之間的關(guān)系
線性回歸使用r2量化擬合優(yōu)度,有時用大寫字母R2表示。如果將相同數(shù)據(jù)放入相關(guān)性(這很不合適;見上文),則基于相關(guān)性的r2等于基于 回歸的r2。
相關(guān)性計算皮爾森相關(guān)系數(shù)-r的值,范圍為-1到+1。
【比較線性回歸與非線性回歸】
01 線性和非線性回歸的目的
直線由一個簡單的方程描述,可根據(jù)X、斜率和截距計算Y。線性回歸的目的在于找到定義最接近數(shù)據(jù)的直線的斜率和截距值。非線性回歸比線性回歸更通用,可使任何模型(方程)擬合你的數(shù)據(jù),其將查找一系列參數(shù)值,即生成曲線(與數(shù)據(jù)最接近)的那些參數(shù)。
02 線性和非線性回歸的工作原理
線性和非線性回歸均可找到使直線或曲線盡可能接近數(shù)據(jù)的參數(shù)值(線性回歸的斜率和截距)。更準(zhǔn)確地說,旨在盡量減少點到直線或曲線的垂直距離的平方和。線性回歸 使用可用初等代數(shù)完全解釋的數(shù)學(xué)運算來實現(xiàn)該目的(許多統(tǒng)計學(xué)書籍中的顯示)。輸入數(shù)據(jù),答案就出來了,不會出現(xiàn)模棱兩可。如果你愿意,甚至可手動計算。非線性回歸使用計算量比較大的,迭代方法這只能用微積分和矩陣代數(shù)進行解釋,該方法需要每項參數(shù)的初始估計值。
03 線性回歸是非線性回歸的特例
非線性回歸程序可擬合任何模型(包括線性模型)。線性回歸只是非線性回歸的特例。即使你的目的是使用數(shù)據(jù)中擬合一條直線,也有許多情況選擇非線性回歸而非線性回歸的選擇。
使用非線性回歸分析數(shù)據(jù)只比使用線性回歸稍微難一點。對線性或非線性回歸的選擇應(yīng)基于你所擬合的模型。不得僅僅為避免使用非線性回歸而使用線性回歸。 避免過多轉(zhuǎn)換,例如Scatchard或Lineweaver-Burke轉(zhuǎn)換,其唯一目的是線性化你的數(shù)據(jù)。
----------------END----------------