五月天婷亚洲天久久综合网,婷婷丁香五月激情亚洲综合,久久男人精品女人,麻豆91在线播放

<center id="8gusu"></center><rt id="8gusu"></rt><menu id="8gusu"><small id="8gusu"></small></menu>

<dd id="8gusu"><s id="8gusu"></s></dd>

<fieldset id="agqbz"></fieldset>

簽到
- 蘋(píng)果/安卓/wp
- 蘋(píng)果/安卓/wp
客戶端
0.0

0.00

人大經(jīng)濟(jì)論壇 › 論壇 › 數(shù)據(jù)科學(xué)與人工智能 › 數(shù)據(jù)分析與數(shù)據(jù)科學(xué) › 數(shù)據(jù)分析與數(shù)據(jù)挖掘 › 梯度下降算法的替代方法

CDA數(shù)據(jù)分析研究院

商業(yè)數(shù)據(jù)分析與大數(shù)據(jù)領(lǐng)航教育品牌



經(jīng)管云課堂

經(jīng)管/金融/財(cái)會(huì)/社科/名師公開(kāi)課



學(xué)術(shù)培訓(xùn)

Stata 空間計(jì)量 SSCI Python

貴賓：通行論壇特權(quán)+數(shù)據(jù)庫(kù)權(quán)限
+案例庫(kù)+下載特權(quán) VIP：論壇特權(quán)+更多下載次數(shù)
+ccerdata數(shù)據(jù)庫(kù)+更高閱讀權(quán)限+……

提升主題| 本版置頂| 關(guān)閉主題| 變更主題顏色| 搶沙發(fā)| 頂貼| 顯身卡| 道具中心

樓主: 時(shí)光永痕

1992 1

[數(shù)據(jù)挖掘新聞] 梯度下降算法的替代方法 [推廣有獎(jiǎng)]

0關(guān)注
14粉絲

學(xué)術(shù)權(quán)威

12%

（VIP/貴賓）六級(jí)

76%

0%

威望: 0 級(jí)
論壇幣: 26 個(gè)
通用積分: 57.2238
學(xué)術(shù)水平: 4 點(diǎn)
熱心指數(shù): 4 點(diǎn)
信用等級(jí): 4 點(diǎn)
經(jīng)驗(yàn): 34180 點(diǎn)
帖子: 2732
精華: 0
在線時(shí)間: 321 小時(shí)
注冊(cè)時(shí)間: 2020-7-21
最后登錄: 2024-8-1

樓主

時(shí)光永痕

學(xué)生認(rèn)證

發(fā)表于 2020-9-4 20:27:24 |只看作者 |壇友微信交流群|倒序 |AI寫(xiě)論文

是否 +2 論壇幣

k人參與回答

經(jīng)管之家送您一份

應(yīng)屆畢業(yè)生專屬福利!

求職就業(yè)群

趙安豆老師微信：zhaoandou666

經(jīng)管之家聯(lián)合CDA

送您一個(gè)全額獎(jiǎng)學(xué)金名額~ !

立即領(lǐng)取

感謝您參與論壇問(wèn)題回答

經(jīng)管之家送您兩個(gè)論壇幣！

+2 論壇幣

梯度下降算法的替代方法
梯度下降存在卡在局部極小值中的問(wèn)題�？梢允褂靡韵绿娲椒�。以下是最初在此處發(fā)布的CrossValided建議答案的摘要。
圖片來(lái)源：這里
第一個(gè)答案
有許多優(yōu)化算法可對(duì)固定數(shù)量的相關(guān)實(shí)數(shù)進(jìn)行操作（不可分離）。我們可以將它們大致分為兩類：基于梯度的優(yōu)化器和無(wú)導(dǎo)數(shù)優(yōu)化器。通常，您要使用梯度在有監(jiān)督的設(shè)置中優(yōu)化神經(jīng)網(wǎng)絡(luò)，因?yàn)樗葻o(wú)導(dǎo)數(shù)優(yōu)化快得多。有許多基于梯度的優(yōu)化算法已用于優(yōu)化神經(jīng)網(wǎng)絡(luò)：
隨機(jī)梯度下降（SGD），小批量SGD，...：您不必評(píng)估整個(gè)訓(xùn)練集的梯度，而只需評(píng)估一個(gè)樣品或一小批樣品，通常比批梯度下降快得多。迷你批處理已用于平滑梯度并使前后傳播并行化。與許多其他算法相比，優(yōu)點(diǎn)是每次迭代都在O（n）中（n是您的NN中的權(quán)重?cái)?shù)）。SGD通常是隨機(jī)的，因此不會(huì)陷入局部最小值（�。�
非線性共軛梯度：似乎在回歸中非常成功，O（n）需要批梯度（因此，對(duì)于大型數(shù)據(jù)集而言可能不是最佳選擇）
L-BFGS：分類似乎很成功，使用Hessian近似，需要批次梯度
Levenberg-Marquardt算法（LMA）：實(shí)際上，這是我所知道的最佳優(yōu)化算法。它的缺點(diǎn)是其復(fù)雜度大約為O（n ^ 3）。不要將其用于大型網(wǎng)絡(luò)！
提出了許多其他用于神經(jīng)網(wǎng)絡(luò)優(yōu)化的算法，您可以使用Google進(jìn)行免費(fèi)的Hessian優(yōu)化或v-SGD（有許多類型的SGD具有自適應(yīng)學(xué)習(xí)率，請(qǐng)參見(jiàn)此處）。
NN的優(yōu)化不是一個(gè)解決的問(wèn)題！以我的經(jīng)驗(yàn)，最大的挑戰(zhàn)不是找到一個(gè)好的本地最小值。但是，面臨的挑戰(zhàn)是擺脫非常平坦的區(qū)域，處理不良條件的誤差函數(shù)等。這就是為什么LMA和其他使用Hessian近似值的算法在實(shí)踐中通常能很好地工作并且人們嘗試開(kāi)發(fā)隨機(jī)版本的原因使用低復(fù)雜度的二階信息。但是，微批處理SGD經(jīng)常需要對(duì)參數(shù)集進(jìn)行很好的調(diào)整，比任何復(fù)雜的優(yōu)化算法都要好。
通常，您不想找到全局最優(yōu)值。因?yàn)槟峭ǔＰ枰^(guò)度擬合訓(xùn)練數(shù)據(jù)。
第二個(gè)答案
我知道這個(gè)線程已經(jīng)很老了，其他人在解釋局部極小值，過(guò)擬合等概念方面做得很出色。但是，由于OP正在尋找替代解決方案，因此我將盡自己的力量，并希望它能激發(fā)出更多有趣的想法。
想法是將每個(gè)權(quán)重w替換為w + t，其中t是遵循高斯分布的隨機(jī)數(shù)。這樣，網(wǎng)絡(luò)的最終輸出就是所有可能的t值的平均輸出。這可以通過(guò)分析來(lái)完成。然后，您可以使用梯度下降或LMA或其他優(yōu)化方法來(lái)優(yōu)化問(wèn)題。優(yōu)化完成后，您有兩個(gè)選擇。一種選擇是減少高斯分布中的sigma并一次又一次地進(jìn)行優(yōu)化，直到sigma達(dá)到0，然后您將獲得更好的局部最小值（但可能會(huì)導(dǎo)致過(guò)度擬合）。另一個(gè)選擇是繼續(xù)使用權(quán)重為隨機(jī)數(shù)的那個(gè)，它通常具有更好的泛化屬性。
第一種方法是優(yōu)化技巧（我稱其為卷積隧道，因?yàn)樗褂脤?duì)參數(shù)的卷積來(lái)更改目標(biāo)函數(shù)），它使成本函數(shù)格局的表面變得平滑，并擺脫了一些局部最小值，因此使查找全局最小值（或更好的局部最小值）更加容易。
第二種方法與噪聲注入（權(quán)重）有關(guān)。注意，這是通過(guò)分析完成的，這意味著最終結(jié)果是一個(gè)單一的網(wǎng)絡(luò)，而不是多個(gè)網(wǎng)絡(luò)。
以下是兩螺旋問(wèn)題的示例輸出。這三個(gè)網(wǎng)絡(luò)的網(wǎng)絡(luò)架構(gòu)都是相同的：只有一個(gè)隱藏層，包含30個(gè)節(jié)點(diǎn)，輸出層是線性的。使用的優(yōu)化算法是LMA。左圖為香草設(shè)置。中間是使用第一種方法（即將sigma重復(fù)減少為0）；第三是使用sigma = 2。
三種方法的兩螺旋問(wèn)題的結(jié)果
您可以看到，最原始的解決方案是最差的，卷積隧穿效果更好，而噪聲注入（使用卷積隧穿）則最好（就泛化屬性而言）。
卷積隧穿和噪聲注入的解析方式都是我的初衷。也許他們是某人可能感興趣的選擇。有關(guān)詳細(xì)信息，請(qǐng)參見(jiàn)我的論文《將無(wú)窮多個(gè)神經(jīng)網(wǎng)絡(luò)合并為一個(gè)》。警告：我不是專業(yè)的學(xué)術(shù)作家，論文未經(jīng)同行評(píng)審。如果您對(duì)我提到的方法有疑問(wèn)，請(qǐng)發(fā)表評(píng)論。
第三個(gè)答案
當(dāng)涉及到全局優(yōu)化任務(wù)（即嘗試找到目標(biāo)函數(shù)的全局最小值）時(shí)，您可能想看看：
模式搜索（也稱為直接搜索，無(wú)導(dǎo)數(shù)搜索或黑盒搜索），它使用模式  來(lái)確定下次迭代時(shí)要搜索的點(diǎn)。
遺傳算法，使用突變，交叉和選擇的概念來(lái)定義要在優(yōu)化的下一次迭代中評(píng)估的點(diǎn)的數(shù)量。
粒子群優(yōu)化定義了一組粒子，這些粒子“遍歷”空間以搜索最小值。
替代優(yōu)化，它使用替代模型來(lái)近似目標(biāo)函數(shù)。當(dāng)目標(biāo)函數(shù)的評(píng)估成本很高時(shí)，可以使用此方法。
多目標(biāo)優(yōu)化（也稱為帕累托優(yōu)化），可用于無(wú)法以單一目標(biāo)函數(shù)（而是目標(biāo)向量）形式表示的問(wèn)題。
模擬退火，它使用退火（或溫度）的概念來(lái)權(quán)衡勘探和開(kāi)發(fā)。它為每次迭代提出了新的評(píng)估點(diǎn)，但是隨著迭代次數(shù)的增加，“溫度”下降，算法探索空間的可能性越來(lái)越小，從而“收斂”到當(dāng)前最佳候選位置。
如上所述，模擬退火，粒子群優(yōu)化和遺傳算法是很好的全局優(yōu)化算法，可以很好地在巨大的搜索空間中導(dǎo)航，與梯度下降不同，它不需要有關(guān)梯度的任何信息，可以成功地用于黑盒目標(biāo)函數(shù)和問(wèn)題需要運(yùn)行模擬。

關(guān)注 CDA人工智能學(xué)院，回復(fù)“錄播”獲取更多人工智能精選直播視頻！

二維碼

掃碼加我拉你入群

請(qǐng)注明：姓名-公司-職位

以便審核進(jìn)群資格，未注明則拒絕

分享0 收藏0 回帖

關(guān)鍵詞：梯度下降 marquardt crossval Hessian Google

相關(guān)帖子

[url=https://edu.cda.cn/page/110]http://xalimeijing.com/http://xalimeijing.com/https://bbs-pic.datacourse.cn/album/202206/01/135703zley18vue50izh55.png[/url]

回復(fù)

使用道具舉報(bào)

沙發(fā)

myazure 發(fā)表于 2020-9-4 21:27:43 |只看作者 |壇友微信交流群

回復(fù)

使用道具舉報(bào)

本版微信群

加好友,備注cda
拉您進(jìn)交流群

文房思寶

推廣員渠道開(kāi)啟
次卡算粒免費(fèi)用
代理分成可提現(xiàn)

手機(jī)版 |

意見(jiàn)反饋 |

新手入門(mén) |

用戶手冊(cè) |

如有投資本站、合作意向或投放廣告，請(qǐng)聯(lián)系：13661292478（劉老師）

聯(lián)系客服

郵箱：service@pinggu.org 投訴或不良信息處理：（010-68466864）

京ICP備16021002-2號(hào) 京B2-20170662號(hào) 京公網(wǎng)安備 11010802022788號(hào) 論壇法律顧問(wèn)：王進(jìn)律師知識(shí)產(chǎn)權(quán)保護(hù)聲明免責(zé)及隱私聲明