在分析這些選項(xiàng)時(shí),我們需要仔細(xì)考慮每個(gè)選項(xiàng)的技術(shù)背景和其在深度學(xué)習(xí)中的應(yīng)用場(chǎng)景:
A: 如果訓(xùn)練樣本量較大,可選用隨機(jī)梯度下降(SGD),它考慮歷史梯度信息,更容易跳出局部極小值點(diǎn)
- 這是錯(cuò)誤的。隨機(jī)梯度下降(SGD)本身不考慮歷史梯度信息。相比于基本的梯度下降,SGD在每一步只使用一個(gè)或少數(shù)幾個(gè)樣本進(jìn)行更新,這使得它能夠更快地進(jìn)行參數(shù)更新并跳出局部最小值。但它并不使用歷史梯度信息,這樣的特性一般是動(dòng)量(Momentum)方法或自適應(yīng)學(xué)習(xí)率方法(如Adam)所具有的。
B: 在高度非凸的深度網(wǎng)絡(luò)優(yōu)化過(guò)程,主要難點(diǎn)不是局部最小值點(diǎn),而是鞍點(diǎn)
- 這是正確的。在深度學(xué)習(xí)中,很多優(yōu)化問(wèn)題是非凸的。在非凸優(yōu)化中,鞍點(diǎn)比局部極小值點(diǎn)更為常見(jiàn)且更具挑戰(zhàn)性,因?yàn)樘荻仍诎包c(diǎn)處可能為零,但這些點(diǎn)并不是我們希望找到的極小值。
C: 用無(wú)監(jiān)督數(shù)據(jù)作分層預(yù)訓(xùn)練(Layer-wise Pre-train)有助于解決梯度飽和問(wèn)題
- 這是正確的。分層預(yù)訓(xùn)練可以幫助模型在訓(xùn)練初期更好地初始化權(quán)重,以避免或減輕梯度消失或梯度爆炸問(wèn)題。這種預(yù)訓(xùn)練通過(guò)利用無(wú)監(jiān)督學(xué)習(xí)在每一層中學(xué)習(xí)到有用的特征表示,從而提升深層網(wǎng)絡(luò)的訓(xùn)練效果,讓反向傳播的梯度更容易進(jìn)行有效的權(quán)重調(diào)整。
D: Sigmoid交叉熵?fù)p失函數(shù)適合于多標(biāo)簽學(xué)習(xí),每一維彼此獨(dú)立
- 這是正確的。Sigmoid交叉熵?fù)p失函數(shù)通常用于多標(biāo)簽分類問(wèn)題。在這種情況下,每個(gè)標(biāo)簽的分類是獨(dú)立的,即每個(gè)類別都使用一個(gè)獨(dú)立的二元分類器,通過(guò)sigmoid輸出概率并計(jì)算交叉熵?fù)p失。
綜上所述,錯(cuò)誤的選項(xiàng)是:
- A.