正確答案是:C: LSTM中使用Sigmoid函數(shù)實(shí)現(xiàn)門限控制,而用Tanh函數(shù)實(shí)現(xiàn)數(shù)據(jù)處理,兩者目的不同。
分析:
A: Sigmoid激活函數(shù)確實(shí)容易在權(quán)重初始化較大或較小時出現(xiàn)梯度消失問題,但Tanh函數(shù)雖然在一定程度上緩解了這個問題(因?yàn)樗妮敵鼍凳?),但并不能從根本上解決梯度消失問題。更常用的解決方案包括使用ReLU激活函數(shù)或其變體。
B: 批規(guī)范化(Batch Normalization)確實(shí)是為了讓每一層的輸入保持相對穩(wěn)定的分布,但它是通過引入額外的參數(shù)(縮放和平移參數(shù))來實(shí)現(xiàn)的,而不是在不引入新參數(shù)的情況下。
C: 在LSTM中,Sigmoid函數(shù)用于門控機(jī)制(如輸入門、遺忘門、輸出門)來控制信息的流動,而Tanh函數(shù)用于對細(xì)胞狀態(tài)進(jìn)行更新和輸出處理。兩者的目的確實(shí)不同。
D: 梯度下降法是一階優(yōu)化算法,利用目標(biāo)函數(shù)的一階導(dǎo)數(shù)信息進(jìn)行優(yōu)化,常見的版本如SGD(隨機(jī)梯度下降)并不能快速達(dá)到目標(biāo)值。二階優(yōu)化方法,如牛頓法,才利用了二階導(dǎo)數(shù)信息(如Hessian矩陣)來實(shí)現(xiàn)更快的收斂,但它們通常計(jì)算復(fù)雜度較高。梯度下降法本身不屬于二階收斂方法。