N-Gram的缺點是大多數(shù)擷取出來的詞是沒有語法及語意上意義, 噪聲過多,且無法與許多資源結(jié)合,會大大影響后續(xù)的分析。所以C錯誤。
關(guān)于N-Gram模型的說法,正確的選項是D: N-Gram的缺點是大多數(shù)擷取出來的詞是沒有語法及語意上意義。
### 分析:
A: **N-Gram的優(yōu)點是不需要進行中文分詞**
這個說法不完全正確。實際上,N-Gram模型在處理中文時,通常需要先進行分詞,因為中文文本沒有明顯的單詞邊界。分詞是預(yù)處理步驟之一,之后才會生成N-Gram。
B: **當N夠大時,所有正確的分詞均會出現(xiàn)于N-Gram中**
這個說法也不完全正確。雖然在理論上N足夠大時可以捕捉到更多的詞語組合,但在實際應(yīng)用中,N的增大也會導(dǎo)致數(shù)據(jù)稀疏問題,計算復(fù)雜度顯著增加,并且需要更多的訓(xùn)練數(shù)據(jù)來估計概率。因此,實際應(yīng)用中N通常不會設(shè)置得太大。
C: **噪聲少,可以與許多資源結(jié)合**
這個說法并不準確。N-Gram模型本身并沒有減少噪聲的機制,而且由于它僅僅依賴于固定長度的詞序列,容易受到數(shù)據(jù)稀疏和噪聲的影響。它也不能很好地結(jié)合其他資源來減少噪聲。
D: **N-Gram的缺點是大多數(shù)擷取出來的詞是沒有語法及語意上意義**
這是真實的。N-Gram模型的主要缺點之一就是它僅僅考慮固定長度的詞序列,而不考慮詞與詞之間的語法和語義關(guān)系。因此,很多生成的N-Gram并沒有實際意義,特別是在處理長距離依賴關(guān)系和復(fù)雜語法結(jié)構(gòu)時,N-Gram模型的表現(xiàn)較差。
綜上所述,正確答案是D。