本題考察對K-Means算法的理解。K-Means算法對異常值敏感,通常需要刪除異常值或進行變量轉(zhuǎn)換處理,因此選項C表述錯誤,其余選項均正確,因此本題選C。
正確答案是:C: 對異常值不敏感
專業(yè)分析:
A: 該算法與樣本數(shù)量線性相關(guān),所以適合大數(shù)據(jù)集。
這個描述是正確的。K-Means算法的時間復(fù)雜度為O(n*k*i),其中n是樣本數(shù)量,k是簇的數(shù)量,i是迭代次數(shù)。由于時間復(fù)雜度與樣本數(shù)量線性相關(guān),因此在合理參數(shù)設(shè)置下,K-Means算法適用于大數(shù)據(jù)集。
B: 需要事先確定K值。
這個描述也是正確的。K-Means算法需要在開始時指定簇的數(shù)量K,這是算法的一個前提條件。
C: 對異常值不敏感。
這個描述是錯誤的。K-Means算法對異常值(outliers)比較敏感,因為異常值可能會顯著影響簇中心(centroids)的計算,導(dǎo)致簇的分配不準確。
D: 算法效率較高,伸縮性較好。
這個描述是正確的。K-Means算法相對簡單,計算效率較高,并且能夠較好地擴展到大數(shù)據(jù)集。
綜上所述,描述錯誤的是C選項,即“對異常值不敏感”。