一般來說當(dāng)缺失值少于20%時,連續(xù)變量可以使用均值或中位數(shù)填補(bǔ);分類變量不需要填補(bǔ),單算一類即可,或者也可以用眾數(shù)填補(bǔ)分類變量。當(dāng)缺失值處于20%-80%之間時,填補(bǔ)方法同上,同時每個有缺失值的變量可以生成一個指示啞變量,參與后續(xù)的建模。當(dāng)缺失值多于80%時,每個有缺失值的變量生成一個指示啞變量,參與后續(xù)的建模,原始變量不再被使用。
正確答案是:A
分析如下:
A: 一般來說當(dāng)缺失值少于20%時,連續(xù)變量必須使用均值或中位數(shù)填補(bǔ)。這種說法并不完全正確。雖然均值和中位數(shù)是常用的填補(bǔ)方法,但并不是“必須”使用的。根據(jù)具體情況,還可以使用其他方法如插值法、回歸法等。
B: 分類變量不需要填補(bǔ),單算一類即可,或者也可以用眾數(shù)填補(bǔ)分類變量。這種說法是合理的。分類變量的缺失值可以作為一個單獨的類別處理,也可以用眾數(shù)填補(bǔ)。
C: 當(dāng)缺失值處于20%-80%之間時,填補(bǔ)方法同上,同時每個有缺失值的變量可以生成一個指示啞變量,參與后續(xù)的建模。這種說法是合理的。生成指示啞變量可以幫助模型識別缺失值的模式,對模型的性能可能有所幫助。
D: 當(dāng)缺失值多于80%時,每個有缺失值的變量生成一個指示啞變量,參與后續(xù)的建模,原始變量不再被使用。這種說法是合理的。當(dāng)缺失值過多時,原始變量的信息可能已經(jīng)不再可靠,生成啞變量可以更好地處理這種情況。
綜上所述,選項A的說法是不完全正確的,因此是錯誤的選項。