數(shù)據(jù)清洗是指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識(shí)別的錯(cuò)誤的最后一道程序,包括檢查數(shù)據(jù)一致性,處理無(wú)效值和缺失值等
正確答案是:A: 異常值處理 和 B: 缺失值處理。
專業(yè)分析:
知識(shí)發(fā)掘處理(Knowledge Discovery Process)是一個(gè)多步驟的過(guò)程,通常包括數(shù)據(jù)收集、數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評(píng)估和知識(shí)表示等階段。數(shù)據(jù)清洗是其中一個(gè)關(guān)鍵步驟,主要目的是提高數(shù)據(jù)質(zhì)量,以便后續(xù)的數(shù)據(jù)分析和挖掘能夠更加準(zhǔn)確和可靠。
在數(shù)據(jù)清洗階段,主要涉及以下幾個(gè)方面:
A: 異常值處理:異常值(Outliers)是指數(shù)據(jù)中偏離正常范圍的值,這些值可能是由于數(shù)據(jù)錄入錯(cuò)誤、傳感器故障等原因產(chǎn)生的。在數(shù)據(jù)清洗階段,需要識(shí)別并處理這些異常值,以免它們對(duì)后續(xù)分析產(chǎn)生誤導(dǎo)。
B: 缺失值處理:缺失值(Missing Values)是指數(shù)據(jù)集中某些屬性的值缺失。缺失值可能會(huì)影響數(shù)據(jù)分析的結(jié)果,因此需要在數(shù)據(jù)清洗階段進(jìn)行處理,常見的方法有刪除缺失值、用平均值或中位數(shù)填補(bǔ)缺失值等。
C: 預(yù)測(cè)結(jié)果可視化輸出:這是數(shù)據(jù)挖掘或分析后的一個(gè)步驟,屬于模式評(píng)估或知識(shí)表示階段,不屬于數(shù)據(jù)清洗階段。
D: 理解業(yè)務(wù)背景:這是知識(shí)發(fā)掘過(guò)程的前期準(zhǔn)備工作,通常屬于數(shù)據(jù)收集或需求分析階段,不屬于數(shù)據(jù)清洗階段。
綜上所述,A: 異常值處理 和 B: 缺失值處理 是數(shù)據(jù)清洗階段的典型工作內(nèi)容。