正確答案是 **A**: 數(shù)據(jù)需要包含盡可能多的信息,可以不跟學(xué)習(xí)任務(wù)有。
**分析**:
在機(jī)器學(xué)習(xí)中,數(shù)據(jù)的質(zhì)量和相關(guān)性至關(guān)重要。以下是對(duì)各個(gè)選項(xiàng)的詳細(xì)分析:
- **A: 數(shù)據(jù)需要包含盡可能多的信息,可以不跟學(xué)習(xí)任務(wù)有。**
- **不正確**。數(shù)據(jù)應(yīng)該與學(xué)習(xí)任務(wù)密切相關(guān),包含有助于模型學(xué)習(xí)目標(biāo)任務(wù)的信息。無關(guān)或噪聲的數(shù)據(jù)可能會(huì)導(dǎo)致模型的性能下降或者學(xué)習(xí)到錯(cuò)誤的模式。
- **B: 對(duì)于監(jiān)督學(xué)習(xí)中的分類問題,數(shù)據(jù)偏斜不能過于嚴(yán)重,不同類別的數(shù)據(jù)數(shù)量不要有數(shù)個(gè)數(shù)量級(jí)的差距。**
- **正確**。數(shù)據(jù)偏斜過于嚴(yán)重會(huì)導(dǎo)致模型過擬合某些類別,忽視其他類別,影響分類器的泛化能力。因此,不同類別的樣本數(shù)量應(yīng)該相對(duì)均衡。
- **C: 建模前需要評(píng)估數(shù)據(jù)樣本的量級(jí),估算模型學(xué)習(xí)對(duì)內(nèi)存的消耗。**
- **正確**。在建模之前,了解數(shù)據(jù)的規(guī)模和模型的內(nèi)存消耗是十分必要的,這影響到模型能否在給定的硬件條件下訓(xùn)練和運(yùn)行。
- **D: 如果數(shù)據(jù)量太大可以考慮減少訓(xùn)練樣本、降維或者使用分布式機(jī)器學(xué)習(xí)系統(tǒng)。**
- **正確**。在處理大規(guī)模數(shù)據(jù)時(shí),減少訓(xùn)練樣本、降維(特征選擇、主成分分析等)或采用分布式系統(tǒng)(如Hadoop,Spark)等方法都是常見的應(yīng)對(duì)策略,可以有效緩解計(jì)算資源的壓力。
綜上所述,選項(xiàng)A不符合機(jī)器學(xué)習(xí)對(duì)數(shù)據(jù)的基本要求,因此是不正確的。