午夜精品久久久久久久99老熟妇,天堂中文www官网,未满十八18勿进黄网站,太粗太深了太紧太爽了,天天爽夜夜爽夜夜爽

考試報(bào)名
考試報(bào)名
考試內(nèi)容
考試大綱
在線客服
返回頂部

備考刷題,請(qǐng)到

CDA認(rèn)證小程序

在進(jìn)行數(shù)據(jù)分析時(shí),經(jīng)常要分割訓(xùn)練集、測(cè)試集,并且還要考慮數(shù)據(jù)預(yù)處理、特征抽取、特征工程等,那么要仔細(xì)分析這些步驟之間的相互聯(lián)系。關(guān)于訓(xùn)練集、測(cè)試集、數(shù)據(jù)預(yù)處理、特征工程,請(qǐng)回答以下問(wèn)題關(guān)于缺失值填充與訓(xùn)練集、測(cè)試集的關(guān)系,下面正確的操作是()
A. 先用全數(shù)據(jù)的均值填充缺失值,然后隨機(jī)分割訓(xùn)練集、測(cè)試集
B. 先隨機(jī)分割訓(xùn)練集、測(cè)試集,然后用各自集合的均值填充缺失值
C. 先隨機(jī)分割訓(xùn)練集、測(cè)試集,然后用訓(xùn)練集的均值填充缺失值
D. 先隨機(jī)分割訓(xùn)練集、測(cè)試集,然后用測(cè)試集的均值填充缺失值
上一題
下一題
收藏
點(diǎn)贊
評(píng)論
題目解析
題目評(píng)論(0)

統(tǒng)計(jì)量一定要使用訓(xùn)練集中的統(tǒng)計(jì)量來(lái)操作

在數(shù)據(jù)分析過(guò)程中,處理缺失值是非常重要的步驟,特別是在分割訓(xùn)練集和測(cè)試集時(shí),需要格外注意。以下是對(duì)選項(xiàng)的分析:

- **A: 先用全數(shù)據(jù)的均值填充缺失值,然后隨機(jī)分割訓(xùn)練集、測(cè)試集**
- 這種方法可能導(dǎo)致信息泄露。測(cè)試集的信息被用于填充缺失值,這可能引入偏差,從而影響模型對(duì)新數(shù)據(jù)的泛化能力。

- **B: 先隨機(jī)分割訓(xùn)練集、測(cè)試集,然后用各自集合的均值填充缺失值**
- 在每個(gè)數(shù)據(jù)集中分別計(jì)算并填充缺失值,雖然避免了信息泄露,但這種方法可能導(dǎo)致訓(xùn)練集和測(cè)試集之間存在偏差,可能影響模型在測(cè)試集上的表現(xiàn)。

- **C: 先隨機(jī)分割訓(xùn)練集、測(cè)試集,然后用訓(xùn)練集的均值填充缺失值**
- 這是一個(gè)常見(jiàn)且妥當(dāng)?shù)淖龇?。使用?xùn)練集的統(tǒng)計(jì)信息(如均值)來(lái)填充缺失值,避免了測(cè)試集信息泄露,同時(shí)使得模型在訓(xùn)練和測(cè)試期間保持一致性。這種方法有助于確保模型的泛化能力。

- **D: 先隨機(jī)分割訓(xùn)練集、測(cè)試集,然后用測(cè)試集的均值填充缺失值**
- 這種方法是錯(cuò)誤的,因?yàn)樗鼤?huì)導(dǎo)致信息泄露:使用測(cè)試集信息填充訓(xùn)練集的缺失值會(huì)導(dǎo)致模型在測(cè)試結(jié)果上表現(xiàn)得過(guò)于樂(lè)觀,而不具備實(shí)際的泛化能力。

**正確答案是 C: 先隨機(jī)分割訓(xùn)練集、測(cè)試集,然后用訓(xùn)練集的均值填充缺失值。**

專業(yè)分析:
- 使用訓(xùn)練集的統(tǒng)計(jì)信息(如均值、方差等)來(lái)填充缺失數(shù)據(jù),確保模型在訓(xùn)練和測(cè)試之間的一致性。
- 避免使用測(cè)試集的信息進(jìn)行任何形式的數(shù)據(jù)處理,以確保測(cè)試結(jié)果的準(zhǔn)確性和可推廣性。
- 此方法尊重了機(jī)器學(xué)習(xí)的基本原則,確保算法在未知數(shù)據(jù)上具有良好的預(yù)測(cè)能力。