午夜精品久久久久久久99老熟妇,天堂中文www官网,未满十八18勿进黄网站,太粗太深了太紧太爽了,天天爽夜夜爽夜夜爽

考試報名
考試報名
考試內(nèi)容
考試大綱
在線客服
返回頂部

備考刷題,請到

CDA認證小程序

在進行數(shù)據(jù)分析時,經(jīng)常要分割訓練集、測試集,并且還要考慮數(shù)據(jù)預處理、特征抽取、特征工程等,那么要仔細分析這些步驟之間的相互聯(lián)系。關(guān)于訓練集、測試集、數(shù)據(jù)預處理、特征工程,請回答以下問題:(4)能檢測異常值的方法有?
A. 箱線圖
B. 散點圖
C. 條形圖
D. 3sigma法則
上一題
下一題
收藏
點贊
評論
題目解析
題目評論(0)

異常值也叫離群值。箱線圖可以看單變量的異常值,一般默認3倍標準差之外的 值為異常值。 在線性回歸分析中,當某個樣本數(shù)據(jù)離群太遠時,擬合的回歸線會受到這個數(shù)據(jù)的強烈干 擾,從而改變回歸線的位置。在簡單線性回歸中,因為是雙變量,可以使用散點圖查看。但 是在多元回歸中,自變量較多,散點圖就無法使用了,此時,可以學生化殘差,即對殘差進 行z-score標準化。經(jīng)驗顯示,當樣本量為幾百個時,學生化殘差指標大于2就為離群值;當 樣本量為上千個時,學生化殘差指標大于3就為離群值。

答案是:A: 箱線圖 和 D: 3sigma法則。

分析如下:

1. **箱線圖 (Box Plot)**:
- **作用**:箱線圖是一種統(tǒng)計圖表,用于顯示數(shù)據(jù)集的分布情況。它能夠直觀地展示數(shù)據(jù)的中位數(shù)、四分位數(shù)、最小值、最大值和異常值(離群點)。
- **檢測異常值**:在箱線圖中,通常通過繪制數(shù)據(jù)的四分位范圍(IQR)來識別異常值。位于上四分位數(shù)(Q3)加上1.5倍IQR或下四分位數(shù)(Q1)減去1.5倍IQR之外的數(shù)據(jù)點被認為是異常值。

2. **3sigma法則**:
- **作用**:3sigma法則基于正態(tài)分布的統(tǒng)計特性,用于識別數(shù)據(jù)中的異常值。
- **檢測異常值**:在正態(tài)分布中,99.7%的數(shù)據(jù)點將落在均值(μ)加減3個標準差(σ)范圍內(nèi)。因此,超出這個范圍的數(shù)據(jù)點可以被視為異常值。

3. **散點圖 (Scatter Plot)**:
- **作用**:散點圖用于展示兩個變量之間的關(guān)系。雖然可以通過散點圖直觀地觀察是否存在異常值,但它并不是專門用于檢測異常值的方法。

4. **條形圖 (Bar Chart)**:
- **作用**:條形圖主要用于展示分類數(shù)據(jù)的頻數(shù)分布。它不適合用于檢測異常值。

綜上所述,箱線圖和3sigma法則是常用的檢測異常值的方法,而散點圖和條形圖在異常值檢測方面并不常用。