C是英文處理時需要的步驟,題干是中文,所以答案中不包括C,最終選ABD
正確答案是:B: 分詞
專業(yè)分析:
在中文的自然語言處理(NLP)工作中,建立關(guān)鍵詞的程序通常包括以下幾個步驟:
1. **讀取文獻(xiàn)**:這是處理文本的初始步驟,讀取文獻(xiàn)是為了獲取文本數(shù)據(jù),但它本身并不涉及關(guān)鍵詞的建立。
2. **分詞**:中文文本處理中的一個關(guān)鍵步驟,因?yàn)橹形奈谋緵]有天然的詞間空格。分詞是將連續(xù)的漢字序列切分成一個個有意義的詞語。只有在分詞之后,才能進(jìn)一步分析和提取關(guān)鍵詞。因此,分詞是建立關(guān)鍵詞的基礎(chǔ)步驟之一。
3. **利用 Suffix String 將 Word 重整至最基本字型**:這通常不是中文NLP中的常見步驟,可能是指某些特定的語言處理任務(wù),如詞形還原(Lemmatization)或詞干提?。⊿temming),但在中文中應(yīng)用較少。
4. **計算每個Word的IDF**:IDF(逆文檔頻率)是用來衡量一個詞在整個語料庫中的重要性,它通常用于TF-IDF算法中來提取關(guān)鍵詞。然而,計算IDF是建立關(guān)鍵詞的后續(xù)步驟,需要在已經(jīng)完成分詞和詞頻統(tǒng)計的基礎(chǔ)上進(jìn)行。
綜上所述,分詞是建立關(guān)鍵詞的基礎(chǔ)步驟,因此正確答案是B。