午夜精品久久久久久久99老熟妇,天堂中文www官网,未满十八18勿进黄网站,太粗太深了太紧太爽了,天天爽夜夜爽夜夜爽

考試報名
考試報名
考試內(nèi)容
考試大綱
在線客服
返回頂部

備考刷題,請到

CDA認證小程序

下面有關向量空間模型(VSM)的描述中,錯誤的是:
A. 以向量來表示文檔后,兩者的夾角余弦值越小說明相似度越高
B. 文本特征詞的向量權(quán)重可通過TF-IDF實現(xiàn),從而保留文本詞序結(jié)構(gòu)信息
C. 在向量空間模型中,當有新文檔加入時,需要重新計算特征詞的權(quán)重
D. 基于向量的文本相似度計算中,除了內(nèi)積、Dice系數(shù)、夾角余弦,還可用Jaccard方法
上一題
下一題
收藏
點贊
評論
題目解析
題目評論(0)

在向量空間模型(VSM)中,對文檔和查詢的相似度進行計算時,可能存在一些誤解或錯誤的理解。以下是對各選項的分析:

A: 以向量來表示文檔后,兩者的夾角余弦值越小說明相似度越高
- **分析**:在向量空間模型中,夾角余弦值越大(接近1),說明兩個向量越接近,即相似度越高。夾角余弦值越?。ń咏?),說明兩個向量差異越大,相似度越低。因此,選項A是錯誤的。

B: 文本特征詞的向量權(quán)重可通過TF-IDF實現(xiàn),從而保留文本詞序結(jié)構(gòu)信息
- **分析**:TF-IDF是一種用來衡量一個單詞在文檔集合中重要性的方法,但它不保留文本的詞序結(jié)構(gòu)信息。它只關注單詞的出現(xiàn)頻率及其在整個文檔集中的逆文檔頻率。因此,選項B是錯誤的。

C: 在向量空間模型中,當有新文檔加入時,需要重新計算特征詞的權(quán)重
- **分析**:加入新文檔可能會改變整個文檔集合中詞的分布,因此TF-IDF等權(quán)重可能需要重新計算以反映新的文檔集結(jié)構(gòu)。因此,選項C是正確的。

D: 基于向量的文本相似度計算中,除了內(nèi)積、Dice系數(shù)、夾角余弦,還可用Jaccard方法
- **分析**:Jaccard系數(shù)通常用于集合相似度計算,而在向量空間模型中,內(nèi)積、Dice系數(shù)和夾角余弦是常用的計算相似度的方法。Jaccard不常用于向量,而是用于集合,但理論上也可以應用于二元向量表示的特殊情況。所以,選項D可以視為正確的。

**正確答案**是:A和B。
B是直接錯誤的,因為TF-IDF不保留文本的詞序結(jié)構(gòu)。A錯誤地解釋了余弦相似度。