色偷偷久久一区二区三区 ,天天干夜夜爽综合网

備考刷題，請到

CDA認證小程序

下面有關向量空間模型（VSM）的描述中，錯誤的是：

A. 以向量來表示文檔后，兩者的夾角余弦值越小說明相似度越高

B. 文本特征詞的向量權(quán)重可通過TF-IDF實現(xiàn)，從而保留文本詞序結(jié)構(gòu)信息

C. 在向量空間模型中，當有新文檔加入時，需要重新計算特征詞的權(quán)重

D. 基于向量的文本相似度計算中，除了內(nèi)積、Dice系數(shù)、夾角余弦，還可用Jaccard方法

上一題

下一題

點贊

評論

題目解析

題目評論(0)

在向量空間模型（VSM）中，對文檔和查詢的相似度進行計算時，可能存在一些誤解或錯誤的理解。以下是對各選項的分析：

A: 以向量來表示文檔后，兩者的夾角余弦值越小說明相似度越高
- **分析**：在向量空間模型中，夾角余弦值越大（接近1），說明兩個向量越接近，即相似度越高。夾角余弦值越?。ń咏?），說明兩個向量差異越大，相似度越低。因此，選項A是錯誤的。

B: 文本特征詞的向量權(quán)重可通過TF-IDF實現(xiàn)，從而保留文本詞序結(jié)構(gòu)信息
- **分析**：TF-IDF是一種用來衡量一個單詞在文檔集合中重要性的方法，但它不保留文本的詞序結(jié)構(gòu)信息。它只關注單詞的出現(xiàn)頻率及其在整個文檔集中的逆文檔頻率。因此，選項B是錯誤的。

C: 在向量空間模型中，當有新文檔加入時，需要重新計算特征詞的權(quán)重
- **分析**：加入新文檔可能會改變整個文檔集合中詞的分布，因此TF-IDF等權(quán)重可能需要重新計算以反映新的文檔集結(jié)構(gòu)。因此，選項C是正確的。

D: 基于向量的文本相似度計算中，除了內(nèi)積、Dice系數(shù)、夾角余弦，還可用Jaccard方法
- **分析**：Jaccard系數(shù)通常用于集合相似度計算，而在向量空間模型中，內(nèi)積、Dice系數(shù)和夾角余弦是常用的計算相似度的方法。Jaccard不常用于向量，而是用于集合，但理論上也可以應用于二元向量表示的特殊情況。所以，選項D可以視為正確的。

**正確答案**是：A和B。
B是直接錯誤的，因為TF-IDF不保留文本的詞序結(jié)構(gòu)。A錯誤地解釋了余弦相似度。

午夜精品久久久久久久99老熟妇,天堂中文www官网,未满十八18勿进黄网站,太粗太深了太紧太爽了,天天爽夜夜爽夜夜爽