幾種文本特征向量化方法:詞集模型:One-Hot編碼向量化文本(統(tǒng)計(jì)各詞在文本中是否出現(xiàn))詞袋模型:CountVectorizer文本向量化(考慮了詞頻)詞袋模型+IDF:基于TF-IDF方法向量化文本(考慮了詞的重要性,但是會(huì)出現(xiàn)詞表膨脹的問(wèn)題)詞嵌入模型:將各詞映射為實(shí)數(shù)域上的向量,詞向量之間的幾何關(guān)系表示詞之間的語(yǔ)義關(guān)系。以Word2Vec為典型代表。Word2Vec和GloVe模型是詞嵌入模型的兩個(gè)流行方法。
正確答案是:A: 基于全局詞頻統(tǒng)計(jì)的詞表征算法。
### 分析:
- **A: 基于全局詞頻統(tǒng)計(jì)的詞表征算法**
- 這是正確的。GloVe(Global Vectors for Word Representation)模型是基于全局詞頻統(tǒng)計(jì)的詞表征算法。它通過(guò)統(tǒng)計(jì)詞在整個(gè)語(yǔ)料庫(kù)中共現(xiàn)的頻率,構(gòu)建一個(gè)共現(xiàn)矩陣,然后進(jìn)行矩陣分解來(lái)得到詞向量。
- **B: 基于"文檔-詞"矩陣分解**
- 這是錯(cuò)誤的。GloVe模型并不是直接基于“文檔-詞”矩陣分解,而是基于詞共現(xiàn)矩陣來(lái)進(jìn)行分解的。它的核心思想是利用全局共現(xiàn)信息來(lái)構(gòu)建詞向量。
- **C: 屬于神經(jīng)網(wǎng)絡(luò)模型**
- 這是錯(cuò)誤的。GloVe模型并不是一個(gè)神經(jīng)網(wǎng)絡(luò)模型。它是通過(guò)矩陣分解技術(shù)來(lái)生成詞向量,而不是通過(guò)訓(xùn)練神經(jīng)網(wǎng)絡(luò)來(lái)完成的。
- **D: 基于詞預(yù)測(cè)的詞嵌入模型**
- 這是錯(cuò)誤的?;谠~預(yù)測(cè)的詞嵌入模型通常指的是像Word2Vec中的Skip-gram和CBOW模型。GloVe模型不是基于詞預(yù)測(cè)的,而是基于統(tǒng)計(jì)共現(xiàn)信息來(lái)生成詞向量的。
綜上所述,GloVe模型的核心是基于全局詞頻統(tǒng)計(jì)來(lái)構(gòu)建詞向量,因此選項(xiàng)A是正確的。