這篇文章主要介紹了如何在pytorch中使用word2vec訓(xùn)練好的詞向量,具有一定借鑒價(jià)值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。
成都創(chuàng)新互聯(lián)公司服務(wù)緊隨時(shí)代發(fā)展步伐,進(jìn)行技術(shù)革新和技術(shù)進(jìn)步,經(jīng)過(guò)10年的發(fā)展和積累,已經(jīng)匯集了一批資深網(wǎng)站策劃師、設(shè)計(jì)師、專(zhuān)業(yè)的網(wǎng)站實(shí)施團(tuán)隊(duì)以及高素質(zhì)售后服務(wù)人員,并且完全形成了一套成熟的業(yè)務(wù)流程,能夠完全依照客戶(hù)要求對(duì)網(wǎng)站進(jìn)行成都網(wǎng)站制作、成都網(wǎng)站設(shè)計(jì)、外貿(mào)營(yíng)銷(xiāo)網(wǎng)站建設(shè)、建設(shè)、維護(hù)、更新和改版,實(shí)現(xiàn)客戶(hù)網(wǎng)站對(duì)外宣傳展示的首要目的,并為客戶(hù)企業(yè)品牌互聯(lián)網(wǎng)化提供全面的解決方案。示例
torch.nn.Embedding()
這個(gè)方法是在pytorch中將詞向量和詞對(duì)應(yīng)起來(lái)的一個(gè)方法. 一般情況下,如果我們直接使用下面的這種:
self.embedding = torch.nn.Embedding(num_embeddings=vocab_size, embedding_dim=embeding_dim) num_embeddings=vocab_size 表示詞匯量的大小 embedding_dim=embeding_dim 表示詞向量的維度
這種情況下, 因?yàn)闆](méi)有指定訓(xùn)練好的詞向量, 所以embedding會(huì)幫咱們生成一個(gè)隨機(jī)的詞向量(但是在我剛剛測(cè)試的一個(gè)情感二分類(lèi)問(wèn)題中, 我發(fā)現(xiàn)好像用不用預(yù)訓(xùn)練的詞向量, 結(jié)果差不多, 不過(guò)不排除是因?yàn)楫?dāng)時(shí)使用的模型比較簡(jiǎn)單, 導(dǎo)致一些特征根本就沒(méi)提取出來(lái)).
如果我想使用word2vec預(yù)訓(xùn)練好的詞向量該怎么做呢?
其實(shí)很簡(jiǎn)單,pytorch已經(jīng)給我們提供好了接口
self.embedding.weight.data.copy_(torch.from_numpy(embeding_vector)) self.embedding.weight.requires_grad = False
上面兩句代碼的意思, 第一句就是導(dǎo)入詞向量, 第二句表示的是在反向傳播的時(shí)候, 不要對(duì)這些詞向量進(jìn)行求導(dǎo)更新. 我還看到有人會(huì)在優(yōu)化器那里使用這樣的代碼:
# emotion_net是我定義的模型 optimizer = torch.optim.Adam(filter(lambda p: p.requires_grad, emotion_net.parameters()), lr=1e-3, betas=(0.9, 0.99))
大概意思也是為了保證詞向量不會(huì)被反向傳播而更新, 具體有沒(méi)有用我就不清楚了.
其實(shí)我感覺(jué)大家比較在意的其實(shí)應(yīng)該是embeding_vector的形式, 下面我就介紹一下embeding_vector的形式
為了講述方便, 這里定義出下面幾個(gè)矩陣
embeding_vector:表示詞向量,每行是一個(gè)詞的詞向量,有多少行就說(shuō)明有多少單詞
word_list:表示單詞列表,里面就是單詞
word_to_index:這個(gè)矩陣將word_list中的單詞和embeding_vector中的位置對(duì)應(yīng)起來(lái)
其實(shí)embeding_vector是一個(gè)numpy矩陣, 當(dāng)然你看到了, 實(shí)際輸入到pytorch的時(shí)候, 是需要轉(zhuǎn)換成tensor類(lèi)型的. 這個(gè)矩陣是什么樣子的呢? 其中這個(gè)矩陣是 [vocab_size×embeding_dim] [vocab\_size \times embeding\_dim][vocab_size×embeding_dim] 的形式. 其中一共包含vocab_size vocab\_sizevocab_size 個(gè)單詞, 每個(gè)單詞的維度是 embed_dim embed\_dimembed_dim, 我們把這樣一個(gè)矩陣輸入就行了.
之后, 我們要做的其實(shí)就是將 word_to_index word\_to\_indexword_to_index 這個(gè)矩陣搞出來(lái), 這里的單詞轉(zhuǎn)下標(biāo)的矩陣, 就是聯(lián)系 embeding_vector embeding\_vectorembeding_vector 和 word_list word\_listword_list 這兩個(gè)矩陣的中間者. 我們?cè)谳斎氲絫orch.nn.Embedding中之前, 需要先通過(guò) word_to_index word\_to\_indexword_to_index 將單詞轉(zhuǎn)換成 embeding_vector embeding\_vectorembeding_vector 的下標(biāo)就可以了.
感謝你能夠認(rèn)真閱讀完這篇文章,希望小編分享的“如何在pytorch中使用word2vec訓(xùn)練好的詞向量”這篇文章對(duì)大家有幫助,同時(shí)也希望大家多多支持創(chuàng)新互聯(lián)成都網(wǎng)站設(shè)計(jì)公司,關(guān)注創(chuàng)新互聯(lián)成都網(wǎng)站設(shè)計(jì)公司行業(yè)資訊頻道,更多相關(guān)知識(shí)等著你來(lái)學(xué)習(xí)!
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無(wú)理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、網(wǎng)站設(shè)計(jì)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性?xún)r(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專(zhuān)為企業(yè)上云打造定制,能夠滿(mǎn)足用戶(hù)豐富、多元化的應(yīng)用場(chǎng)景需求。