如何基于TensorFlow實現(xiàn)CNN-RNN中文文本分類

如何基于TensorFlow實現(xiàn)CNN-RNN中文文本分類，很多新手對此不是很清楚，為了幫助大家解決這個難題，下面小編將為大家詳細講解，有這方面需求的人可以來學習下，希望你能有所收獲。

網(wǎng)站建設(shè)哪家好，找創(chuàng)新互聯(lián)建站！專注于網(wǎng)頁設(shè)計、網(wǎng)站建設(shè)、微信開發(fā)、微信小程序、集團企業(yè)網(wǎng)站建設(shè)等服務(wù)項目。為回饋新老客戶創(chuàng)新互聯(lián)還提供了門頭溝免費建站歡迎大家使用！

基于TensorFlow在中文數(shù)據(jù)集上的簡化實現(xiàn)，使用了字符級CNN和RNN對中文文本進行分類，達到了較好的效果。

使用THUCNews的一個子集進行訓練與測試，數(shù)據(jù)集請自行到THUCTC：一個高效的中文文本分類工具包

本次訓練使用了其中的10個分類，每個分類6500條數(shù)據(jù)。

類別如下：

體育, 財經(jīng), 房產(chǎn), 家居, 教育, 科技, 時尚, 時政, 游戲, 娛樂

數(shù)據(jù)集劃分如下：

訓練集: 5000*10
驗證集: 500*10
測試集: 1000*10

從原數(shù)據(jù)集生成子集的過程請參看helper下的兩個腳本。其中，copy_data.sh用于從每個分類拷貝6500個文件，cnews_group.py用于將多個文件整合到一個文件中。執(zhí)行該文件后，得到三個數(shù)據(jù)文件：

cnews.train.txt: 訓練集(50000條)
cnews.val.txt: 驗證集(5000條)
cnews.test.txt: 測試集(10000條)

預(yù)處理

data/cnews_loader.py為數(shù)據(jù)的預(yù)處理文件。

read_file(): 讀取文件數(shù)據(jù);
build_vocab(): 構(gòu)建詞匯表，使用字符級的表示，這一函數(shù)會將詞匯表存儲下來，避免每一次重復(fù)處理;
read_vocab(): 讀取上一步存儲的詞匯表，轉(zhuǎn)換為{詞：id}表示;
read_category(): 將分類目錄固定，轉(zhuǎn)換為{類別: id}表示;
to_words(): 將一條由id表示的數(shù)據(jù)重新轉(zhuǎn)換為文字;
process_file(): 將數(shù)據(jù)集從文字轉(zhuǎn)換為固定長度的id序列表示;
batch_iter(): 為神經(jīng)網(wǎng)絡(luò)的訓練準備經(jīng)過shuffle的批次的數(shù)據(jù)。

經(jīng)過數(shù)據(jù)預(yù)處理，數(shù)據(jù)的格式如下：

如何基于TensorFlow實現(xiàn)CNN-RNN中文文本分類

CNN模型

具體參看cnn_model.py的實現(xiàn)。

大致結(jié)構(gòu)如下：

如何基于TensorFlow實現(xiàn)CNN-RNN中文文本分類

訓練與驗證

運行 python run_cnn.py train，可以開始訓練。

如何基于TensorFlow實現(xiàn)CNN-RNN中文文本分類

在驗證集上的最佳效果為94.12%，且只經(jīng)過了3輪迭代就已經(jīng)停止。

準確率和誤差如圖所示：

如何基于TensorFlow實現(xiàn)CNN-RNN中文文本分類

測試

運行 python run_cnn.py test 在測試集上進行測試。

如何基于TensorFlow實現(xiàn)CNN-RNN中文文本分類

在測試集上的準確率達到了96.04%，且各類的precision, recall和f1-score都超過了0.9。

從混淆矩陣也可以看出分類效果非常優(yōu)秀。

RNN循環(huán)神經(jīng)網(wǎng)絡(luò)

配置項

RNN可配置的參數(shù)如下所示，在rnn_model.py中。

如何基于TensorFlow實現(xiàn)CNN-RNN中文文本分類

RNN模型

具體參看rnn_model.py的實現(xiàn)。

大致結(jié)構(gòu)如下：

如何基于TensorFlow實現(xiàn)CNN-RNN中文文本分類

訓練與驗證

這部分的代碼與 run_cnn.py極為相似，只需要將模型和部分目錄稍微修改。

運行 python run_rnn.py train，可以開始訓練。

若之前進行過訓練，請把tensorboard/textrnn刪除，避免TensorBoard多次訓練結(jié)果重疊。

如何基于TensorFlow實現(xiàn)CNN-RNN中文文本分類

在驗證集上的最佳效果為91.42%，經(jīng)過了8輪迭代停止，速度相比CNN慢很多。

準確率和誤差如圖所示：

如何基于TensorFlow實現(xiàn)CNN-RNN中文文本分類

測試

運行 python run_rnn.py test 在測試集上進行測試。

如何基于TensorFlow實現(xiàn)CNN-RNN中文文本分類

在測試集上的準確率達到了94.22%，且各類的precision, recall和f1-score，除了家居這一類別，都超過了0.9。

從混淆矩陣可以看出分類效果非常優(yōu)秀。

對比兩個模型，可見RNN除了在家居分類的表現(xiàn)不是很理想，其他幾個類別較CNN差別不大。

還可以通過進一步的調(diào)節(jié)參數(shù)，來達到更好的效果。

為方便預(yù)測，repo 中 predict.py 提供了 CNN 模型的預(yù)測方法。

看完上述內(nèi)容是否對您有幫助呢？如果還想對相關(guān)知識有進一步的了解或閱讀更多相關(guān)文章，請關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道，感謝您對創(chuàng)新互聯(lián)的支持。

本文名稱：如何基于TensorFlow實現(xiàn)CNN-RNN中文文本分類
鏈接URL：http://weahome.cn/article/jjpoop.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

如何基于TensorFlow實現(xiàn)CNN-RNN中文文本分類

預(yù)處理

CNN模型

訓練與驗證

測試

RNN循環(huán)神經(jīng)網(wǎng)絡(luò)

配置項

RNN模型

訓練與驗證

測試

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管