text classification with RNN

2021-07-25 23:50:00

本教程的目的是帶領大家學會用 RNN 進行文本分類

本次用到的資料集是 IMDB，一共有 50000 條電影評論，其中 25000 條是訓練集，另外 25000 條是測試集

首先我們需要加載資料集，可以通過 TFDS 很簡單的把資料集下載下傳過來，如下代碼所示

dataset, info = tfds.load('imdb_reviews', with_info=True, as_supervised=True)

train_dataset, test_dataset = dataset['train'], dataset['test']

train_dataset.element_spec

接下來我們需要建立 text encoder，可以通過 tf.keras.layers.experimental.preprocessing.TextVectorization 實作，如下代碼所示

VOCAB_SIZE = 1000
encoder = tf.keras.layers.experimental.preprocessing.TextVectorization(
    max_tokens=VOCAB_SIZE
)
encoder.adapt(train_dataset.map(lambda text, label: text))

接下來我們需要搭模組化型，下圖是模型結構圖

對應的代碼如下所示

model = tf.keras.Sequential([
    encoder,
    tf.keras.layers.Embedding(
        input_dim=len(encoder.get_vocabulary()),
        output_dim=64,
        # Use masking to handle the variable sequence lengths
        mask_zero=True),
    tf.keras.layers.Bidirectional(tf.keras.layers.LSTM(64)),
    tf.keras.layers.Dense(64, activation='relu'),
    tf.keras.layers.Dense(1)
])

model.compile(loss=tf.keras.losses.BinaryCrossentropy(from_logits=True),
              optimizer=tf.keras.optimizers.Adam(1e-4),
              metrics=['accuracy'])

到這一步，我們就可以開始訓練了，以及訓練後進行模型評估

history = model.fit(train_dataset, epochs=10,
                    validation_data=test_dataset,
                    validation_steps=30)

test_loss, test_acc = model.evaluate(test_dataset)

print('Test Loss:', test_loss)
print('Test Accuracy:', test_acc)

上面是訓練的結果記錄圖

代碼位址:

https://codechina.csdn.net/csdn_codechina/enterprise_technology/-/blob/master/text_classification_rnn.ipynb

text classification with RNN

繼續閱讀

windows10 64bit + Anaconda + python3.5 安裝xgboost的一種簡單方法

資料挖掘-歸一化

Anaconda：Matpotlib工具安裝

anaconda安裝及使用小技巧anaconda使用小技巧

Anaconda環境配置

一、Python資料挖掘（環境篇——Anaconda與Jupyter Notebook）一、Python資料挖掘（環境篇——Anaconda與Jupyter Notebook）

Anaconda3安裝face_recognitionAnaconda3(python3.7.4)安裝face_recognition

資料挖掘中的隐私保護

資料挖掘研究内容和本質（轉）

資料挖掘分類技術

淺談資料挖掘評估技術

資料挖掘001

從大資料看技術，為什麼天貓雙11是史上最大數字經濟節日

用Matlab搞計算機視覺是怎樣的體驗？

K-近鄰算法以及圖像分類應用

在weka中內建自己的算法