今天就跟大家聊聊有關(guān)怎樣使用tensorflow和Keras,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結(jié)了以下內(nèi)容,希望大家根據(jù)這篇文章可以有所收獲。
10年積累的成都網(wǎng)站設(shè)計、成都網(wǎng)站建設(shè)、外貿(mào)網(wǎng)站建設(shè)經(jīng)驗,可以快速應(yīng)對客戶對網(wǎng)站的新想法和需求。提供各種問題對應(yīng)的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡(luò)服務(wù)。我雖然不認識你,你也不認識我。但先網(wǎng)站設(shè)計后付款的網(wǎng)站建設(shè)流程,更有鎮(zhèn)平免費網(wǎng)站建設(shè)讓你可以放心的選擇與我們合作。
人工神經(jīng)網(wǎng)絡(luò)(ANNs)是機器學(xué)習(xí)技術(shù)的高級版本,是深度學(xué)習(xí)的核心。人工神經(jīng)網(wǎng)絡(luò)涉及以下概念。輸入輸出層、隱藏層、隱藏層下的神經(jīng)元、正向傳播和反向傳播。
簡單地說,輸入層是一組自變量,輸出層代表最終的輸出(因變量),隱藏層由神經(jīng)元組成,在那里應(yīng)用方程和激活函數(shù)。前向傳播討論方程的具體形式以獲得最終輸出,而反向傳播則計算梯度下降以相應(yīng)地更新參數(shù)。
當一個ANN包含一個很深的隱藏層時,它被稱為深度神經(jīng)網(wǎng)絡(luò)(DNN)。DNN具有多個權(quán)重和偏差項,每一個都需要訓(xùn)練。反向傳播可以確定如何調(diào)整所有神經(jīng)元的每個權(quán)重和每個偏差項,以減少誤差。除非網(wǎng)絡(luò)收斂到最小誤差,否則該過程將重復(fù)。
算法步驟如下:
得到訓(xùn)練和測試數(shù)據(jù)以訓(xùn)練和驗證模型的輸出。所有涉及相關(guān)性、離群值處理的統(tǒng)計假設(shè)仍然有效,必須加以處理。
輸入層由自變量及其各自的值組成。訓(xùn)練集分為多個batch。訓(xùn)練集完整的訓(xùn)練完稱為一個epoch。epoch越多,訓(xùn)練時間越長
每個batch被傳遞到輸入層,輸入層將其發(fā)送到第一個隱藏層。計算該層中所有神經(jīng)元的輸出(對于每一個小批量)。結(jié)果被傳遞到下一層,這個過程重復(fù),直到我們得到最后一層的輸出,即輸出層。這是前向傳播:就像做預(yù)測一樣,除了所有中間結(jié)果都會被保留,因為它們是反向傳播所需要的
然后使用損失函數(shù)測量網(wǎng)絡(luò)的輸出誤差,該函數(shù)將期望輸出與網(wǎng)絡(luò)的實際輸出進行比較
計算了每個參數(shù)對誤差項的貢獻
該算法根據(jù)學(xué)習(xí)速率(反向傳播)執(zhí)行梯度下降來調(diào)整權(quán)重和參數(shù),并且該過程會重復(fù)進行
重要的是隨機初始化所有隱藏層的權(quán)重,否則訓(xùn)練將失敗。
例如,如果將所有權(quán)重和偏移初始化為零,則給定層中的所有神經(jīng)元將完全相同,因此反向傳播將以完全相同的方式影響它們,因此它們將保持相同。換句話說,盡管每層有數(shù)百個神經(jīng)元,但你的模型將表現(xiàn)得好像每層只有一個神經(jīng)元:它不會太聰明。相反,如果你隨機初始化權(quán)重,你就打破了對稱性,允許反向傳播來訓(xùn)練不同的神經(jīng)元
激活函數(shù)是梯度下降的關(guān)鍵。梯度下降不能在平面上移動,因此有一個定義良好的非零導(dǎo)數(shù)是很重要的,以使梯度下降在每一步都取得進展。Sigmoid通常用于logistic回歸問題,但是,也有其他流行的選擇。
這個函數(shù)是S形的,連續(xù)的,輸出范圍在-1到+1之間。在訓(xùn)練開始時,每一層的輸出或多或少都以0為中心,因此有助于更快地收斂。
對于小于0的輸入,它是不可微的。對于其他情況,它產(chǎn)生良好的輸出,更重要的是具有更快的計算速度。函數(shù)沒有最大輸出,因此在梯度下降過程中可能出現(xiàn)的一些問題得到了很好的處理。
假設(shè)f(x)=2x+5和g(x)=3x-1。兩個輸入項的權(quán)重是不同的。在鏈接這些函數(shù)時,我們得到的是,f(g(x))=2(3x-1)+5=6x+3,這又是一個線性方程。非線性的缺失表現(xiàn)為深層神經(jīng)網(wǎng)絡(luò)中等價于一個線性方程。這種情況下的復(fù)雜問題空間無法處理。
在處理回歸問題時,我們不需要為輸出層使用任何激活函數(shù)。在訓(xùn)練回歸問題時使用的損失函數(shù)是均方誤差。然而,訓(xùn)練集中的異常值可以用平均絕對誤差來處理。Huber損失也是基于回歸的任務(wù)中廣泛使用的誤差函數(shù)。
當誤差小于閾值t(大多為1)時,Huber損失是二次的,但當誤差大于t時,Huber損失是線性的。與均方誤差相比,線性部分使其對異常值不太敏感,并且二次部分比平均絕對誤差更快地收斂和更精確的數(shù)字。
分類問題通常使用二分類交叉熵、多分類交叉熵或稀疏分類交叉熵。二分類交叉熵用于二分類,而多分類或稀疏分類交叉熵用于多類分類問題。你可以在下面的鏈接中找到有關(guān)損失函數(shù)的更多詳細信息。
注:分類交叉熵用于因變量的one-hot表示,當標簽作為整數(shù)提供時,使用稀疏分類交叉熵。
https://keras.io/api/losses/
我們將使用Kaggle的信用數(shù)據(jù)開發(fā)一個使用Jupyter Notebook的欺詐檢測模型。同樣的方法也可以在google colab中實現(xiàn)。
數(shù)據(jù)集包含2013年9月歐洲持卡人通過信用卡進行的交易。此數(shù)據(jù)集顯示兩天內(nèi)發(fā)生的交易,其中284807筆交易中有492宗欺詐。數(shù)據(jù)集高度不平衡,正類(欺詐)占所有交易的0.172%。
https://www.kaggle.com/mlg-ulb/creditcardfraud
import tensorflow as tf print(tf.__version__) import pandas as pd import numpy as np from sklearn.model_selection import train_test_split import tensorflow as tf from sklearn import preprocessing from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Dense, Dropout, BatchNormalization from sklearn.metrics import accuracy_score, confusion_matrix, precision_score, recall_score, f1_score, precision_recall_curve, auc import matplotlib.pyplot as plt from tensorflow.keras import optimizers import seaborn as sns from tensorflow import keras import random as rn import os os.environ["CUDA_VISIBLE_DEVICES"] = "3" PYTHONHASHSEED=0 tf.random.set_seed(1234) np.random.seed(1234) rn.seed(1254)
數(shù)據(jù)集由以下屬性組成。時間、主要成分、金額和類別。更多信息請訪問Kaggle網(wǎng)站。
file = tf.keras.utils raw_df = pd.read_csv(‘https://storage.googleapis.com/download.tensorflow.org/data/creditcard.csv') raw_df.head()
由于大多數(shù)屬性都是主成分,所以相關(guān)性總是0。唯一可能出現(xiàn)異常值的列是amount。下面簡要介紹一下這方面的統(tǒng)計數(shù)據(jù)。
count 284807.00 mean 88.35 std 250.12 min 0.00 25% 5.60 50% 22.00 75% 77.16 max 25691.16 Name: Amount, dtype: float64
異常值對于檢測欺詐行為至關(guān)重要,因為基本假設(shè)是,較高的交易量可能是欺詐活動的跡象。然而,箱線圖并沒有揭示任何具體的趨勢來驗證上述假設(shè)。
X_data = credit_data.iloc[:, :-1] y_data = credit_data.iloc[:, -1] X_train, X_test, y_train, y_test = train_test_split(X_data, y_data, test_size = 0.2, random_state = 7) X_train = preprocessing.normalize(X_train)
數(shù)量和主成分分析變量使用不同的尺度,因此數(shù)據(jù)集是標準化的。標準化在梯度下降中起著重要作用。標準化數(shù)據(jù)的收斂速度要快得多。
print(X_train.shape) print(X_test.shape) print(y_train.shape) print(y_test.shape)
輸出:
(227845, 29) #記錄數(shù)x列數(shù) (56962, 29) (227845,) (56962,)
上面的輸出表明我們有29個自變量要處理,因此輸入層的形狀是29。任何人工神經(jīng)網(wǎng)絡(luò)架構(gòu)的一般結(jié)構(gòu)概述如下。
+----------------------------+----------------------------+ | Hyper Parameter | Binary Classification | +----------------------------+----------------------------+ | # input neurons | One per input feature | | # hidden layers | Typically 1 to 5 | | # neurons per hidden layer | Typically 10 to 100 | | # output neurons | 1 per prediction dimension | | Hidden activation | ReLU, Tanh, sigmoid | | Output layer activation | Sigmoid | | Loss function | Binary Cross Entropy | +----------------------------+----------------------------+ +-----------------------------------+----------------------------+ | Hyper Parameter | Multiclass Classification | +-----------------------------------+----------------------------+ | # input neurons | One per input feature | | # hidden layers | Typically 1 to 5 | | # neurons per hidden layer | Typically 10 to 100 | | # output neurons | 1 per prediction dimension | | Hidden activation | ReLU, Tanh, sigmoid | | Output layer activation | Softmax | | Loss function | "Categorical Cross Entropy | | Sparse Categorical Cross Entropy" | | +-----------------------------------+----------------------------+
units — 輸出尺寸
activation — 激活函數(shù),如果未指定,則不使用任何內(nèi)容
use_bias — 布爾值,如果使用偏置項
kernel_initializer — 核權(quán)重的初始值設(shè)定項
bias_initializer —偏置向量的初始值設(shè)定項。
model = Sequential(layers=None, name=None) model.add(Dense(10, input_shape = (29,), activation = 'tanh')) model.add(Dense(5, activation = 'tanh')) model.add(Dense(1, activation = 'sigmoid')) sgd = optimizers.Adam(lr = 0.001) model.compile(optimizer = sgd, loss = 'binary_crossentropy', metrics=['accuracy'])
model.summary() Model: "sequential" _________________________________________________________________ Layer (type) Output Shape Param # ================================================================= dense (Dense) (None, 10) 300 _________________________________________________________________ dense_1 (Dense) (None, 5) 55 _________________________________________________________________ dense_2 (Dense) (None, 1) 6 ================================================================= Total params: 361 Trainable params: 361 Non-trainable params: 0 _________________________________________________________________
我們創(chuàng)建了一個具有一個輸入、兩個隱藏和一個輸出層的神經(jīng)網(wǎng)絡(luò)
輸入層有29個變量和10個神經(jīng)元。所以權(quán)重矩陣的形狀是10 x 29,而偏置矩陣的形狀是10 x 1
第1層參數(shù)總數(shù)=10 x 29+10 x 1=300
第一層有10個輸出值,使用tanh作為激活函數(shù)。第二層有5個神經(jīng)元和10個輸入,因此權(quán)重矩陣為5×10,偏置矩陣為5×1
第2層總參數(shù)=5 x 10+5 x 1=55
最后,輸出層有一個神經(jīng)元,但是它有5個不同于隱藏層2的輸入,并且有一個偏置項,因此神經(jīng)元的數(shù)量=5+1=6
model.fit(X_train, y_train.values, batch_size = 2000, epochs = 20, verbose = 1) Epoch 1/20 114/114 [==============================] - 0s 2ms/step - loss: 0.3434 - accuracy: 0.9847 Epoch 2/20 114/114 [==============================] - 0s 2ms/step - loss: 0.1029 - accuracy: 0.9981 Epoch 3/20 114/114 [==============================] - 0s 2ms/step - loss: 0.0518 - accuracy: 0.9983 Epoch 4/20 114/114 [==============================] - 0s 2ms/step - loss: 0.0341 - accuracy: 0.9986 Epoch 5/20 114/114 [==============================] - 0s 2ms/step - loss: 0.0255 - accuracy: 0.9987 Epoch 6/20 114/114 [==============================] - 0s 1ms/step - loss: 0.0206 - accuracy: 0.9988 Epoch 7/20 114/114 [==============================] - 0s 1ms/step - loss: 0.0174 - accuracy: 0.9988 Epoch 8/20 114/114 [==============================] - 0s 1ms/step - loss: 0.0152 - accuracy: 0.9988 Epoch 9/20 114/114 [==============================] - 0s 1ms/step - loss: 0.0137 - accuracy: 0.9989 Epoch 10/20 114/114 [==============================] - 0s 1ms/step - loss: 0.0125 - accuracy: 0.9989 Epoch 11/20 114/114 [==============================] - 0s 2ms/step - loss: 0.0117 - accuracy: 0.9989 Epoch 12/20 114/114 [==============================] - 0s 2ms/step - loss: 0.0110 - accuracy: 0.9989 Epoch 13/20 114/114 [==============================] - 0s 1ms/step - loss: 0.0104 - accuracy: 0.9989 Epoch 14/20 114/114 [==============================] - 0s 1ms/step - loss: 0.0099 - accuracy: 0.9989 Epoch 15/20 114/114 [==============================] - 0s 1ms/step - loss: 0.0095 - accuracy: 0.9989 Epoch 16/20 114/114 [==============================] - 0s 1ms/step - loss: 0.0092 - accuracy: 0.9989 Epoch 17/20 114/114 [==============================] - 0s 1ms/step - loss: 0.0089 - accuracy: 0.9989 Epoch 18/20 114/114 [==============================] - 0s 1ms/step - loss: 0.0087 - accuracy: 0.9989 Epoch 19/20 114/114 [==============================] - 0s 1ms/step - loss: 0.0084 - accuracy: 0.9989 Epoch 20/20 114/114 [==============================] - 0s 1ms/step - loss: 0.0082 - accuracy: 0.9989
X_test = preprocessing.normalize(X_test) results = model.evaluate(X_test, y_test.values) 1781/1781 [==============================] - 1s 614us/step - loss: 0.0086 - accuracy: 0.9989
TensorBoard是一個很好的交互式可視化工具,可用于查看訓(xùn)練期間的學(xué)習(xí)曲線、比較多個運行的學(xué)習(xí)曲線、分析訓(xùn)練指標等。此工具隨TensorFlow自動安裝。
import os root_logdir = os.path.join(os.curdir, “my_logs”) def get_run_logdir(): import time run_id = time.strftime(“run_%Y_%m_%d-%H_%M_%S”) return os.path.join(root_logdir, run_id) run_logdir = get_run_logdir() tensorboard_cb = keras.callbacks.TensorBoard(run_logdir) model.fit(X_train, y_train.values, batch_size = 2000, epochs = 20, verbose = 1, callbacks=[tensorboard_cb]) %load_ext tensorboard %tensorboard --logdir=./my_logs --port=6006
如前所述,對于一個問題空間,有多少隱藏層或多少神經(jīng)元最適合,并沒有預(yù)定義的規(guī)則。我們可以使用隨機化searchcv或GridSearchCV來超調(diào)一些參數(shù)??晌⒄{(diào)的參數(shù)概述如下:
隱藏層數(shù)
隱藏層神經(jīng)元
優(yōu)化器
學(xué)習(xí)率
epoch
聲明函數(shù)以開發(fā)模型
def build_model(n_hidden_layer=1, n_neurons=10, input_shape=29): # 創(chuàng)建模型 model = Sequential() model.add(Dense(10, input_shape = (29,), activation = 'tanh')) for layer in range(n_hidden_layer): model.add(Dense(n_neurons, activation="tanh")) model.add(Dense(1, activation = 'sigmoid')) # 編譯模型 model.compile(optimizer ='Adam', loss = 'binary_crossentropy', metrics=['accuracy']) return model
使用包裝類克隆模型
from sklearn.base import clone keras_class = tf.keras.wrappers.scikit_learn.KerasClassifier(build_fn = build_model,nb_epoch = 100, batch_size=10) clone(keras_class) keras_class.fit(X_train, y_train.values)
創(chuàng)建隨機搜索網(wǎng)格
from scipy.stats import reciprocal from sklearn.model_selection import RandomizedSearchCV param_distribs = { “n_hidden_layer”: [1, 2, 3], “n_neurons”: [20, 30], # “l(fā)earning_rate”: reciprocal(3e-4, 3e-2), # “opt”:[‘Adam’] } rnd_search_cv = RandomizedSearchCV(keras_class, param_distribs, n_iter=10, cv=3) rnd_search_cv.fit(X_train, y_train.values, epochs=5)
檢查最佳參數(shù)
rnd_search_cv.best_params_ {'n_neurons': 30, 'n_hidden_layer': 3} rnd_search_cv.best_score_ model = rnd_search_cv.best_estimator_.model
優(yōu)化器也應(yīng)該微調(diào),因為它們影響梯度下降、收斂和學(xué)習(xí)速率的自動調(diào)整。
Adadelta-Adadelta是Adagrad的一個更健壯的擴展,它基于梯度更新的移動窗口來調(diào)整學(xué)習(xí)速率,而不是累積所有過去的梯度
隨機梯度下降-常用。需要使用搜索網(wǎng)格微調(diào)學(xué)習(xí)率
Adagrad-對于所有參數(shù)和其他優(yōu)化器的每個周期,學(xué)習(xí)速率都是恒定的。然而,Adagrad在處理誤差函數(shù)導(dǎo)數(shù)時,會改變每個參數(shù)的學(xué)習(xí)速率“η”,并在每個時間步長“t”處改變
ADAM-ADAM(自適應(yīng)矩估計)利用一階和二階動量來防止跳越局部極小值,保持了過去梯度的指數(shù)衰減平均值
一般來說,通過增加層的數(shù)量而不是每層神經(jīng)元的數(shù)量,可以獲得更好的輸出。
看完上述內(nèi)容,你們對怎樣使用tensorflow和Keras有進一步的了解嗎?如果還想了解更多知識或者相關(guān)內(nèi)容,請關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝大家的支持。