本文將重點介紹如何使用LSTM神經(jīng)網(wǎng)絡(luò)架構(gòu),使用Keras和Tensorflow提供時間序列預(yù)測,特別是在股票市場數(shù)據(jù)集上,以提供股票價格的動量指標(biāo)。
成都創(chuàng)新互聯(lián)公司專業(yè)成都網(wǎng)站建設(shè)、網(wǎng)站制作,集網(wǎng)站策劃、網(wǎng)站設(shè)計、網(wǎng)站制作于一體,網(wǎng)站seo、網(wǎng)站優(yōu)化、網(wǎng)站營銷、軟文發(fā)稿等專業(yè)人才根據(jù)搜索規(guī)律編程設(shè)計,讓網(wǎng)站在運行后,在搜索中有好的表現(xiàn),專業(yè)設(shè)計制作為您帶來效益的網(wǎng)站!讓網(wǎng)站建設(shè)為您創(chuàng)造效益。這個框架的代碼可以在下面的GitHub repo中找到(它假設(shè)python版本3.5.x和requirements.txt文件中的需求版本。偏離這些版本可能會導(dǎo)致錯誤):https://github.com/jaungiers/LSTM-Neural-Network-for-Time-Series-Prediction
什么是LSTM神經(jīng)元?
長期困擾傳統(tǒng)神經(jīng)網(wǎng)絡(luò)架構(gòu)的基本問題之一是,如何能夠解釋依賴于信息和上下文的輸入序列。該信息可以是句子中的前一個單詞,以方便通過上下文來預(yù)測下一個單詞可能是什么,或者它也可以是序列的時序信息。
簡而言之,傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)每次都會采用獨立的數(shù)據(jù)向量,并且沒有內(nèi)存概念來幫助他們處理需要內(nèi)存的任務(wù)。
早期嘗試解決這個問題的方法是對網(wǎng)絡(luò)中的神經(jīng)元使用簡單的反饋類型方法,其中輸出被反饋到輸入中,以提供最后看到的輸入的上下文。這些被稱為遞歸神經(jīng)網(wǎng)絡(luò)(RNN)。雖然這些RNN在一定程度上起作用,但它們有一個相當(dāng)大的缺點,因此它們的一些重要用途都會導(dǎo)致產(chǎn)生消失梯度的問題。我們不會進一步擴展討論它,而是說由于這個問題導(dǎo)致RNN不適合大多數(shù)現(xiàn)實問題,因此,我們需要找到別的解決辦法。
這就是長期短期記憶(LSTM)神經(jīng)網(wǎng)絡(luò)起作用的地方。與RNN神經(jīng)元一樣,LSTM神經(jīng)元在其管道中可以保持記憶,以允許解決順序和時間問題,而不會出現(xiàn)影響其性能的消失梯度問題。
許多關(guān)于它的研究論文和文章都可以在網(wǎng)上找到,它們在數(shù)學(xué)細(xì)節(jié)上討論了LSTM細(xì)胞的工作原理。然而,在本文中,我們不會討論LSTM的復(fù)雜工作原理,因為我們更關(guān)心它們的使用。
對于上下文,下面是LSTM神經(jīng)元的典型內(nèi)部工作圖。它由若干層和逐點操作組成,這些操作充當(dāng)數(shù)據(jù)輸入、輸出的門,為LSTM單元狀態(tài)提供信息。這種單元狀態(tài)是通過網(wǎng)絡(luò)和輸入保持長期記憶和上下文。
一個簡單的正弦波示例
為了演示LSTM神經(jīng)網(wǎng)絡(luò)在預(yù)測時間序列中的使用,讓我們從最基本的事情開始,我們可以想到這是一個時間序列:可靠的正弦波。讓我們創(chuàng)建我們需要的數(shù)據(jù),以便為LSTM網(wǎng)絡(luò)訓(xùn)練此函數(shù)的許多“振蕩模型”。
代碼數(shù)據(jù)文件夾中提供的數(shù)據(jù)包含我們創(chuàng)建的sinewave.csv文件,該文件包含5001個正弦波時間段,幅度和頻率為1(角頻率為6.28),時間差值為0.01。繪制時的結(jié)果如下所示:
數(shù)據(jù)集為正弦波
現(xiàn)在我們有了數(shù)據(jù),我們實際上想要實現(xiàn)什么?簡單的說,我們只是希望LSTM從我們將提供的數(shù)據(jù)的設(shè)定窗口大小中學(xué)習(xí)正弦波,并且希望我們可以要求LSTM預(yù)測該系列中的第N步驟,并且它將繼續(xù)輸出正弦波。
我們將首先把CSV文件中的數(shù)據(jù)轉(zhuǎn)換加載到pandas數(shù)據(jù)幀,然后將其用于輸出,它將為LSTM提供數(shù)據(jù)的numpy數(shù)組。 Keras LSTM層的工作方式是采用3維(N,W,F(xiàn))的numpy數(shù)組,其中N是訓(xùn)練序列的數(shù)量,W是序列長度,F(xiàn)是每個序列的特征數(shù)。我們選擇使用50的序列長度(讀取窗口大小)來允許網(wǎng)絡(luò),因此可以在每個序列中看到正弦波的形狀,有希望自己建立基于序列的序列模式。
序列本身是滑動窗口,因此每次移動1,導(dǎo)致與先前窗口不斷重疊。當(dāng)繪制時,序列長度為50的典型訓(xùn)練窗口如下所示:
Sinewave數(shù)據(jù)集訓(xùn)練窗口
為了加載這些數(shù)據(jù),我們在代碼中創(chuàng)建了一個DataLoader類,為數(shù)據(jù)加載層提供抽象。您會注意到,在初始化DataLoader對象時,會傳入文件名, 并確定用于訓(xùn)練與測試的數(shù)據(jù)百分比的拆分變量,且允許選擇一列或多列數(shù)據(jù)的列變量用于單維或多維分析。
在我們有一個允許我們加載數(shù)據(jù)的數(shù)據(jù)對象之后,需要構(gòu)建深度神經(jīng)網(wǎng)絡(luò)模型。同樣,對于抽象,我們的代碼框架使用的是模型類和config.json文件,在給定存儲在配置文件中的所需體系結(jié)構(gòu)和超參數(shù)的情況下,輕松構(gòu)建模型的實例。構(gòu)建我們網(wǎng)絡(luò)的主要功能是build_model()函數(shù),它接收經(jīng)過解析的配置文件。
此功能代碼如下所示,可以輕松擴展,以便將來在更復(fù)雜的體系架構(gòu)上使用。
加載數(shù)據(jù)并建立模型后,我們現(xiàn)在可以繼續(xù)使用我們的訓(xùn)練數(shù)據(jù)訓(xùn)練模型。為此,我們創(chuàng)建了一個單獨的運行模塊,它將利用我們的模型和模塊抽象將它們組合起來進行訓(xùn)練、輸出和可視化。
下面是訓(xùn)練我們模型的一般運行線程代碼:
對于輸出,我們將運行兩種類型的預(yù)測:第一種將以逐點方式進行預(yù)測,即我們每次僅預(yù)測單個點,將此點繪制為預(yù)測,然后沿著下一個窗口進行預(yù)測使用完整的測試數(shù)據(jù)并再次預(yù)測下一個點。
我們要做的第二個預(yù)測是預(yù)測一個完整的序列,我們只用訓(xùn)練數(shù)據(jù)的第一部分初始化一次訓(xùn)練窗口。然后模型預(yù)測下一個點,我們就移動窗口,就像逐點方法一樣。不同之處在于我們使用我們在先前預(yù)測中預(yù)測的數(shù)據(jù)來進行下一步預(yù)測。在第二步中,這意味著只有一個數(shù)據(jù)點(最后一個點)來自先前的預(yù)測。在第三個預(yù)測中,最后兩個數(shù)據(jù)點將來自先前的預(yù)測,依此類推。經(jīng)過50次預(yù)測后,我們的模型將隨后根據(jù)自己的先前預(yù)測進行預(yù)測。這使我們可以使用該模型預(yù)測未來的許多時間步驟,但由于它是在預(yù)測的基礎(chǔ)上進行預(yù)測,這反過來可以反過來又可以預(yù)測,將增加預(yù)測的錯誤率,我們會預(yù)測的更遠(yuǎn)。
下面我們可以看到逐點預(yù)測和完整序列預(yù)測的代碼和相應(yīng)的輸出。
逐點正弦波預(yù)測
正弦波全序列預(yù)測
作為參考,可以在下面的配置文件中看到用于正弦波示例的網(wǎng)絡(luò)架構(gòu)和超參數(shù)。
在真實數(shù)據(jù)的疊加下我們可以看到,只需1個時期和相當(dāng)小的訓(xùn)練數(shù)據(jù)集,LSTM深度神經(jīng)網(wǎng)絡(luò)就可以很好地預(yù)測正弦函數(shù)。
您可以看到,隨著我們對未來越來越多的預(yù)測,誤差幅度會隨著先前預(yù)測中的誤差在用于未來預(yù)測時被越來越多地放大并且增加。因此,我們看到在完整序列示例中,預(yù)測越遠(yuǎn),我們預(yù)測預(yù)測的頻率和幅度與真實數(shù)據(jù)相比就越不準(zhǔn)確。然而,由于sin函數(shù)是一個非常簡單的零噪聲振蕩函數(shù),它仍然可以在沒有過度擬合的情況下很好地預(yù)測它。這很重要,因為我們可以通過增加時期和取出dropout 層來輕松地過度擬合模型。這個訓(xùn)練數(shù)據(jù)幾乎完全準(zhǔn)確,與測試數(shù)據(jù)具有相同的模式,但對于其他現(xiàn)實世界的例子,將模型過度擬合到訓(xùn)練數(shù)據(jù)上會導(dǎo)致測試精度直線下降,因為模型不會一概而論。
在下一步中,我們將嘗試在此類真實數(shù)據(jù)上使用該模型來查看效果。
不那么簡單的股票市場
我們在精確的逐點基礎(chǔ)上預(yù)測了幾百個正弦波的步長。因此,我們現(xiàn)在可以在股市時間序列中做同樣的事情并立即獲利,對嗎?不幸的是,在現(xiàn)實世界中,這并不是那么簡單。
與正弦波不同,股票市場時間序列不是可以映射的任何特定靜態(tài)函數(shù)。描述股票市場時間序列運動的最佳屬性是隨機游走。作為隨機過程,真正的隨機游走沒有可預(yù)測的模式,因此嘗試對其進行建模將毫無意義。幸運的是,許多方面都在持續(xù)爭論說股票市場不是一個純粹的隨機過程,這使我們可以理解時間序列可能有某種隱藏模式。正是這些隱藏的模式,LSTM深度網(wǎng)絡(luò)成為預(yù)測的主要候選者。
此示例將使用的數(shù)據(jù)是數(shù)據(jù)文件夾中的sp500.csv文件。此文件包含2000年1月至2018年9月的標(biāo)準(zhǔn)普爾500股票指數(shù)的開盤價、最高價、最低價、收盤價以及每日交易量。
在第一個例子中,我們將僅使用收盤價創(chuàng)建單維模型。調(diào)整config.json文件以反映新數(shù)據(jù),我們將保持大部分參數(shù)相同。然而,需要做出的一個改變是,與只有-1到+1之間的數(shù)值范圍的正弦波不同,收盤價是股票市場不斷變化的絕對價格。這意味著如果我們試圖在不對其進行標(biāo)準(zhǔn)化的情況下訓(xùn)練模型,它就永遠(yuǎn)不會收斂。
為了解決這個問題,我們將采用每個n大小的訓(xùn)練/測試數(shù)據(jù)窗口,并對每個窗口進行標(biāo)準(zhǔn)化以反映從該窗口開始的百分比變化(因此點i = 0處的數(shù)據(jù)將始終為0)。我們將使用以下等式進行歸一化,然后在預(yù)測過程結(jié)束時進行去標(biāo)準(zhǔn)化,以獲得現(xiàn)實世界數(shù)量的預(yù)測:
n =價格變化的標(biāo)準(zhǔn)化列表[窗口]
p =調(diào)整后的每日回報價格的原始清單[窗口]
反規(guī)范化:
我們已將normalise_windows()函數(shù)添加到DataLoader類以執(zhí)行此轉(zhuǎn)換,并且配置文件中包含布爾規(guī)范化標(biāo)志,表示這些窗口的規(guī)范化。
隨著窗口的標(biāo)準(zhǔn)化,我們現(xiàn)在可以運行模型,就像我們針對正弦波數(shù)據(jù)運行模型一樣。但是,我們在運行這些數(shù)據(jù)時做了一個重要的改變,而不是使用我們框架的model.train()方法,只是使用我們創(chuàng)建的model.train_generator()方法。我們這樣做是因為我們發(fā)現(xiàn)在嘗試訓(xùn)練大型數(shù)據(jù)集時很容易耗盡內(nèi)存,因為model.train()函數(shù)將完整數(shù)據(jù)集加載到內(nèi)存中,然后將規(guī)范化應(yīng)用于內(nèi)存中的每個窗口,容易導(dǎo)致內(nèi)存溢出。因此,我們使用了Keras的fit_generator()函數(shù),允許使用python生成器動態(tài)訓(xùn)練數(shù)據(jù)集來繪制數(shù)據(jù),這意味著內(nèi)存利用率將大大降低。下面的代碼詳細(xì)說明了用于運行三種類型預(yù)測的新運行線程(逐點,完整序列和多序列)。
如上所述,在單個逐點預(yù)測上運行數(shù)據(jù)可以非常接近匹配返回的內(nèi)容。但這有點欺騙性。經(jīng)過仔細(xì)檢查,會發(fā)現(xiàn)預(yù)測線由奇異的預(yù)測點組成,這些預(yù)測點在它們后面具有整個先前的真實歷史窗口。因此,網(wǎng)絡(luò)不需要了解時間序列本身,除了下一個點很可能不會離最后一點太遠(yuǎn)。因此,即使它得到錯誤點的預(yù)測,下一個預(yù)測也將考慮真實的歷史并忽略不正確的預(yù)測,然后再次允許產(chǎn)生錯誤。
雖然這對于下一個價格點的精確預(yù)測而言最初聽起來并不樂觀,但它確實有一些重要的用途。雖然它不知道確切的下一個價格是多少,但它確實能夠準(zhǔn)確地表示下一個價格的范圍。
此信息可用于諸如波動率預(yù)測等應(yīng)用(能夠預(yù)測市場中高或低波動的時段對特定交易策略非常有利),或遠(yuǎn)離交易這也可用作良好指標(biāo)用于異常檢測??梢酝ㄟ^預(yù)測下一個點,然后將其與真實數(shù)據(jù)進行比較來實現(xiàn)異常檢測,并且如果真實數(shù)據(jù)值與預(yù)測點顯著不同,則可以針對該數(shù)據(jù)點標(biāo)出異常標(biāo)記。
標(biāo)準(zhǔn)普爾500指數(shù)逐點預(yù)測
繼續(xù)進行完整的序列預(yù)測,似乎這被證明是對這種類型的時間序列最不有用的預(yù)測(至少使用這些超參數(shù)訓(xùn)練這個模型)。我們可以看到預(yù)測開始時的輕微碰撞,其中模型遵循某種類型的動量,但是很快我們可以看到模型確定最佳模式是收斂到時間序列的某個均衡。在這個階段,這可能看起來并沒有提供太多價值,但是均值回歸交易者可能會在那里宣稱,該模型只是找到價格序列在波動率被消除時將恢復(fù)的平均值。
標(biāo)準(zhǔn)普爾500指數(shù)全序列預(yù)測
最后,我們對該模型進行了第三種預(yù)測,我將其稱為多序列預(yù)測。這是完整序列預(yù)測的混合,因為它仍然使用測試數(shù)據(jù)初始化測試窗口,預(yù)測下一個點,然后使用下一個點創(chuàng)建一個新窗口。但是,一旦它到達(dá)輸入窗口完全由過去預(yù)測組成的點,它就會停止,向前移動一個完整的窗口長度,用真實的測試數(shù)據(jù)重置窗口,然后再次啟動該過程。實質(zhì)上,這為測試數(shù)據(jù)提供了多個趨勢線預(yù)測,以便能夠分析模型獲得未來動量趨勢的程度。
標(biāo)準(zhǔn)普爾500指數(shù)多序列預(yù)測
我們可以從多序列預(yù)測中看出,網(wǎng)絡(luò)似乎正確地預(yù)測了絕大多數(shù)時間序列的趨勢(和趨勢幅度)。雖然不完美,但它確實表明了LSTM深度神經(jīng)網(wǎng)絡(luò)在順序和時間序列問題中的有用性。通過仔細(xì)的超參數(shù)調(diào)整,肯定可以實現(xiàn)更高的準(zhǔn)確性。
結(jié)論
雖然本文的目的是在實踐中給出LSTM深度神經(jīng)網(wǎng)絡(luò)的一個工作實例,但它只是觸及了它們在順序和時間問題中的潛力和應(yīng)用的表面。
在撰寫本文時,LSTM已成功應(yīng)用于眾多現(xiàn)實問題中,從此處所述的經(jīng)典時間序列問題到文本自動糾正、異常檢測和欺詐檢測,以及開發(fā)自動駕駛汽車技術(shù)的核心。
目前使用上述LSTM存在一些局限性,特別是在使用金融時間序列時,該系列本身具有很難建模的非平穩(wěn)特性(盡管在使用貝葉斯深度神經(jīng)網(wǎng)絡(luò)方法方面取得了進展)解決時間序列的非平穩(wěn)性問題。同樣對于一些應(yīng)用,還發(fā)現(xiàn)基于注意力的神經(jīng)網(wǎng)絡(luò)機制的新進展已經(jīng)超過LSTM(并且LSTM與這些基于注意力的機制相結(jié)合也優(yōu)于其自身)。
然而,截至目前,LSTM在更經(jīng)典的統(tǒng)計時間序列方法上提供了顯著的進步,能夠非線性地建模關(guān)系,并且能夠以非線性方式處理具有多個維度的數(shù)據(jù)。
我們開發(fā)的框架的完整源代碼可以在以下GitHub頁面上的MIT許可證下找到:https: //github.com/jaungiers/LSTM-Neural-Network-for-Time-Series-Prediction