語音識別在其早期發(fā)展中有兩個方向。一個方向是根據(jù)語法和語義進行識別,但這種方法長期以來沒有取得突破。第二個方向是讓計算機學習大量的數(shù)據(jù),然后通過大量的數(shù)據(jù)來訓練模型的準確性。這一方向在互聯(lián)網(wǎng)時代,已經(jīng)取得了長足的進步,并逐漸取得了主導地位。毫不夸張地說,當算法之間的差異不大時,數(shù)據(jù)量越大,精度就越好。微信此舉顯然正是出于這一考慮。
創(chuàng)新互聯(lián)云計算的互聯(lián)網(wǎng)服務提供商,擁有超過13年的服務器租用、四川綿陽服務器托管、云服務器、網(wǎng)頁空間、網(wǎng)站系統(tǒng)開發(fā)經(jīng)驗,已先后獲得國家工業(yè)和信息化部頒發(fā)的互聯(lián)網(wǎng)數(shù)據(jù)中心業(yè)務許可證。專業(yè)提供云主機、網(wǎng)頁空間、域名注冊、VPS主機、云服務器、香港云服務器、免備案服務器等。用同一數(shù)據(jù)集訓練神經(jīng)網(wǎng)絡,每次訓練結果不一樣,有時正確率很高,有時很低,為什么?其實這個問題的實質是,如果我們用機器學習算法對數(shù)據(jù)集上的數(shù)據(jù)模型進行一次訓練,保存模型,然后用同樣的算法和同樣的數(shù)據(jù)集以及數(shù)據(jù)排序對其進行再次訓練,那么第一個模型和第二個模型是一樣的嗎?
這可能是因為神經(jīng)網(wǎng)絡用增益或權重的隨機值初始化,然后每個模擬在訓練階段有不同的起點。如果您希望始終保持相同的初始權重,可以嘗試為初始權重修復種子以消除問題。
如果我們深入研究這個問題,我們可以根據(jù)ml算法的“確定性”來對其進行分類。當從同一個數(shù)據(jù)集進行訓練時:
一個是總是生成相同的模型,并且記錄以相同的順序呈現(xiàn);
另一個是總是生成不同的模型,并且記錄順序不同。
在實踐中,大多數(shù)是“不確定的”。模型變化的原因可能是機器學習算法本身存在隨機游走、不同權值的隨機初始化、不同分量的概率分布抽樣來分配優(yōu)化函數(shù)。
雖然模型的“不確定性”可能會對單個訓練結果造成干擾,但我們也可以用“不確定性”來確認模型的穩(wěn)定性,如決策樹、支持向量機(SVM)、神經(jīng)網(wǎng)絡等,最終可以通過多次迭代來確認模型的穩(wěn)定性。
是否存在通用的神經(jīng)網(wǎng)絡模型,可以處理圖像,語音以及NLP?對于目前的深度學習模型,雖然深度學習的目標之一是設計能夠處理各種任務的算法,但是深度學習的應用還需要一定的專業(yè)化,目前還沒有通用的神經(jīng)網(wǎng)絡處理模型。然而,每一種模式也在相互學習、相互融合、共同提高。例如,一些創(chuàng)新可以同時改進卷積神經(jīng)網(wǎng)絡和遞歸神經(jīng)網(wǎng)絡,如批量標準化和關注度。一般模型需要在將來提出。
圖像和視頻處理,計算機視覺,最流行的是CNN,卷積神經(jīng)網(wǎng)絡,它的變形和發(fā)展,CNN適合處理空間數(shù)據(jù),廣泛應用于計算機視覺領域。例如,alexnet、vggnet、googlenet、RESNET等都有自己的特點。將上述模型應用于圖像分類識別中。在圖像分割、目標檢測等方面,提出了更有針對性的模型,并得到了廣泛的應用。
語音處理,2012年之前,最先進的語音識別系統(tǒng)是隱馬爾可夫模型(HMM)和高斯混合模型(GMM)的結合。目前最流行的是深度學習RNN遞歸神經(jīng)網(wǎng)絡,其長、短期記憶網(wǎng)絡LSTM、Gru、雙向RNN、層次RNN等。
除了傳統(tǒng)的自然語言處理方法外,目前的自然語言處理深度學習模型也經(jīng)歷了幾個發(fā)展階段,如基于CNN的模型、基于RNN的模型、基于注意的模型、基于變壓器的模型等。不同的任務場景有不同的模型和策略來解決一些問題。