本篇文章給大家分享的是有關(guān)怎樣解決AI的小數(shù)據(jù)問題,小編覺得挺實用的,因此分享給大家學(xué)習(xí),希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。
創(chuàng)新互聯(lián)成立十年來,這條路我們正越走越好,積累了技術(shù)與客戶資源,形成了良好的口碑。為客戶提供網(wǎng)站設(shè)計制作、做網(wǎng)站、網(wǎng)站策劃、網(wǎng)頁設(shè)計、國際域名空間、網(wǎng)絡(luò)營銷、VI設(shè)計、網(wǎng)站改版、漏洞修補(bǔ)等服務(wù)。網(wǎng)站是否美觀、功能強(qiáng)大、用戶體驗好、性價比高、打開快等等,這些對于網(wǎng)站建設(shè)都非常重要,創(chuàng)新互聯(lián)通過對建站技術(shù)性的掌握、對創(chuàng)意設(shè)計的研究為客戶提供一站式互聯(lián)網(wǎng)解決方案,攜手廣大客戶,共同發(fā)展進(jìn)步。解決AI的小數(shù)據(jù)問題對深度學(xué)習(xí)算法,如果沒有足夠多的數(shù)據(jù)進(jìn)行訓(xùn)練,有兩種方法可以解決這個問題:生成合成數(shù)據(jù),或者開發(fā)可利用小數(shù)據(jù)展開工作的 AI 模型。
眾所周知,深度學(xué)習(xí)需要數(shù)據(jù),其模型訓(xùn)練都是在大量標(biāo)記數(shù)據(jù)的基礎(chǔ)上進(jìn)行的,比如,利用數(shù)以百萬計的動物標(biāo)記圖像訓(xùn)練 AI 學(xué)會識別。但大量標(biāo)記數(shù)據(jù)對某些應(yīng)用來說并不適用,在這種情況下,從頭開始訓(xùn)練一個 AI 模型,即使可能,也充滿了困難。
一個潛在的解決方案是用合成數(shù)據(jù)擴(kuò)充真實數(shù)據(jù)集。這在自動駕駛領(lǐng)域得到了廣泛的應(yīng)用。自動駕駛汽車在逼真的模擬環(huán)境中行駛數(shù)百萬英里,會面臨暴風(fēng)雪以及行人突發(fā)行為等各種情況,而針對這些情況,我們很難獲取到真實數(shù)據(jù)。
圍繞數(shù)據(jù)問題的另一種解決方案是開發(fā)能夠基于小數(shù)據(jù)集進(jìn)行學(xué)習(xí)的 AI 模型。一種名為遷移學(xué)習(xí)(transfer learning)的方法已在計算機(jī)視覺任務(wù)中得到應(yīng)用。該方法使用預(yù)先訓(xùn)練的 AI 算法來執(zhí)行一個有大量標(biāo)記數(shù)據(jù)的任務(wù)(如識別圖像中的汽車),然后將該知識轉(zhuǎn)移到另一個數(shù)據(jù)很少的不同任務(wù)上(如識別卡車)。使用預(yù)先訓(xùn)練的模型就像包餃子時使用現(xiàn)成的餃子皮,免去了和面的步驟。
雖然預(yù)先訓(xùn)練的模型在計算機(jī)視覺領(lǐng)域已經(jīng)取得了長足的發(fā)展,但在自然語言處理(NLP)領(lǐng)域,由于缺乏標(biāo)記數(shù)據(jù),到目前為止,一直是一項極具挑戰(zhàn)的工作。不過,一種名為自我監(jiān)督預(yù)訓(xùn)練(self-supervised pre-training)的方法在自然語言處理領(lǐng)域中逐漸流行起來。
所謂自我監(jiān)督預(yù)訓(xùn)練,首先要根據(jù)網(wǎng)絡(luò)上的大量數(shù)據(jù)訓(xùn)練 AI 模型。例如,OpenAI 進(jìn)行了一項計算極其密集的任務(wù):用 800 萬個網(wǎng)頁作為訓(xùn)練數(shù)據(jù),訓(xùn)練一個基于給定文本預(yù)測下一文本詞匯的 AI 模型。這一方法被稱為自我監(jiān)督學(xué)習(xí),因為這里不涉及“標(biāo)簽”:AI 通過基于句子中的其他單詞預(yù)測一個隱藏的單詞來學(xué)習(xí)語言。
另一個典型的例子是谷歌 BERT,其 AI 語言模型不僅可以根據(jù)前文內(nèi)容進(jìn)行預(yù)測,還可以基于后文展開,也就是說該模型采用了雙向語言模型的方式,能夠更好的融合前后文的知識。
由 Yann LeCun 領(lǐng)導(dǎo)的 Facebook AI 研究部門一直都看好自我監(jiān)督。比如,他們首先會訓(xùn)練出一個語言模型,然后進(jìn)行預(yù)訓(xùn)練,并對其進(jìn)行微調(diào)以進(jìn)行仇恨言論的識別。Facebook 還開源了其自我監(jiān)督語音識別模型,很好地解決了小型研究項目對人工標(biāo)記文本的需求問題。非英語語言的標(biāo)注訓(xùn)練數(shù)據(jù)往往數(shù)量有限,針對這個問題, Facebook 開源了代碼 wav2vec,這對非英語語言的語音識別尤其有用。
以上就是怎樣解決AI的小數(shù)據(jù)問題,小編相信有部分知識點可能是我們?nèi)粘9ぷ鲿姷交蛴玫降摹OM隳芡ㄟ^這篇文章學(xué)到更多知識。更多詳情敬請關(guān)注創(chuàng)新互聯(lián)-成都網(wǎng)站建設(shè)公司行業(yè)資訊頻道。