真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

四位頂級AI大牛縱論:深度學(xué)習(xí)和大數(shù)據(jù)結(jié)合的紅利還能持續(xù)多

這輪 AI 熱潮的很大一個(gè)特點(diǎn)就是底層技術(shù)方面在打通,雖然說過去對通用人工智能大家曾經(jīng)有過很高的期望,但一直沒有落地。這次,深度學(xué)習(xí)給大家?guī)砹撕芏鄼C(jī)會(huì),使得我們在底層技術(shù)方面有了越來越多的共性。然而深度學(xué)習(xí)并不是萬能的,那么它的局限性在哪里?當(dāng)遇到天花板時(shí)又該如何呢?

創(chuàng)新互聯(lián)公司從2013年創(chuàng)立,是專業(yè)互聯(lián)網(wǎng)技術(shù)服務(wù)公司,擁有項(xiàng)目成都做網(wǎng)站、網(wǎng)站制作網(wǎng)站策劃,項(xiàng)目實(shí)施與項(xiàng)目整合能力。我們以讓每一個(gè)夢想脫穎而出為使命,1280元尖草坪做網(wǎng)站,已為上家服務(wù),為尖草坪各地企業(yè)和個(gè)人服務(wù),聯(lián)系電話:18980820575

4月8日,在 ADL 第78期“深度學(xué)習(xí):從算法到應(yīng)用”的 Panel 環(huán)節(jié),四位頂級 AI 學(xué)術(shù)大牛同臺(tái)縱論驅(qū)動(dòng)這一輪 AI 浪潮的底層技術(shù),主題為“深度學(xué)習(xí)和大數(shù)據(jù)結(jié)合的紅利還能持續(xù)多久”。

四位分別是:

中科院計(jì)算所研究員、博導(dǎo),中科視拓創(chuàng)始人、董事長兼 CTO 山世光

360副總裁、 首席科學(xué)家顏水成

華為諾亞方舟實(shí)驗(yàn)室主任李航

上海交通大學(xué)研究院、思必馳創(chuàng)始人兼首席科學(xué)家俞凱

于 2017 年 4 月 7-9 日舉辦的中國計(jì)算機(jī)學(xué)會(huì)學(xué)科前沿講習(xí)班(CCF Advanced Disciplines Lectures,簡稱 ADL)第 78 期,是由 CCF 和 KDD China 聯(lián)合主辦的高端學(xué)術(shù)及技術(shù)系列性品牌活動(dòng)。

底層技術(shù)在打通,聲、圖、文領(lǐng)域相互借鑒

山世光:今天的三位大咖里,俞凱老師做語音識(shí)別,顏水成老師主攻視覺方向,而李航老師則在自然語言的理解處理領(lǐng)域非常資深,而且在更加廣泛的人工智能上問題上也有研究,包含了聲、圖、文三個(gè)領(lǐng)域。我們今天討論的題目就是“深度學(xué)習(xí)和大數(shù)據(jù)的紅利在 AI 領(lǐng)域還能持續(xù)多久”,既然不同研究領(lǐng)域的人都坐到一起了,那我們就先講講這個(gè)大家互相跨界的情況。為什么這么說呢?因?yàn)槲覀€(gè)人覺得這一輪AI熱潮很大的一個(gè)特點(diǎn)就是底層技術(shù)方面在打通。雖然過去我們對通用的人工智能曾經(jīng)有過很高的期望,但是實(shí)際上一直沒有落地,但是如今深度學(xué)習(xí)給大家?guī)砹撕芏嗟臋C(jī)會(huì),而且底層的技術(shù)有了越來越多的共性,比如說卷積神經(jīng)網(wǎng)絡(luò)不僅在語音里面有用,在自然語言處理里面也有應(yīng)用,所以我想請三位從這個(gè)視角談一下,這一輪AI在通用技術(shù)方面有什么樣的進(jìn)展?

俞凱:稍微糾正一下,大家不要以為我是做語音識(shí)別的,我一定要說這句話,為什么?我所做的事情其實(shí)是口語對話系統(tǒng),包括語音識(shí)別、語音合成等大家可以想得到的東西。更重要的是,我做的是對話,或者說是以交互為主要方式的人機(jī)口語對話系統(tǒng)。

對話實(shí)際上是認(rèn)知控制,你可以認(rèn)為我做的是以口語作為主要通道的感知加上認(rèn)知,在這一點(diǎn)上我和李航老師是有重疊的,都是交互的自然語言處理。我為什么會(huì)提這個(gè)?因?yàn)槁?、圖、文,如果從這個(gè)角度分的話,實(shí)際上都可以看是成感知層面的東西,但是它后面所對接的都是理解、交互的控制、人的決策和推理,這些部分是在聲圖文領(lǐng)域的從業(yè)者或多或少都會(huì)涉及到的,無論是顏水成老師還是李航老師。所以我想把它分成兩層,從感知上看我們做的不一樣的,但是后面的東西,大家做的很多都是類似的,比如大家會(huì)做到理解這一層,而我還會(huì)做到交互這一層。

關(guān)于這一輪的AI潮,我說一下自己的感受。我先拋一個(gè)觀點(diǎn),凡是在機(jī)器學(xué)習(xí)范式上一樣的東西,聲圖文全都可以用,而且任何一個(gè)機(jī)器學(xué)習(xí)方法在這三樣里面都可以用。什么叫范式?比如說分類問題,CNN之所以在語音識(shí)別里用的多,很重要的一點(diǎn)就是它能夠處理高度非線性的映射,有非常好的分類能力。只要是面對這樣的問題,就一定可用,所以我們現(xiàn)在也很關(guān)注圖像方面的東西。

(山世光:這個(gè)我可能會(huì)有不同意的觀點(diǎn),我個(gè)人覺得更多的是學(xué)Feature。)

只要是能夠歸結(jié)為范式性的東西,第一是分類,第二是回歸,這是最典型的兩類事,第三是序列標(biāo)注。只要能歸屬這三類的,幾乎都可以通用,只是用的方法不一樣。

李航:你剛才提到深度學(xué)習(xí)和大數(shù)據(jù)的結(jié)合紅利,以及人工智能在技術(shù)層面上的打通,未來在應(yīng)用層面上也會(huì)有很多的機(jī)會(huì)。

現(xiàn)在在UC Berkeley有一種研究,就是給機(jī)器人看一段“人開門”的視頻,機(jī)器人在看完視頻之后,可以學(xué)會(huì)自己用手去開門。以前這種運(yùn)動(dòng)和視頻的理解是完全不同的領(lǐng)域。大家自然可以想到相關(guān)的,比如我跟你說一段話,這個(gè)機(jī)器會(huì)不會(huì)理解,能做什么事情,這種可能性在未來應(yīng)該是有的。在深度學(xué)習(xí)、大數(shù)據(jù)這些技術(shù)的延長線上,假設(shè)有很多的數(shù)據(jù),以及很強(qiáng)的計(jì)算能力,這種跨模態(tài)、跨領(lǐng)域的應(yīng)用,應(yīng)該是未來發(fā)展的一個(gè)增長點(diǎn)。

顏水成:大部分人對于通用智能的理解,目前還停留在概念階段??赡艽蠹抑饕氲氖峭ㄓ萌斯ぶ悄苁鞘裁礃拥模菍τ谠趺礃幼寵C(jī)器實(shí)現(xiàn)或者產(chǎn)生通用人工智能,其實(shí)討論的不是特別多??偟膩碚f通用人工智能暫時(shí)是遙不可及的事情。

山世光:我把剛才這個(gè)問題換一個(gè)問法。比如說過去做人臉職別,我們可能連計(jì)算機(jī)識(shí)別領(lǐng)域的其他的子問題怎么做都不關(guān)心。但是現(xiàn)在不一樣,現(xiàn)在要做人臉識(shí)別,只看人臉識(shí)別的論文肯定是不行了,還要看其他類似領(lǐng)域或者更通用的論文。從這個(gè)聲圖文這三個(gè)大的領(lǐng)域來說,它們之間的相互借鑒和技術(shù)層面的交叉,我覺得已經(jīng)越來越多了。像CNN是從圖像領(lǐng)域里面起來的,1989年就開始在做了。不知道俞凱老師是不是可以介紹一下,在語音方面的應(yīng)用和圖像方面的應(yīng)用會(huì)有什么樣的差別?

顏水成:根據(jù)我的觀察,在聲圖文領(lǐng)域里,聲音的問題相對來說比較少一些,比如像語音識(shí)別、TTS、或者聲紋識(shí)別,而圖像領(lǐng)域的問題太多了,而且落地的方式比語音多很多。這也許是為什么計(jì)算機(jī)視覺領(lǐng)域的從業(yè)者比語音識(shí)別更多。

山世光:俞凱老師同意這個(gè)觀點(diǎn)嗎?

俞凱:我覺得顏水成老師是一語中的,但這個(gè)觀點(diǎn)我肯定是不同意的(指聲音領(lǐng)域的問題相對較少的觀點(diǎn)),其實(shí)是語音的人看起來借鑒圖像的人比較多。

顏水成:但是深度學(xué)習(xí)在語音上是最早成功的。

俞凱:實(shí)際上不只是深度學(xué)習(xí),真正圖像的人看語音的論文相對來說比較少的,這跟整個(gè)領(lǐng)域的覆蓋有關(guān),所以我覺得剛才是一語中的,主要就是對問題的挖掘,這跟整個(gè)的歷史發(fā)展是相關(guān)的,這是事實(shí)。但是倒過來講,我是不太同意的,原因很簡單,語音放在那,它就是一個(gè)模態(tài),里面涉及到環(huán)節(jié)非常多,所以就會(huì)出現(xiàn)一個(gè)現(xiàn)象,真正搞語音的人出來創(chuàng)業(yè)的比較少,特別難做,為什么呢?因?yàn)槟惚仨毷裁炊级?,包括那些學(xué)術(shù)界還沒弄出來的,但是你必須弄出來,才能最終變成一個(gè)系統(tǒng)。

顏水成:所以它是一個(gè)閉環(huán)的,包含麥克風(fēng)陣列、降噪、語音識(shí)別等一系列問題。

俞凱:語音大的特點(diǎn)是什么呢?它不像圖象,任何一個(gè)子問題馬上都能看得見,你必須得繞一個(gè)圈,要么回答你了,要么看到識(shí)別的結(jié)果才可以。它的鏈條是非常長的,從剛才說到的硬件、軟件、信號(hào)、特征、模型、再到后處理,這一系列完了之后才能看到一個(gè)結(jié)果,很難知道哪一塊做的好或者做的不好,因此對后面的結(jié)果有重大的影響。如果你從中單獨(dú)拎出去一塊,想要直接評估它的指標(biāo)并不是那么容易,所以這個(gè)是語音發(fā)展的一個(gè)特點(diǎn)。

我為什么把它當(dāng)做特點(diǎn)呢?因?yàn)樗仁呛锰幰彩菈奶?。壞處就是說,對于整個(gè)領(lǐng)域的問題,大家的認(rèn)識(shí)不夠大,我也在聯(lián)合一些語音圈的同仁,把一些問題明確的提出來。好處是什么呢?就像賣鞋一樣,如果各位去賣鞋,你是會(huì)去都有鞋穿的地方去賣,還是去一個(gè)沒有鞋穿的地方去賣?兩個(gè)各有好處和壞處,如果都不穿鞋,你就沒市場了。如果都穿了鞋,你怎么賣?市場飽和了。所以從語音的角度講,我的感覺是,在研究問題的提出上可能是under-developed,但是在問題的解決上跟圖像相比其實(shí)是over-developed。

我舉一些例子,比如剛才提到的互相借鑒的問題,大家直接就談到了深度學(xué)習(xí),很多人看待語音的角度,“不就是分類的問題嘛”,反正有深度學(xué)習(xí)的人,有圖像領(lǐng)域的人,有全世界的人,大家都能解決這個(gè)事。好,我們都來借鑒,大家的成果都可以用。但是我看這個(gè)事,不是從分類的角度去看,我可能要去改它的criteria,什么意思呢?比如說,我們現(xiàn)在要做語音識(shí)別,我是給一定的聲音,然后識(shí)別出文字,這是一個(gè)criterion,我訓(xùn)練的時(shí)候,在傳統(tǒng)的語音識(shí)別模型里面,它是一個(gè)隱馬爾可夫模型。我要訓(xùn)練的就是一個(gè)聲學(xué)模型,如果我換一個(gè)特別難的criterion,就會(huì)使我的測試和訓(xùn)練是匹配的,就不會(huì)存在很直接的過訓(xùn)練的問題,因?yàn)檫^訓(xùn)練不單單是這個(gè)問題,還有一個(gè)準(zhǔn)則不匹配的問題。

所以我們很多時(shí)候會(huì)關(guān)注這樣一類,這些角度是不一樣的,實(shí)際上是在范式上有所不同。所以今天提到的大數(shù)據(jù)和深度學(xué)習(xí)這塊,我的第二個(gè)觀點(diǎn)是什么呢?我個(gè)人認(rèn)為,從具體的深度學(xué)習(xí)方法中跳出來,其實(shí)在深度學(xué)習(xí)的發(fā)展歷史中,它會(huì)經(jīng)歷范式的變化,在第一個(gè)十年,大概是06年到16年,實(shí)際上第一個(gè)八年吧,我認(rèn)為深度學(xué)習(xí)和大數(shù)據(jù)的結(jié)合在傳統(tǒng)機(jī)器學(xué)習(xí)范式上幾乎達(dá)到飽和,后面還可以再研究,但是它的邊際效益降低了。

什么叫傳統(tǒng)?比如說分類問題,比如說回歸問題,它們的范式都有一個(gè)特點(diǎn),我把這個(gè)特點(diǎn)稱為開環(huán)學(xué)習(xí)。就是說你有一個(gè)模型,我有一個(gè)數(shù)據(jù)進(jìn)來,你要優(yōu)化一個(gè)準(zhǔn)則,然后你出去,就這么簡單,你只需要去想這個(gè)模型怎么變。但是從2013、2014年開始,出現(xiàn)了另外一個(gè)方向,這個(gè)方向可能跟大數(shù)據(jù)在一定程度上有矛盾,因?yàn)榍懊娴拈_環(huán)學(xué)習(xí),必須要有足夠多的大數(shù)據(jù),而且什么叫多?不是數(shù)量,一定指的是質(zhì)量,要能夠覆蓋各種各樣的可能性,完了之后你去學(xué)它,主要依靠大數(shù)據(jù),以及模型強(qiáng)大的非線性運(yùn)算的能力。到了后面出現(xiàn)了一個(gè)問題是,“我沒有數(shù)據(jù)怎么辦”,或者“我數(shù)據(jù)不均衡怎么辦”。于是我們有了強(qiáng)化學(xué)習(xí)(reinforcement learning),生成對抗網(wǎng)絡(luò)(GANs),還有微軟的對偶學(xué)習(xí)(dual learning)。這些學(xué)習(xí)都有一個(gè)特點(diǎn),可以歸為一類,叫閉環(huán)學(xué)習(xí),什么意思?它的數(shù)據(jù)也好,它的準(zhǔn)則也好,它都不是一個(gè)開環(huán)的,都要有feedback signal,這個(gè)feddback signal往往是從不可預(yù)計(jì)的外部環(huán)境來的。

在你們做了前面所有的學(xué)習(xí)的時(shí)候,比如監(jiān)督學(xué)習(xí)(supervised learning),它的系統(tǒng)是你預(yù)先設(shè)計(jì)好的,所以你必須收集數(shù)據(jù),必須預(yù)先設(shè)置好signal,但是到了第二個(gè)階段,這些signal是沒有設(shè)定好的,它是自己出來的。比如說強(qiáng)化學(xué)習(xí),它是和環(huán)境交互,比如說生成式對抗網(wǎng)絡(luò)和對偶學(xué)習(xí),它是和自己交互。這個(gè)紅利能持續(xù)多久,取決于這個(gè)范式的變化,這是我拋的第二個(gè)觀點(diǎn)。

山世光:其實(shí)我覺得視覺和語音領(lǐng)域,還是借鑒很多來自于自然語言理解領(lǐng)域的一些技術(shù)方法,比如說上一代的一些模型,已經(jīng)在視覺領(lǐng)域里面用了好多年,在深度學(xué)習(xí)出來之前,基本上是這一套。那么除了這個(gè)之外的話,據(jù)您(李航老師)的了解,還有什么樣的技術(shù)可能是在原理或者歷史上,也借鑒了自然語言理解的技術(shù)?或者反過來說,自然語言的理解領(lǐng)域的同行們,他們會(huì)不會(huì)也關(guān)注語音或者視覺這些領(lǐng)域的進(jìn)展?

李航:剛才你說那個(gè)現(xiàn)象,以前可能在自然語言和其他的人工智能領(lǐng)域之間也是這樣,大家不會(huì)關(guān)注視覺和語音方面的事情?,F(xiàn)在這個(gè)界限慢慢越來越模糊了,大家會(huì)互相借鑒,這個(gè)現(xiàn)象可能是歷史上沒有發(fā)生過的。然后你們剛剛說的這個(gè)聲圖文,其實(shí)“文”里面有一個(gè)和聲、圖本質(zhì)上不一樣的地方,它有這個(gè)符號(hào)(symbol),它的本質(zhì)的特點(diǎn)就是在語音識(shí)別以后,轉(zhuǎn)換成了符號(hào)。在語言表達(dá)的時(shí)候,我們認(rèn)為我們能夠理解一些概念,傳達(dá)一些概念的時(shí)候,其實(shí)是有對應(yīng)的符號(hào)的,這個(gè)就是跟語音和圖像不太一樣的地方。

說到深度學(xué)習(xí),剛才俞凱老師說的我也挺同意的,2014年左右,有一個(gè)頂峰過去了,下一波從我們自然語言處理的角度來看的話,怎么樣能夠把深度學(xué)習(xí)的技術(shù)neural processing和symbol processing結(jié)合起來,是自然語言未來必然要去解決的問題。這里面有很多挑戰(zhàn),首先就是目前還不清楚人的大腦里面這種符號(hào)到底對應(yīng)的是什么東西,怎么樣能夠像做CNN一樣擴(kuò)展現(xiàn)在的深度模型也不是很清楚。符號(hào)其實(shí)是挺硬的東西,而深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)是很軟的東西,我們處理人的語言,包括對話的理解,從文本里面獲取知識(shí),理解文本的內(nèi)容,這些應(yīng)用都是需要這種軟、硬處理的結(jié)合。我認(rèn)為自然語言處理和深度學(xué)習(xí)未來發(fā)展的重要關(guān)鍵就是“怎樣做neural symbolic processing”,這塊是可能跟其他兩類不太一樣。

聲、圖、文怎樣落地?

山世光:我最近其實(shí)特別羨慕做語音的,為什么這么說呢?因?yàn)檎Z音這個(gè)領(lǐng)域,它處理的結(jié)果直接變成了符號(hào),但是視覺這塊,我們自己說一圖勝千言,好象是說一張圖可以有很多很多的符號(hào)出來,但是它其實(shí)和非常精確的命令,比如說我們?nèi)タ刂埔粋€(gè)東西,和語音以及語言是直接相關(guān)的,從這點(diǎn)來講的話,語音就有非常豐富的內(nèi)容,可以很精確的去表達(dá),這也是為什么說語音的應(yīng)用比視覺更早了一步。特別是語音識(shí)別,跟自然語言理解的連接更加直接一點(diǎn),而視覺這塊就稍微弱了一點(diǎn),但是最近兩年有一個(gè)專門話題是vision和language(視覺和語言),大概是從2015年才開始的,之前也有人做,但是做的很爛。2015年之后看起來好像有一些聲稱通過了圖靈測試,但是我覺得還是有點(diǎn)弱。從這點(diǎn)來講的話,比如說做APP,我自己去創(chuàng)業(yè)的時(shí)候,別人都會(huì)說視覺能不能做一個(gè)單獨(dú)的APP給用戶用,而不是說作為一個(gè)錦上添花的東西嵌入到一個(gè)已有的系統(tǒng)里面去,是不是視覺會(huì)有這種缺陷?

顏水成:現(xiàn)在還是有不少這種純視覺的APP的,比如美圖秀秀、FaceU,這些就是典型的視覺。我個(gè)人覺得視覺這個(gè)領(lǐng)域的話,因?yàn)樗?jīng)??梢杂胁煌膭?chuàng)新,比如說今年非常典型的熱點(diǎn)就是短視頻的生產(chǎn)和聚合,各大創(chuàng)業(yè)公司(以今日頭條為代表),以及傳統(tǒng)的IT公司(比如360、百度、騰訊),都在推動(dòng)短視頻,這些東西跟傳統(tǒng)的純粹圖像分析不一樣。短視頻興起后,你的計(jì)算模型的efficiency,推薦算法等,都會(huì)跟以前完全不一樣。比如圖文的時(shí)候,可以用surrounding text做一些事情,那么短視頻出現(xiàn)之后的話,可能就沒有什么太多的caption(字幕)或者title(標(biāo)題)的東西,這個(gè)時(shí)候主要依賴的是視覺的東西。無論是學(xué)術(shù)界工業(yè)界,其實(shí)對短視頻的分析的投入和研發(fā)的力度是加強(qiáng)了的。雖然聲音還在里面,但是可能對于文本的依賴性變?nèi)趿?。從視覺維度來說的話,深度學(xué)習(xí)和大數(shù)據(jù)結(jié)合紅利又一波又要來了,而不是到了瓶頸期。

山世光:就是視頻的結(jié)構(gòu)化、符號(hào)化和后端的搜索、應(yīng)用的連接。

李航:這是個(gè)挺好的例子,其實(shí)剛才我們提到的語音,俞凱老師做的東西跟語言相關(guān),只不過是從語音對話的角度去看這個(gè)東西,其實(shí)語音和語言比較容易自然的結(jié)合在一起,現(xiàn)在已經(jīng)變成一個(gè)相對比較大的領(lǐng)域。我對未來的預(yù)測是,真正做語音識(shí)別的人會(huì)越來越少,而做語音對話的人會(huì)越來越多,這是一個(gè)整體的大的領(lǐng)域,而語音識(shí)別是其中一部分。

顏水成:對于語音對話這塊,我個(gè)人的觀點(diǎn)有點(diǎn)不一樣,對話非常依賴于語料,這樣的話,只有兩類公司比較適合做這個(gè)事情。一類的話就是有search engine的公司,還有一類就是以騰訊、微軟為代表的,有instant message產(chǎn)品的公司,比如微信、Skype。這些公司有天然的優(yōu)勢。

李航:我們倆說的其實(shí)不矛盾,這個(gè)領(lǐng)域有這樣的應(yīng)用,那么自然就需要將語音、語言的處理技術(shù)融合起來。相對來說,傳統(tǒng)的語音識(shí)別和語言處理的人會(huì)越來越少,而在更大的應(yīng)用背景下,更大的技術(shù)范圍內(nèi),人會(huì)越來越多,這是我的預(yù)測。

俞凱:其實(shí)是這樣,對話也分很多種類,剛才所說的open domain(開放領(lǐng)域),其實(shí)只是其中的一小類,而且是離商業(yè)化最遠(yuǎn)的一類。

顏水成:但是老百姓最期待的可能是這個(gè)玩意。

俞凱:其實(shí)不是,從投資的角度、以及技術(shù)的角度來講的話,最集中的就是垂直領(lǐng)域的任務(wù)性對話,這個(gè)是一定的。

顏水成:對,這是落地性非常好的,但是我們看到的科幻片,或者老百姓他不能區(qū)分什么是task,什么是open domain。他們想的是,可能會(huì)有一個(gè)新的機(jī)器人出現(xiàn),它可以安慰我,給我提供各種各樣的信息,但是我們現(xiàn)在真正能夠提供的,還是像Alexa Skills這樣的東西。

俞凱:從這個(gè)角度來講,其實(shí)那些比較open的語料,對于研究來說是有一定價(jià)值的,對于未來暢想也很有意思,但是從實(shí)際落地和真正的研究語義區(qū)分角度來講,其實(shí)大公司并沒有優(yōu)勢,原因非常簡單,就是在機(jī)器學(xué)習(xí)的范式上,它不再是一個(gè)基于離線語料的學(xué)習(xí),尤其是對話決策這一類,機(jī)器學(xué)習(xí)是需要在線和環(huán)境交互,才能真正去學(xué)的,而這樣一類事情,全世界都才開始做。所以我覺得,細(xì)分下來的話,在對話的領(lǐng)域里面,至少有聊天、問答、任務(wù)性對話三個(gè)比較難的課題。我把open domain看成是特殊的聊天。

這三種用的技術(shù)都不一樣,而它的商業(yè)化模式區(qū)別也比較大。所以我會(huì)有一個(gè)感覺,可能細(xì)分能讓大家把這件事看的更具體一點(diǎn)。回答剛才山世光老師提到的關(guān)于圖像商業(yè)化這個(gè)問題,我也再說一個(gè)觀點(diǎn):不解決痛點(diǎn),只解決癢點(diǎn)。什么意思呢?就是我一天不上微信,我簡直就不行,我昨天兩點(diǎn)鐘到了賓館,我睡覺之前一定要看微信,因?yàn)樵陲w機(jī)上沒法看,那個(gè)是痛點(diǎn),真的很痛,我如果忘了這個(gè),比如說李老師給我發(fā)了微信,我如果不知道,這后面就麻煩了,但是如果我不打開那個(gè)對話APP,這是沒事的,所以這是癢點(diǎn),這一點(diǎn)特別關(guān)鍵,它到底是疼的還是癢的。而從視覺的角度上講,其實(shí)我的感覺是有很多痛點(diǎn)的,而且比以前還痛,這就是為什么,雖然現(xiàn)在語音的發(fā)展?jié)摿Ψ浅4?,但是從現(xiàn)實(shí)的情況上來看,整體上視覺公司估值已經(jīng)比語音這邊高,而整個(gè)核心的應(yīng)用是一個(gè)什么東西呢?安防。安防這件事情是非常清晰的應(yīng)用。剛才提到的好幾類,包括說這個(gè)APP的問題,第一要區(qū)分你做這個(gè)APP的性質(zhì)是什么,到底是工具性,還是社交性的,如果連這個(gè)都不區(qū)分的話,你的方向就不清楚,你就不知道,技術(shù)在里面占多大比例,工具性的占的比例高一點(diǎn),但是社交性的、游戲性的技術(shù)比例可能很低很低。而在安防領(lǐng)域,其實(shí)圖像是完全dominant的。

顏水成:安防其實(shí)也有個(gè)問題,其實(shí)公司都是都希望自己的技術(shù)能直接與用戶做交互,而做安防的話其實(shí)是默默的在后臺(tái)弄這個(gè)東西,普通老百姓不一定知道這個(gè)東西的存在,這可能是它的一個(gè)缺點(diǎn)。其實(shí)我覺得做視覺的人,還是希望能讓用戶看見,就是做2C(to customer)東西。

俞凱:我個(gè)人感覺,如果是2C的話,也只有兩種情況,一種情況就是你就是一個(gè)感知工具,這個(gè)感知工具是不可或缺的,比如輸入法,這個(gè)在自然語言處理里面是完全不可或缺的東西。還有一個(gè)方向就是必須得是個(gè)系統(tǒng),單獨(dú)語音可能不行,單獨(dú)圖像可能也不行,它可能會(huì)以其中一個(gè)為主 ,但是必須是個(gè)系統(tǒng)。

顏水成:我覺得可能要等到AR眼鏡所有的技術(shù)都成熟了,而且用戶量比較大了,才能夠讓視覺成為dominant的東西。

山世光:會(huì)不會(huì)把希望寄托在了一件不可能發(fā)生的事情上?大家可以現(xiàn)場調(diào)研一下,有多少人愿意天天戴一個(gè)AR眼鏡。

顏水成:請問現(xiàn)場有多少人體驗(yàn)過HoloLens?(現(xiàn)場觀眾舉手),看起來二十分之一都不到。我們現(xiàn)在在座的根本沒有多少人知道AR當(dāng)前的現(xiàn)狀是怎樣的,沒有體驗(yàn)過AR眼鏡目前處于什么水平。我第一次帶HoloLens眼鏡的時(shí)候,只是在實(shí)驗(yàn)室里面體驗(yàn)了十分鐘,用起來特別麻煩,因?yàn)槲④浺欢ㄒ阉馁~號(hào)跟HoloLens綁起來,又不好輸入,我又不熟,搞的非常痛苦。但是有一次我太太恰好去外邊旅游,我一個(gè)人在家里,我就用了整整半天的時(shí)間,在家里把HoloLens設(shè)置好,把里面各種各樣的功能體驗(yàn)了一遍,然后就覺得這個(gè)東西還不錯(cuò),離我想象的科幻電影里的樣子又近了一點(diǎn),但是還是有問題,HoloLens太沉了,視野太窄,而且續(xù)航也不太給力。后來看到Lumus這個(gè)專門做光學(xué)鏡片的公司,它的產(chǎn)品能夠把信息從側(cè)面投影出來,通過光波導(dǎo)這種形式把信號(hào)反射到你的眼睛里面,能把眼鏡做的和真的眼鏡大小差不多。這樣的話,極有可能能做到一款和普通的眼鏡大小差不多的AR眼鏡。

此外還有一些人在做SLAM技術(shù),以及一些配套的手勢控制的技術(shù)。特別是當(dāng)我看到Lumus的那個(gè)眼鏡,加上一個(gè)叫Infinity公司的SLAM技術(shù),合在一起的時(shí)候,你就會(huì)覺得這個(gè)眼鏡可以做的很小,并不是遙不可及的,我覺得AR眼鏡發(fā)展的腳步比我們想象的快了一些。所以大家有機(jī)會(huì)的話,應(yīng)該去體驗(yàn)一下。

深度學(xué)習(xí)加大數(shù)據(jù)的模式會(huì)面臨天花板嗎?如何解決?

山世光:我們還是回到這個(gè)話題上來,我解讀一下這個(gè)話題為什么這樣去設(shè)置。其實(shí)這里面有兩個(gè)問題。第一個(gè)問題是說深度學(xué)習(xí)加上大數(shù)據(jù)這樣一個(gè)模式的,會(huì)不會(huì)出現(xiàn)天花板的情況?昨天余凱(平線機(jī)器人創(chuàng)始人兼 CEO,前百度研究院執(zhí)行院長)的PPT里面正好有一張圖片,橫坐標(biāo)是數(shù)據(jù)量,縱坐標(biāo)是performance,那么這個(gè)曲線的走勢是會(huì)逐漸趨于平緩呢?還是會(huì)一直往上走?

第二個(gè)問題就是天花板出現(xiàn)了之后怎么辦,就是你有了大數(shù)據(jù),但是達(dá)到了天花板,你還沒有滿足用戶的需求,那你還有沒有其他的技術(shù)。人很多時(shí)候并不是依靠大數(shù)據(jù)來學(xué)習(xí),我們是不是在下一波里面會(huì)更重視這種不需要大量數(shù)據(jù)的學(xué)習(xí)算法。之前也有討論,有多少人工智能,就有多少人工數(shù)據(jù)標(biāo)注的工作,是不是可以避免這個(gè)問題?請三位從這兩個(gè)角度解讀一下。

俞凱:我把我剛才說的擴(kuò)展一下,先倒著來說,就是第二個(gè)問題,我的一個(gè)基本觀點(diǎn)就是閉環(huán)的將會(huì)成為未來的一個(gè)研究主流,甚至有可能是工業(yè)界的主流,它大的特點(diǎn)就是對于人工標(biāo)注數(shù)據(jù)的需求大大降低,這個(gè)是我特別明確的感受。比如GAN,它是機(jī)器自己生成數(shù)據(jù),只是這個(gè)生成方法是閉環(huán)的,所以使得它生成的數(shù)據(jù)特別好,要是強(qiáng)化學(xué)習(xí)的話,直接和環(huán)境進(jìn)行交互,它們利用都不是一個(gè)一個(gè)正常的、離線的、大規(guī)模的人工預(yù)標(biāo)注。因此從第二個(gè)問題的角度上講,我會(huì)認(rèn)為閉環(huán)學(xué)習(xí)是一個(gè)比較大的方向。另外一個(gè)事情就是,觀看機(jī)器學(xué)習(xí)的整體發(fā)展進(jìn)程,我特別同意李老師的觀點(diǎn),他說的是符號(hào)學(xué)習(xí)和深度學(xué)習(xí),我的觀點(diǎn)就是數(shù)據(jù)和知識(shí)雙驅(qū)動(dòng),我覺得這個(gè)方向?qū)?huì)是未來特別特別重要的方向。

李航:關(guān)于第一個(gè)問題,其實(shí)大數(shù)據(jù)永遠(yuǎn)解決不了長尾問題,自然語言處理的這個(gè)傾向非常明顯。比如說現(xiàn)在的輸入法、語音識(shí)別,在有專有名詞、術(shù)語、或者夾雜英語單詞的時(shí)候,肯定識(shí)別不好,不管你灌多大的數(shù)據(jù)。因?yàn)槟闶占恼Z料越多,新詞的量也在同時(shí)增加,永遠(yuǎn)會(huì)有長尾的詞出現(xiàn),那么怎么樣去處理?至少現(xiàn)在用深度學(xué)習(xí)或者自然語言處理的方法,還不能很好的解決這個(gè)問題,其實(shí)語音識(shí)別也是一樣的,還沒有完全解決這個(gè)問題。但是人肯定不會(huì)有這個(gè)問題,一個(gè)是語言的使用能力,你可以認(rèn)為是人類幾百萬年進(jìn)化出來的能力,讓你在聽到一個(gè)陌生的單詞的時(shí)候,可以利用你的語言能力做推理,做聯(lián)想,做判斷,來彌補(bǔ)這些問題。我們現(xiàn)在的深度學(xué)習(xí),或者整個(gè)人工智能領(lǐng)域都沒有這樣的技術(shù)去彌補(bǔ)這樣的事情。這塊的話,明顯說明大數(shù)據(jù)、深度學(xué)習(xí)不是萬能的。我們可以在未來短期的時(shí)間里面,解決一些問題,比如剛才說到這個(gè)輸入法的問題,我可以把它變成personalised(個(gè)性化),或者是context dependent(基于上下文)來處理,可能做的更好一些。模型上,我可以嫁接在sequence  to sequence learning這種大的框架里面,我可以把一些事情做的很漂亮,也很有效。但是本質(zhì)上,并不是像人一樣處理長尾現(xiàn)象,因此大數(shù)據(jù)、深度學(xué)習(xí)肯定不是萬能的。

山世光:其實(shí)之前俞凱老師講到自動(dòng)駕駛的時(shí)候,就有一個(gè)collide case,比如說車禍,它其實(shí)不是經(jīng)常發(fā)生的,很難采集這樣的數(shù)據(jù),但是這個(gè)我們也有討論,是不是可以合成這樣的數(shù)據(jù)。但是如果能合成出來大量的這類數(shù)據(jù),而且是很接近真實(shí)的,那也許就不需要深度學(xué)習(xí)了,因?yàn)槟惚緛砭椭肋@個(gè)事情怎么產(chǎn)生的。

顏水成:其實(shí)說到長尾問題,讓我想起去年在上海紐約大學(xué),Zhang Zheng老師組織了一個(gè)關(guān)于neural science vs. computer science的討論。人是怎么解決長尾的問題呢?當(dāng)時(shí)我們就覺得人腦里面有可能有兩個(gè)模型,一個(gè)叫參數(shù)模型,一個(gè)叫非參模型。其實(shí)長尾這個(gè)東西,可能就是由幾個(gè)instance存在那里。參數(shù)模型或者深度學(xué)習(xí)的模型有兩個(gè)能力,一個(gè)是能分類,能做prediction,同時(shí)還有一個(gè)能力,就是能判斷對這個(gè)樣本(能)不能prediction,(如果不能,)那么就把這個(gè)樣本拉出來,用非參方法一一比較一下。

人是怎么處理長尾問題的呢?我們當(dāng)時(shí)有一個(gè)假設(shè),其實(shí)也沒有很多道理,就是聽起來比較reasonable。你的學(xué)習(xí)過程中非參樣本是逐漸增多的,比較多的時(shí)候就形成一個(gè)概念,參數(shù)模型就會(huì)增加一個(gè)節(jié)點(diǎn)。但是當(dāng)你長久不看,就遺忘了,有些概念就消失了,有些樣本就會(huì)退回到參數(shù)模型里面,這可能能夠解釋,為什么有些時(shí)候你會(huì)覺得有個(gè)東西可能認(rèn)識(shí),但是死活都想不起來,這個(gè)時(shí)候就意味著參數(shù)模型不能識(shí)別樣本是么東西,但是可能在非參模型里有。在非參模型存的數(shù)據(jù)可能非常非常多,這樣的話就不停地去搜,不斷地想,想著想著就想出來了,有可能在非參數(shù)模型就把它匹配上了。

李航:其實(shí)我不太同意這個(gè)觀點(diǎn)。人是肯定是有這部分的能力,這是模式識(shí)別的思維方式。比如你第一次聽“他在微信里潛水”這句話,你可能要琢磨一下這是什么意思,你第一次聽,你可能會(huì)想潛水有什么特性,做一些聯(lián)想,然后大概猜出這個(gè)是什么意思,這是個(gè)長尾的事情,語言理解原理有部分是聯(lián)想,也有一些推理,當(dāng)然你得到的結(jié)論也不一定對,有可能誤解了。對這塊認(rèn)知科學(xué)也沒有說清楚,人的推理,或者自然的聯(lián)想,或者比喻的能力(理解比喻和造比喻的能力),到底有什么不同?我個(gè)人理解,有一部分能力已經(jīng)超脫了模式識(shí)別的能力。讓現(xiàn)在的計(jì)算機(jī)架構(gòu)做這樣的事情的話,相當(dāng)于需要做窮舉的全集的近似度計(jì)算,當(dāng)然也不完全是這么回事兒,但是人為什么能夠很快地做這樣的相似度計(jì)算,判斷說這個(gè)事情是這么個(gè)事。

俞凱:我覺得剛剛顏水成老師說的這個(gè)角度我是比較同意的,他說的兩種不同的方式去做,一個(gè)方式是計(jì)算的方式,另外一個(gè)方式是存儲(chǔ)和尋址的方式。這兩個(gè)方式的結(jié)合實(shí)際上是人腦的一個(gè)點(diǎn),計(jì)算的方式需要存的東西比較少,但是需要在線去推理,尋址的話就相當(dāng)于比較簡單的映射。

山世光:我覺得李航老師說這個(gè),它不僅僅是一個(gè)簡單的存儲(chǔ),而是可以去聯(lián)想,可以舉一反三的。

俞凱:長尾的數(shù)據(jù)問題,其實(shí)還有另外的一件事情,目前學(xué)術(shù)界不是特別重視,但是工業(yè)界其實(shí)特別重視,未來很可能會(huì)推動(dòng)大數(shù)據(jù)和深度學(xué)習(xí)的結(jié)合。由于傳統(tǒng)問題很多被解決了,所以它會(huì)推動(dòng)新問題的產(chǎn)生,這個(gè)新問題是什么呢?我舉例子,就是剛才提到的performnce問題,這個(gè)指標(biāo),不是真實(shí)的產(chǎn)業(yè)界定的,是學(xué)術(shù)界在最開始定義這個(gè)問題的時(shí)候提出的,比如說我舉這個(gè)例子——詞錯(cuò)率(word error rate),但是這個(gè)指標(biāo)現(xiàn)在看起來好像已經(jīng)快達(dá)到飽和了,人們就會(huì)說,實(shí)際上99%和97%的識(shí)別率有差別嗎?那么什么東西有差別呢?我們就要想,語義理解可能有差別,那么你怎么定義有效的語義理解?你定義出來以后,你的輸入就不是文字的語義理解了,你現(xiàn)在說的是語音,現(xiàn)在識(shí)別的有錯(cuò)誤,在這個(gè)錯(cuò)誤的情況下,導(dǎo)致的理解是什么樣,你就把它連成一個(gè)新問題,這個(gè)問題可能就會(huì)變成對于語音終極的理解的誤差有多少,但是這個(gè)誤差怎么定義現(xiàn)在沒有一個(gè)共識(shí)。我覺得這會(huì)產(chǎn)生一系列新的問題,而這些問題會(huì)推動(dòng)深度學(xué)習(xí)新的模式和新型態(tài)的大數(shù)據(jù)結(jié)構(gòu)的發(fā)展。

怎樣用一個(gè)具體的指標(biāo)評價(jià)AI的整體進(jìn)步?

山世光:我覺得這個(gè)非常好,我在計(jì)算所經(jīng)常跟一些做系統(tǒng)的人打交道,他們就特別不理解我們這個(gè)領(lǐng)域,他們認(rèn)為,“你們老是說今天有進(jìn)步,明天有進(jìn)步,到底這個(gè)AI領(lǐng)域的進(jìn)步是怎么評價(jià)的?”他們的評價(jià)標(biāo)準(zhǔn)很清楚,有個(gè)benchmark,新機(jī)器造出來,把這個(gè)benchmark一跑,我現(xiàn)在是多少,原來是多少,很清楚,但是整個(gè)AI界他們找不到能夠理解的,你去年是這個(gè)指標(biāo),明年是這么一個(gè)指標(biāo),怎么評價(jià)AI整個(gè)的發(fā)展?最后大家沒辦法,寄希望于圖靈測試,但是圖靈測試不能很好的度量進(jìn)步。這樣一個(gè)指標(biāo)是不是我們這個(gè)領(lǐng)域值得思考的問題?

俞凱:我覺得指標(biāo)會(huì)不斷地變化。其實(shí)說白了,任何科學(xué)最關(guān)鍵的是先定義問題,然后才是怎么去解決它。科學(xué)的發(fā)展往往是問題導(dǎo)向的,我感覺現(xiàn)在就處在一個(gè)新問題出現(xiàn)的前夜,但是這種事在學(xué)術(shù)界其實(shí)很難被人承認(rèn)的。根據(jù)我自己的經(jīng)驗(yàn),我曾經(jīng)投過很多關(guān)于變一個(gè)criterion的論文,但是這種論文被接收的概率比我改一個(gè)算法被接收概率要低得多。

顏水成:其實(shí)圖像跟語音、語義還有另外一個(gè)很明顯的差別。圖像是一個(gè)universal problem,無論中國還是美國做的其實(shí)是一模一樣的,但是語音和語義還有一個(gè)language問題,即使外國做的很好,但是那個(gè)模型并不一定能夠在中文上做到非常好的效果,這個(gè)可能還是有一些差別的。

山世光:再回到剛才的這個(gè)問題上,我想問一下俞凱老師,在語音識(shí)別的這個(gè)領(lǐng)域,你剛才提到詞錯(cuò)率這個(gè)指標(biāo)基本上要飽和了,這是說再增加更多的數(shù)據(jù)性能也沒法上升了呢?還是說已經(jīng)做的足夠好了?

俞凱:我們這個(gè)概念就是說相對錯(cuò)誤率的下降。在語音識(shí)別歷史上,相對錯(cuò)誤率下降30%屬于歷史上大的進(jìn)步,之前還有幾個(gè)技術(shù)也是這樣,相對錯(cuò)誤率下降30%,可問題是我現(xiàn)在的錯(cuò)誤率只是10%,你相對下降30%這個(gè)概念,已經(jīng)變成了7%,你再相對30%,變到了多少?你會(huì)發(fā)現(xiàn)實(shí)際的絕對值特別小。我說的飽和就是表面上看技術(shù)還是在不斷地進(jìn)步,但是給人的感覺就是,對于這個(gè)問題本身,它的邊際效應(yīng)已經(jīng)特別低了?,F(xiàn)在比較難的是處理抗噪、倆人同時(shí)說話等問題。因?yàn)檫@樣的東西,它的錯(cuò)誤率特別特別的高,那樣的情況,它的研究價(jià)值就大于工業(yè)價(jià)值,否則很多事就讓工業(yè)去做了。之前微軟將Conversational Speech Recognition的詞錯(cuò)率做到了5.9%,和人的錯(cuò)誤率已經(jīng)一樣了。從某種意義上講,在限定的條件下,這事已經(jīng)算解決了,但是在非限定條件下或者非配合條件下,這個(gè)事情才剛剛開始。

無監(jiān)督學(xué)習(xí)

山世光:回到“如何在沒有大量的數(shù)據(jù)情況下怎么去做學(xué)習(xí)”的這個(gè)問題。之前我們也討論,一個(gè)思路就是做強(qiáng)化學(xué)習(xí),做交互相關(guān)的這種可能。另外一個(gè)就是說貝葉斯網(wǎng)絡(luò)和深度學(xué)習(xí)的結(jié)合形成一套新的機(jī)制,也許可以在一定程度上解決這樣的問題,大家是同意還是批判?

李航:貝葉斯網(wǎng)絡(luò)那個(gè)不好評論。但是我覺得非監(jiān)督學(xué)習(xí)一定要小心,其實(shí)非監(jiān)督學(xué)習(xí)指的東西現(xiàn)在越來越不一樣了,傳統(tǒng)的非監(jiān)督學(xué)習(xí)真的是一大堆數(shù)據(jù),learning from the scratch,找到這個(gè)數(shù)據(jù)里的規(guī)律,沒有任何指導(dǎo)。我們?nèi)似鋵?shí)無師自通能學(xué)到一些東西,聽起來好像能做這個(gè)非監(jiān)督學(xué)習(xí),但是這個(gè)能力的本質(zhì)是不一樣的。人類進(jìn)化這么長時(shí)間,我們學(xué)習(xí)的能力在DNA里面已經(jīng)有了。我們生長的過程當(dāng)中,學(xué)到了大量的知識(shí),也就是說成年之前學(xué)到很多東西,在成年的時(shí)候,一般的人學(xué)任何一個(gè)東西,你也可能說小數(shù)據(jù),或者無監(jiān)督的學(xué)習(xí),但是其實(shí)之前的那些知識(shí)、能力都會(huì)幫助你。這種意義上其實(shí)大家也在做,就是遷移學(xué)習(xí),半監(jiān)督學(xué)習(xí),最近他們比較關(guān)注的meta learning(谷歌提出來的東西)。就是說我學(xué)各種各樣的分類器,各種各樣的知識(shí),這些東西怎么樣能有效的結(jié)合起來,幫助我只用小數(shù)據(jù)或者不用數(shù)據(jù),就能把這些新的東西學(xué)好,這樣學(xué)習(xí)的范式更接近人,比如Bayesian Program Learning這種新的想法,都是在朝這個(gè)方向走。要么人給的知識(shí),要么機(jī)器自動(dòng)學(xué)的各種各樣的知識(shí),如何把這些有效的利用起來,再去學(xué)新的知識(shí),這塊我覺得是很有意思的方向。

山世光:我覺得李航老師說的這個(gè)引到了一個(gè)非常重要的話題上來。我就觀察我家小孩,我感覺他在七八歲之前,學(xué)每一個(gè)技能其實(shí)都挺困難的,比如你讓他系個(gè)扣子的話(這個(gè)跟智能沒有什么關(guān)系),他要學(xué)蠻久的,但是你會(huì)發(fā)現(xiàn)他不同層面、不同角度的能力,在逐漸積累一段時(shí)間之后,在有了自學(xué)的能力時(shí)候,智力的發(fā)育不是線性的,那時(shí)候就會(huì)突然爆發(fā)性的自己去學(xué)。這個(gè)對機(jī)器來說,它可能有視覺、聽覺等各種各樣的能力,但是沒有把這些結(jié)合在一起,去誕生一個(gè)智力,這塊如果有突破話真的會(huì)是一個(gè)大的突破。

俞凱:我的感覺其實(shí)還是反饋通道的問題。其實(shí)很多時(shí)候是因?yàn)榭圩酉挡缓脽o所謂,他不知道應(yīng)該把扣子系好,或者說扣子系不好就沒有批評他。就是他的學(xué)習(xí)能力強(qiáng)了,我感覺有一個(gè)很重要的問題,他無時(shí)無刻都有新的數(shù)據(jù)接觸,這些數(shù)據(jù)是沒有l(wèi)abel的,但是有compact,所以他對compact感知形成了一種感知能力的時(shí)候,他有這個(gè)信號(hào)了,然后他就可以把整個(gè)的學(xué)習(xí)流程,加上好的結(jié)構(gòu),然后貫穿起來。小的時(shí)候是因?yàn)檫@個(gè)信號(hào)就很簡單,打一下疼了,餓了就叫,這是非常簡單的。當(dāng)這個(gè)compact越來越豐富,而且當(dāng)他越來越能理解這個(gè)compact以后,他的學(xué)習(xí)能力才能體現(xiàn)出來,我感覺這也是對外部認(rèn)知反饋信號(hào)的能力。

李航:這個(gè)我同意。小腦最基本的能力都像是監(jiān)督學(xué)習(xí)(supervised learning),而大腦和其他海馬體還不太一樣。小腦的話,比如小的時(shí)候?qū)W游泳,學(xué)騎自行車,通過大量的訓(xùn)練,后面有一定的能力積累之后,這些動(dòng)作都是一樣的,還包括走路。在這個(gè)環(huán)境里面,就像俞凱老師現(xiàn)在說的,你有一些反饋,然后你會(huì)根據(jù)reward去調(diào)整,以組合的方式去學(xué)習(xí)。

山世光:這好像也不不僅僅是小腦,剛開始學(xué)一加一等于二這個(gè)基礎(chǔ)的時(shí)候也不那么容易,當(dāng)然對于我們來說非常非常容易,但是他開始的時(shí)候其實(shí)不是那么容易,不過到了一定時(shí)間之后就會(huì)很快。

李航:反正也有相似的地方吧,我也同意,好像不太完全一樣。這樣形容比較好,我感覺學(xué)動(dòng)作這樣的東西,和學(xué)知識(shí)性的東西(數(shù)學(xué)、語言),仔細(xì)觀察的話也不太一樣。

現(xiàn)場Q&A

問:剛才俞凱老師提到的閉環(huán)學(xué)習(xí),像生成式對抗網(wǎng)絡(luò)這種,雖然說它不需要很多標(biāo)注數(shù)據(jù),但是還是需要很多數(shù)據(jù)的。還有之前提到的one shot learning,它之所以能夠從一個(gè)樣本學(xué)出來,是因?yàn)樗枰芏嘟?jīng)驗(yàn)知識(shí)。所以我覺得所謂的這些小數(shù)據(jù)它還是需要很多大數(shù)據(jù)來給它提供經(jīng)驗(yàn)知識(shí)的,所以想聽聽四位老師的看法。

俞凱:我剛才在那個(gè)觀點(diǎn)里提了兩條,第一條是從開環(huán)學(xué)習(xí)到閉環(huán)學(xué)習(xí),第二條就是從數(shù)據(jù)驅(qū)動(dòng)到知識(shí)和數(shù)據(jù)雙驅(qū)動(dòng),恰好就把這兩條都說了。我覺得這里面有一個(gè)關(guān)鍵點(diǎn),就是無標(biāo)注的數(shù)據(jù)和有標(biāo)注的數(shù)據(jù)是有本質(zhì)區(qū)別的。因?yàn)闊o標(biāo)注的數(shù)據(jù)你可以認(rèn)為它的獲取是沒有cost的,就像一個(gè)人的成長一樣,你只要在社會(huì)里面,在現(xiàn)實(shí)世界里面,你就會(huì)接收到這些數(shù)據(jù),所以這件事可以認(rèn)為是沒有cost的。如果說可以使用比較無標(biāo)注的數(shù)據(jù),通過閉環(huán)的辦法,使得無標(biāo)注數(shù)據(jù)的內(nèi)部結(jié)構(gòu)可以被發(fā)現(xiàn),這件事本身就是一個(gè)非常大的進(jìn)步,你可以認(rèn)為它是不需要數(shù)據(jù)的,我一般指的是不需要有標(biāo)注的數(shù)據(jù),我認(rèn)為這個(gè)至少在現(xiàn)階段是一個(gè)可以被認(rèn)可的點(diǎn)。

第二個(gè)事情就是one shot learning問題。實(shí)際上就是像人學(xué)習(xí)一樣,當(dāng)我們說人能夠?qū)W的很厲害,不單單意味著人這個(gè)個(gè)體有學(xué)習(xí)能力,還意味著你也上學(xué)。如果你不上學(xué),沒有知識(shí)的積累,也沒有辦法變的很厲害。所以當(dāng)你說需要這些經(jīng)驗(yàn)知識(shí)的時(shí)候,我覺得這個(gè)不能說需要大數(shù)據(jù),那個(gè)東西不是一般意義上的數(shù)據(jù),更多的是某種模型結(jié)構(gòu)的積累,就是剛才前面提到的有監(jiān)督的、非監(jiān)督的,參數(shù)、非參數(shù)的,非參數(shù)那部分就有可能是尋址,他去尋你的memory里面的址,那個(gè)memory是人類的記憶,這種記憶是結(jié)構(gòu)化的記憶。所以這個(gè)東西是經(jīng)過人類多年的積累已經(jīng)現(xiàn)存的東西,它不是一個(gè)需要重新獲取的東西。我的觀點(diǎn)就是會(huì)有這個(gè)范式的變化,但是這兩個(gè)模式都是未來很重要的模式。

顏水成:人的學(xué)習(xí)并不是start from scratch,其實(shí)從父母的基因那你已經(jīng)繼承了很多有用的信息過來了,那個(gè)也是通過大數(shù)據(jù)積累起來的東西。至于one shot learning,其實(shí)人有一個(gè)能力就是,新的class(類別)出現(xiàn)之后,就可以很快對這個(gè)新的concept(概念)建立一個(gè)模型出來。早期的時(shí)候有人做了一些研究,就是說你假設(shè)有了一個(gè)一千類的模型,現(xiàn)在又有了一個(gè)新的類,但是我給你的數(shù)據(jù)就是三四張圖片,那你怎么樣可以把這個(gè)一千類模型adapt成一個(gè)一千零一類的模型。此前有人做過相關(guān)的研究,但是后來這塊基本確實(shí)沒有人來做了,但是我覺得這個(gè)方向其實(shí)還是有一定的學(xué)術(shù)價(jià)值的。

李航:關(guān)于人的基因里面語言學(xué)習(xí)的能力,有很多的研究,有一個(gè)很有名的例子,就是觀察小孩如何學(xué)習(xí)英語動(dòng)詞的過去時(shí)態(tài)。研究發(fā)現(xiàn),小孩在以開始的時(shí)候是基于實(shí)例來學(xué)的,如果你說“Daddy came home”,然后他就會(huì)說“Daddy came home”,也沒有g(shù)eneralize,過了一段時(shí)間他發(fā)現(xiàn)這個(gè)動(dòng)詞的過去時(shí)都會(huì)加ED,小孩就會(huì)困惑,有一段時(shí)間既會(huì)說“Daddy came home”,又會(huì)說“Daddy comed home”,就會(huì)出錯(cuò)。再過一段時(shí)間,就真正學(xué)會(huì)了過去式有特殊的變化形式。他會(huì)準(zhǔn)確的說“Daddy came home”,同時(shí)也知道別的動(dòng)詞是加“ed”。從這個(gè)例子可以看出來,人在語言學(xué)習(xí)的過程中,有g(shù)eneralization的能力,但是開始的時(shí)候就是基于instance,比如你說“came”,他就記住“came”,后來他就會(huì)嘗試有保守的去做generalization,有時(shí)候還會(huì)做over-generalization,但是又會(huì)做簡單的調(diào)整,最后能夠正確的把這些區(qū)分的比較好。還有很多其他的例子,這說明人還是有先天的能力的,否則很難解釋怎么那么快學(xué)到這些東西,但是這個(gè)現(xiàn)象還是非常復(fù)雜的。


當(dāng)前題目:四位頂級AI大??v論:深度學(xué)習(xí)和大數(shù)據(jù)結(jié)合的紅利還能持續(xù)多
瀏覽地址:http://weahome.cn/article/soccdj.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部