10 月 31 日,由北京智源人工智能研究院主辦的 2019 北京智源大會(huì)在國(guó)家會(huì)議中心開幕,本次大會(huì)圍繞人工智能基礎(chǔ)研究現(xiàn)狀及面臨的機(jī)遇和挑戰(zhàn)、人工智能技術(shù)未來(lái)發(fā)展的核心方向等話題,回歸 AI 技術(shù)本身,開展深入研討,探索人工智能前沿科技發(fā)展趨勢(shì)。
專注于為中小企業(yè)提供成都網(wǎng)站設(shè)計(jì)、網(wǎng)站建設(shè)服務(wù),電腦端+手機(jī)端+微信端的三站合一,更高效的管理,為中小企業(yè)黔西南州免費(fèi)做網(wǎng)站提供優(yōu)質(zhì)的服務(wù)。我們立足成都,凝聚了一批互聯(lián)網(wǎng)行業(yè)人才,有力地推動(dòng)了上千企業(yè)的穩(wěn)健成長(zhǎng),幫助中小企業(yè)通過(guò)網(wǎng)站建設(shè)實(shí)現(xiàn)規(guī)模擴(kuò)充和轉(zhuǎn)變。在第一天的主論壇上,美國(guó)加州大學(xué)洛杉磯分校的朱松純教授帶來(lái)了《走向通用人工智能:從大數(shù)據(jù)到大任務(wù)》的主題演講,并提出了任務(wù)是智能中心的觀點(diǎn)。
以下是朱松純演講內(nèi)容實(shí)錄,AI科技大本營(yíng)(ID:rgznai100)整理:
關(guān)于通用人工智能,每個(gè)人都有自己的想法,有人認(rèn)為不可能,有人認(rèn)為馬上就要到來(lái),而且會(huì)很可怕。不管哪一種觀點(diǎn),我們都要扎扎實(shí)實(shí)地去研究問題,今天我給大家分享一個(gè)從大數(shù)據(jù)到大任務(wù)的思路。
第一,人工智能的兩種范式之爭(zhēng):大數(shù)據(jù)VS 大任務(wù);第二,智能的中心核心是任務(wù),每時(shí)每刻都被各種各樣的任務(wù)驅(qū)動(dòng);第三,如何通過(guò)構(gòu)建一個(gè)大任務(wù)的平臺(tái),來(lái)研究通用人工智能。
首先是兩個(gè)范式之爭(zhēng)。如果你問大部分人工智能的研究者,他們會(huì)告訴你AI = B+C+D,也就是人工智能等于大數(shù)據(jù)加上算力加上深度學(xué)習(xí),這是被普遍接受的觀點(diǎn),但是我一直在反對(duì)這個(gè)觀點(diǎn)。幾年前我反對(duì)把深度學(xué)習(xí)作為人工智能之解時(shí),很多人還很不滿,但是今天很多人已經(jīng)同意這個(gè)觀點(diǎn)了。
目前以大數(shù)據(jù)驅(qū)動(dòng)的人工智能,在產(chǎn)業(yè)落地的過(guò)程中遇到了很多問題,這個(gè)問題其實(shí)一早就可以預(yù)想到。比如只能做特定的、人類事先定義的任務(wù),而不能做通用任務(wù),或者自己定義任務(wù)。第二,每項(xiàng)任務(wù)需要大量的數(shù)據(jù),成本非常高,而且模型不具有解釋性,知識(shí)表達(dá)與人不同。
其實(shí)我們是最早做大數(shù)據(jù)的一個(gè)團(tuán)隊(duì)。2005年,我們帶領(lǐng)了一批國(guó)際學(xué)者,包括后來(lái)在斯坦福標(biāo)注 ImageNet 的人,以及后來(lái)的 MIT 實(shí)驗(yàn)室主任等,在中國(guó)湖北蓮花 山標(biāo)數(shù)據(jù)。當(dāng)時(shí)大數(shù)據(jù)剛剛興起,我們雄心勃勃地想標(biāo)數(shù)據(jù),制定了200 多頁(yè)的數(shù)據(jù)標(biāo)注手冊(cè),包括蓮花如何分解,花蕊、花瓣以及生活環(huán)境等。
標(biāo)了幾年之后,我發(fā)現(xiàn)這里面有問題。一些學(xué)生剛開始問我如何標(biāo)注時(shí),我還能回答,但是后來(lái)我就答不出來(lái)了。于是我發(fā)現(xiàn)這條路走不通,所以2009 年左右,我就轉(zhuǎn)型去做認(rèn)知科學(xué)。
我之前寫過(guò)一篇文章,介紹了兩種人工智能的模式。
一種稱之為“鸚鵡范式”,鸚鵡可以與人類對(duì)話,但是不理解你在說(shuō)什么。比如你說(shuō)林黛玉,它也說(shuō)林黛玉,但是它并不知道林黛玉是什么。
還有一種是“烏鴉范式”。烏鴉找到核桃之后,會(huì)把核桃扔在路上,讓車去壓,壓碎了再吃。但是因?yàn)槁飞宪囂酁貘f吃不到核桃,于是烏鴉把核桃扔到斑馬線上,因?yàn)檫@里有紅綠燈,綠燈亮?xí)r車都停住了,它就可以去吃。這個(gè)例子是非常驚人的,因?yàn)闉貘f既沒有大數(shù)據(jù),也沒有監(jiān)督學(xué)習(xí),卻完全可以自主地研究其中的因果關(guān)系,然后利用資源完成任務(wù),而且功耗非常小,小于 1瓦,這給了我們很大的啟發(fā)。
但是烏鴉能做到的不僅是這些,它們還知道如何利用工具,我相信直到今天,很多機(jī)器人的規(guī)劃能力都遠(yuǎn)達(dá)不到烏鴉對(duì)物理的理解。
假設(shè)我們要定義一個(gè)人工智能系統(tǒng),我可以認(rèn)為任何一個(gè)動(dòng)物、機(jī)器都是 AI 系統(tǒng),它往往決定了三個(gè)要素:第一是構(gòu)架,你的腦袋里缺一塊,就永遠(yuǎn)進(jìn)化不到一個(gè)層次,人的智能90% 多都是天生的;第二是環(huán)境數(shù)據(jù);第三是任務(wù)。
第一種層次的解法是用大數(shù)據(jù)給一個(gè)任務(wù),比如人臉識(shí)別。給一個(gè)構(gòu)架,比如深度學(xué)習(xí)有多少層,這就是目前通用的大數(shù)據(jù)系統(tǒng)。我認(rèn)為人類走了另外一條路,就是有很小量的數(shù)據(jù),但是有很大量的任務(wù),不過(guò)人類有很高級(jí)的構(gòu)架,這就成了另外一個(gè)系統(tǒng)。
舉個(gè)例子,怎么教計(jì)算機(jī)學(xué)會(huì)識(shí)別椅子?用大數(shù)據(jù)的辦法很簡(jiǎn)單,也非常暴力。就是搜索大量的例子,用人工標(biāo)注。你需要搜集各種材質(zhì)、各種攝像頭角度的椅子,窮舉后拿去訓(xùn)練,訓(xùn)練之后系統(tǒng)記住這些特征。但是藝術(shù)家總是設(shè)計(jì)新的椅子出來(lái),總是有特例,機(jī)器總是搞不清楚,所以不可泛化,不可解釋什么是椅子,這就是它的核心問題所在。在自動(dòng)駕駛、視頻監(jiān)控等領(lǐng)域都存在這樣的問題,即不能窮舉所有的例子。
第二種層次的解法是什么呢?假設(shè)我們要理解椅子,定義什么是椅子。首先獲得人的經(jīng)典坐姿,之后用坐姿擬合圖像,各種位置、各種朝向、各種姿態(tài)的坐姿,能夠坐舒服的就是椅子,這就是一個(gè)任務(wù)。
椅子變成了一個(gè)任務(wù)的等價(jià)類,不管什么物體能夠坐,坐得舒服的就是椅子。這代表了一種想象,我要想象這把椅子怎么坐,這和深度學(xué)習(xí)不同:regression是統(tǒng)計(jì),拿特征去擬合,simulation 是用我的身體去想象,這是兩者根本的區(qū)別。
第三個(gè)層次,什么是坐得舒服?首先這個(gè)椅子要坐得穩(wěn),物理穩(wěn)定是神經(jīng)系統(tǒng)里非常敏感的感知。
我做了一個(gè)簡(jiǎn)單的實(shí)驗(yàn),把各種各樣的椅子放在辦公室和實(shí)驗(yàn)室里,看學(xué)生進(jìn)來(lái)時(shí)先坐哪兒、后坐哪兒,這時(shí)人會(huì)有一個(gè)偏好。
另外一件我們感同身受的事是,我們可以感覺這個(gè)人是如何用力,如何受力的,這都可以映射,這是人類非常強(qiáng)的能力。映射過(guò)來(lái)之后,我就知道你如何坐得舒服,從中學(xué)到你的價(jià)值觀。
理解這點(diǎn)之后,就不需要任何數(shù)據(jù)了。我知道椅子是為了讓人坐得舒服,從根本出發(fā),我根本不需要數(shù)據(jù)。這就是我說(shuō)的小數(shù)據(jù)、大任務(wù)。
以任務(wù)為中心的智能是大家經(jīng)過(guò)漫長(zhǎng)的時(shí)間之后才體會(huì)到的。
第一層的表達(dá)是以圖像為中心。我們看到了一張圖像,然后以圖像為中心抽取各種特征,理解各個(gè)部件。第二層變成了以場(chǎng)景和物體為中心,即幾何表達(dá)。
第一層是深度學(xué)習(xí),即把圖像看成圖像,沒有幾何、物理和功能的理解。第二層開始以三維的幾何來(lái)表達(dá)場(chǎng)景,比如三維場(chǎng)景的桌子、椅子等。
最后,我認(rèn)為真正的表達(dá)是以任務(wù)為中心的 task-centered representation,因?yàn)槲覀兿扔腥蝿?wù),才有世界上各種各樣的物體,這些物體都是被設(shè)計(jì)出來(lái)是為了滿足人的需求和完成某種任務(wù)。以任務(wù)為中心的表達(dá),比如功能、因果、價(jià)值觀、物理、社會(huì)常識(shí),我們統(tǒng)稱為physical and social common sense,這些常識(shí)是小孩在 18 個(gè)月之前獲取的。
什么是以任務(wù)為中心的表達(dá)?我們考慮世界不是從某個(gè)物體類別的角度出發(fā)。比如開酒瓶,并不是只有開瓶器能開酒瓶,任何東西都能開酒瓶,砸核桃也隱藏著一個(gè)物理原理。我們知道物理原理之后,并不需要固定的東西開酒瓶,只要能完成開酒瓶任務(wù)都可以。我認(rèn)為這種就是通用的人工智能。
這個(gè)問題怎么解?最近的研究發(fā)現(xiàn),人腦里大部分的知識(shí)表達(dá)并不是按照物理的類別來(lái)組織的,比如椅子是一類,桌子是一類,車子是一類,而是按照如何使用它們來(lái)組織,大概可以分成兩個(gè)尺度:身體的尺度和手的尺度。
其實(shí)這一點(diǎn)不新鮮,因?yàn)槲覀儩h字中超過(guò) 1/3 的漢字都是與人有關(guān)的偏旁部首。我們之所以發(fā)明漢字,是因?yàn)闈h字里有一些任務(wù),任務(wù)就是要把人放進(jìn)去,一起來(lái)考慮,比如手、腳、耳朵、身體等。
還是以砸核桃為例,烏鴉用車輪碾核桃,如果在一個(gè)新的環(huán)境中,工具被拿走,但是你還是能完成砸核桃的任務(wù),這是小學(xué)教育很重要的事情,就是教會(huì)你具有基本的常識(shí)。
砸核桃雖然只有一個(gè)例子,但是人要從上萬(wàn)個(gè)選擇中選擇一個(gè)方案,在這個(gè)過(guò)程中有大量的simulation。我看到了核桃和幾種工具,大腦會(huì)快速地想怎么做,可能你的大腦出現(xiàn)了上萬(wàn)種選擇迅速。這是大量計(jì)算的過(guò)程,但不是深度學(xué)習(xí)的計(jì)算,而是一種 simulation 的計(jì)算。
還有時(shí)空因果的推理,現(xiàn)在這種情況要達(dá)到各種各樣的目標(biāo),中間有各種各樣的動(dòng)作,然后形成一個(gè)因果方程,在物理上統(tǒng)一。
另外一點(diǎn)是 Causal Learning 和 Reinforcement Learing。RL現(xiàn)在也非常火,但是據(jù)神經(jīng)科學(xué)研究者稱,RL 是老鼠這類的低等動(dòng)物用的,要用大量的例子反復(fù)實(shí)驗(yàn)。而人使用的是因果學(xué)習(xí),只需要有兩三個(gè)例子。
砸核桃的任務(wù)轉(zhuǎn)換到機(jī)器人不能只是簡(jiǎn)單的轉(zhuǎn)換,必須是一個(gè)物理因果的等價(jià),要推理物理的功能。
這是一個(gè)從一兩個(gè)例子中學(xué)習(xí)的過(guò)程。一個(gè)比較聰明的人可以從幾個(gè)簡(jiǎn)單的選擇里就悟出坐椅子的價(jià)值觀,從一個(gè)簡(jiǎn)單的砸核桃的動(dòng)作悟出本質(zhì)。一旦悟出來(lái)還要數(shù)據(jù)做什么呢?所以,這是一個(gè)核心問題。
以鏟土為例,如果讓你用工具鏟土,你就會(huì)想象如何去鏟。如果沒有工具,用家里的工具同樣你也能鏟土。經(jīng)過(guò)自動(dòng)計(jì)算,機(jī)器的第一個(gè)選擇是鍋,第二個(gè)選擇是杯子。
當(dāng)人類或猿人走過(guò)石器時(shí)代時(shí),神經(jīng)系統(tǒng)已經(jīng)學(xué)習(xí)了工具和物理知識(shí),他理解的是本質(zhì)。
現(xiàn)在回到如何定義任務(wù)?圖像有多少個(gè)像素可以很清楚地定義,但是任務(wù)如何定義呢?定義任務(wù)是以符合因果的方式,改變場(chǎng)景中的流態(tài)?!傲鲬B(tài)”是牛頓發(fā)明的一個(gè)詞,包括時(shí)變的物理狀態(tài)、內(nèi)心狀態(tài)、社會(huì)關(guān)系等,可以簡(jiǎn)單分類為物理流態(tài)和社會(huì)流態(tài)。
如果定義了這些原子的任務(wù)空間(atomic space),就可以組合產(chǎn)生復(fù)合的數(shù)學(xué)空間,這就是任務(wù)。這個(gè)事情說(shuō)清楚,人工智能的問題就解決了一大半。
目前人工智能之所以遇到了很大的困難,是因?yàn)榇蠹艺f(shuō)不清楚到底要做什么任務(wù)。任務(wù)定義不清楚,是很多產(chǎn)品賣不出去,或者賣出去后被投訴的原因。比如掃地機(jī)器人產(chǎn)品定義不清楚應(yīng)該吸和不該吸的東西有哪些,給機(jī)器的任務(wù)本身就沒有清晰的定義。監(jiān)控也一樣,到底什么人該抓,什么人不該抓,或者什么樣的環(huán)境都無(wú)法準(zhǔn)確定義。
前面談到了一些基本的物理任務(wù)和常識(shí),物理常識(shí)是目前人工智能面臨的主要障礙。比如自然語(yǔ)言理解,自然語(yǔ)言最多也是符號(hào)對(duì)符號(hào),比如什么叫“玩水”,如果沒有三維數(shù)據(jù)的體驗(yàn),沒有物理常識(shí),其實(shí)很難搞懂這個(gè)詞的含義,所以物理常識(shí)是關(guān)鍵。
中國(guó)有一則寓言故事“盲人辨日”。一個(gè)從未見過(guò)太陽(yáng)的盲人,無(wú)法解釋什么是太陽(yáng),這就是自然語(yǔ)言的尷尬。自然語(yǔ)言必須和認(rèn)知科學(xué)、計(jì)算機(jī)視覺、機(jī)器人聯(lián)系在一起,否則沒法研究清楚,這是我的觀點(diǎn)。
另外一種智能是社會(huì)的常識(shí)和任務(wù)。人類幼兒 12 個(gè)月之后開始指東西,他認(rèn)識(shí)一個(gè)東西,但認(rèn)為你不知道,所以他指給你看,這是一種非常強(qiáng)的智能。要實(shí)現(xiàn)這種智能,首先要有視角的轉(zhuǎn)換,即推理他人所見所想,這是智能基本的東西。人類在對(duì)話時(shí)要有context,要知道上下文是什么,共同知道哪些東西。
一個(gè)人從第三視角看,是他真正看到的東西。然后我們從第三人稱想他看到了什么,這是計(jì)算機(jī)推理,相當(dāng)于我大概知道你在看什么,你突然問我問題時(shí)我就知道如何回答。這其中還有我們達(dá)成的共識(shí),我知道你知道,你也知道我知道,這樣才形成了一個(gè)共同的任務(wù)。
人的認(rèn)知構(gòu)架是什么?要形成對(duì)話,對(duì)話和語(yǔ)言是很重要的問題。每個(gè)客觀的世界用一個(gè)圓圈表示,其中每一個(gè)點(diǎn)都代表一個(gè)狀態(tài)。紅色是我腦中所想,藍(lán)色是機(jī)器人看到的。
首先,機(jī)器人看到的是不完整、不確定的世界,人類看到的是共享的世界,因?yàn)榭磫栴}的角度一樣。我們彼此從對(duì)方的角度看問題,雙方互相了解對(duì)方看到的東西。有了共同的東西,才能建立模型。
決策函數(shù),即我知道你在這種狀態(tài)下應(yīng)該如何做,我應(yīng)該如何做。價(jià)值函數(shù),即我大概知道你應(yīng)該怎么做,以及我認(rèn)為你會(huì)怎么做,以及你認(rèn)為我怎么做,有共同的情境和知識(shí),就會(huì)有共同的價(jià)值觀。最后通過(guò)交流的過(guò)程,我們達(dá)成了共識(shí)。
Christopher Manning 講到人和人之間的通信只有 10 個(gè) bit,很慢,跟 5G 相比差太遠(yuǎn)了,但是通信很快,為什么?就是因?yàn)槲覀冇羞@些東西。
我總結(jié)一下 AI 的烏鴉模式。
用少量的例子,但是有功能、因果、價(jià)值觀等以后,就可以舉一反百,從初心出發(fā)來(lái)理解這個(gè)世界。我稱之為 智能暗物質(zhì)。你看見了這把椅子,想象身體如何去坐,這叫做暗物質(zhì)。其中95%都是認(rèn)知推理,只有把這 95% 搞定了,才能去理解剩下的 5%,否則就只能窮舉所有的情況。
這是一個(gè)簡(jiǎn)單的演示,機(jī)器人如何與人類進(jìn)行交互。機(jī)器人看到人進(jìn)來(lái)了以后,它要理解人的意圖,知道意圖之后可以幫人打開冰箱,知道要把食物放到冰箱里。在整個(gè)過(guò)程中不僅有語(yǔ)言的交流,還有動(dòng)作、表情的交流,使得雙方能夠達(dá)成一個(gè)共識(shí),即猜測(cè)你的意圖是什么,這是一個(gè)基本的方式。
這是我們剛做出來(lái)的桌面機(jī)器人,它能夠進(jìn)行三維場(chǎng)景的重建。三維場(chǎng)景重建可以使用一些基本的計(jì)算機(jī)視覺方法。然后想象在這個(gè)場(chǎng)景中人能夠做什么,才能定義家具的用處。
這其中包括 top-down 的 inference,但永遠(yuǎn)無(wú)法識(shí)別小物體,必須要通過(guò)場(chǎng)景 context。這是一個(gè)非常致命的問題,現(xiàn)在所有的深度學(xué)習(xí)都沒有 top-down,只有 bottom-up。
這時(shí)我們要做一個(gè)統(tǒng)一的系統(tǒng),融通六大領(lǐng)域,即計(jì)算機(jī)視覺、認(rèn)知科學(xué)、語(yǔ)言對(duì)話、機(jī)器學(xué)習(xí)、機(jī)器人學(xué)習(xí)等,融合了才能有一個(gè)像樣的計(jì)算機(jī)系統(tǒng)。
如何構(gòu)建大任務(wù)呢?我的目標(biāo)是,在一個(gè)系統(tǒng)中訓(xùn)練出一只具有通用人工智能的“烏鴉”,這是一個(gè)核心問題。
當(dāng)然,只在一個(gè)物理場(chǎng)景中訓(xùn)練是不夠的。第一步要根據(jù)人的需求,生成大量的數(shù)據(jù)庫(kù)中的三維物體。這是生成的各種例子,生成以后可以在各種環(huán)境中測(cè)試?,F(xiàn)在做的大數(shù)據(jù)擬合,大家都可以測(cè)試,這是其中一種玩法。
我的玩法不同,智能系統(tǒng)來(lái)了以后,我用一個(gè)全新的系統(tǒng)給你看,看你能不能完成各種各樣的任務(wù),而不是事先規(guī)定的任務(wù)。
在這個(gè)系統(tǒng)里面必須要做物理逼真的東西,比如可以倒酒、倒水、擠牙膏、玩沙子、玩水,這是非常費(fèi)勁的,我們已經(jīng)做了好多年。
先定義基本的任務(wù),人可以接進(jìn)去,機(jī)器可以接進(jìn)去,然后可以身臨其境地共同完成任務(wù)。
我們做了一個(gè)手套,它可以精細(xì)化地記錄一些感知和運(yùn)動(dòng)行為。我進(jìn)入了以后就知道有一些基本的操作,就是Learing from demonstration。
這是一個(gè)虛擬的機(jī)器人智能體,讓它完成鮮榨果汁。比如說(shuō)它要先找橘子,然后把橘子切了,再到榨果汁的地方去壓,它要有訓(xùn)練的過(guò)程。比如做飯、做面條,這都是非常大的任務(wù)。一般的日常生活中,你們看不起的東西越難。
人可以在里面與機(jī)器進(jìn)行交互,也就是人機(jī)協(xié)作完成一件事情。
最后人也可以教機(jī)器人,比如說(shuō)這個(gè)男的演示怎么砸核桃,這個(gè)動(dòng)作背后其實(shí)有很大的工程量。
機(jī)器人會(huì)去想,怎樣在一個(gè)新環(huán)境下完成砸核桃,整個(gè)推理的過(guò)程都可以在這個(gè)地方完成。
最重要的事情,我可以隨時(shí)把機(jī)器叫停,然后問它,你現(xiàn)在知道什么,你知道我在干什么,或者叫它解釋,打算做什么,為什么要做,這就是Explainable AI。
智能體的核心就是把自然語(yǔ)言對(duì)話、計(jì)算機(jī)視覺、機(jī)器人等結(jié)合在一起,就像教小孩一樣,怎么樣用小數(shù)據(jù)教會(huì)他。
第一,“大數(shù)據(jù)”對(duì)“大任務(wù)”兩種范式之爭(zhēng),99%的人都是押注大數(shù)據(jù),但是10年前我就押注大任務(wù)。
第二,我認(rèn)為任務(wù)是智能中心。我們有task-orientated操作系統(tǒng)、編程語(yǔ)言和體系結(jié)構(gòu)。
第三,如何構(gòu)建大任務(wù)的平臺(tái)。我要能在里面訓(xùn)練出“烏鴉”,通過(guò)自主的任務(wù)去驅(qū)動(dòng)它。這里面有很多數(shù)學(xué)問題、理論問題和工程問題要解決,中美必須合作來(lái)解決這個(gè)問題。
https://www.toutiao.com/i6754302467501982212/