現(xiàn)在,我們已經(jīng)習(xí)慣了全球各類頂級(jí)學(xué)術(shù)會(huì)議上的中國(guó)力量。
創(chuàng)新互聯(lián)堅(jiān)持“要么做到,要么別承諾”的工作理念,服務(wù)領(lǐng)域包括:成都網(wǎng)站建設(shè)、成都做網(wǎng)站、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣等服務(wù),滿足客戶于互聯(lián)網(wǎng)時(shí)代的廉江網(wǎng)站設(shè)計(jì)、移動(dòng)媒體設(shè)計(jì)的需求,幫助企業(yè)找到有效的互聯(lián)網(wǎng)解決方案。努力成為您成熟可靠的網(wǎng)絡(luò)建設(shè)合作伙伴!從論文入選,到參會(huì)面孔,抑或贊助企業(yè),中國(guó)代表幾乎無(wú)處不在。
前不久剛落幕的 ACL 2020 也不例外。作為 NLP 領(lǐng)域最負(fù)盛名的國(guó)際頂會(huì),今年雖在線上,但論文投稿數(shù)錄用率方面,中國(guó)依然勢(shì)頭兇猛,投稿數(shù) 1084 篇領(lǐng)跑,錄用率 23.7%,僅次于美國(guó)。
在入圍論文中,除了華人參與的研究斬獲論文,王海峰、周明、俞棟、劉挺等知名大牛的名字,也依然出現(xiàn)在多篇成果中。
這幾乎已經(jīng)成為了常態(tài)。
那一眾科學(xué)家的努力,整整一代人的水滴石穿,是時(shí)候要被管中窺豹地講一講,是時(shí)候要讓更多后浪記得,前浪改變時(shí)代的勇氣和不易。
2010-2020,十年,一個(gè)時(shí)代。
也是中國(guó) NLP,完成「破圈」,披荊斬棘的光輝歲月。
起于微時(shí),十年磨一劍
2010 年 7 月 11 日,烏普薩拉,北歐國(guó)度瑞典的第四大城市,第 48 屆 ACL 在此召開(kāi)。
ACL,全稱 The Association for Computational Linguistics,國(guó)際計(jì)算語(yǔ)言學(xué)會(huì),是自然語(yǔ)言處理領(lǐng)域最權(quán)威的國(guó)際學(xué)術(shù)組織之一。
創(chuàng)辦近半個(gè)世紀(jì),會(huì)員分布世界 60 多個(gè)國(guó)家和地區(qū),吸引著全世界希望征服 AI 皇冠明珠的代代科學(xué)家。
但 2010 年現(xiàn)場(chǎng),第一次參加 ACL 的百度工程師田浩的直觀印象可以一言以蔽之:
會(huì)議上的中國(guó)人不多。
而且這種個(gè)體印象,也的確是真實(shí)現(xiàn)狀的客觀反映。
因?yàn)楝F(xiàn)在回顧起來(lái),2010 年的 ACL,才第一次真正迎來(lái)中國(guó)科技公司參加。
那時(shí)候,從第一封電子郵件的發(fā)送算起,中國(guó)互聯(lián)網(wǎng)的發(fā)展,已經(jīng)有了 23 年的沉淀。
但是!
即便中國(guó)已是世界上網(wǎng)民數(shù)量最多的國(guó)家,但在互聯(lián)網(wǎng)技術(shù)領(lǐng)域,中國(guó)卻更多地處于跟隨、模仿的狀態(tài),在最先進(jìn)的互聯(lián)網(wǎng)技術(shù)角逐中,中國(guó)互聯(lián)網(wǎng)企業(yè),聲音微弱。
在最早對(duì)前沿技術(shù)的追逐中,也不例外。
比如,被譽(yù)為人工智能皇冠上的明珠、AI 領(lǐng)域最具挑戰(zhàn)的賽道之一的自然語(yǔ)言處理(NLP),中國(guó)乃至華人科學(xué)家,也經(jīng)歷了上述過(guò)程。
從學(xué)術(shù)角度來(lái)說(shuō),雖然 1990 年代開(kāi)始,漢語(yǔ)和華人作者就已經(jīng)在 ACL 中出現(xiàn)。
但早期的相關(guān)學(xué)術(shù)成果,大多數(shù)是對(duì)漢語(yǔ)內(nèi)容的一種補(bǔ)充,缺乏在整體 NLP 領(lǐng)域中更具有突破性的成果。
同時(shí)由于起步相對(duì)晚,華人科學(xué)家們的學(xué)術(shù)成果累積也還不夠,更別提 霸榜 和 刷屏 。
這也就是為什么,2010 年的 ACL 現(xiàn)場(chǎng),中國(guó)面孔寥寥。
然而,歷史轉(zhuǎn)折關(guān)頭,也在 2010 發(fā)生。
這背后,與一家公司入場(chǎng)、一群科學(xué)家的星聚,密切相關(guān)。
群星薈聚,開(kāi)風(fēng)氣之先
2010 年,BAT 之首、把「技術(shù)信仰」寫(xiě)進(jìn)公司方方面面的百度,第一次把多方匯聚而來(lái)的科學(xué)家,送到了 ACL 現(xiàn)場(chǎng)。
創(chuàng)辦歷史超過(guò)半個(gè)世紀(jì)的 ACL,第一次迎來(lái)中國(guó)互聯(lián)網(wǎng)企業(yè)代表。
而且這個(gè)代表,沒(méi)有 空手而來(lái) 。
王海峰和吳華,帶著他們?nèi)脒x的論文而來(lái)。
這是中國(guó)互聯(lián)網(wǎng)企業(yè)首次論文入選 ACL。
這樣的榮譽(yù),既是對(duì)最新研究成果的認(rèn)可,也是對(duì)中國(guó)公司的激勵(lì)。
同年,百度 NLP——作為一個(gè)部門(mén),由王海峰牽頭,正式成立。
△2010 年,百度 NLP 團(tuán)隊(duì)合影
其實(shí)在專門(mén)的部門(mén)成立之前,百度在 NLP 方面的研發(fā)工作一直在業(yè)務(wù)需求下進(jìn)行,并沒(méi)有構(gòu)成體系。
今天業(yè)務(wù)部門(mén)需要分詞技術(shù)的支持,研究人員就要進(jìn)行相關(guān)研究……明天業(yè)務(wù)部門(mén)發(fā)現(xiàn)query ( 查詢 ) 需求分析能力的改善能夠幫助流量提升,研究人員就會(huì)進(jìn)行相關(guān)優(yōu)化。
而成立 NLP 部門(mén),既是對(duì)這種 指哪打哪 狀態(tài)的扭轉(zhuǎn),更是對(duì)前沿技術(shù)攻堅(jiān)決心的堅(jiān)定。
NLP 能干什么?2010 年誰(shuí)也說(shuō)不準(zhǔn)。
但十年之后,智能搜索、信息流、輸入法、機(jī)器同傳、智能音箱等各種日常剛需又方便每一個(gè)用戶的產(chǎn)品,都將獲益于 NLP。
人才的創(chuàng)造力和影響力,也在這種 開(kāi)風(fēng)氣之先 中得到聚變。
如果說(shuō) 2010 年百度首發(fā)參與 ACL,背后離不開(kāi)王海峰、吳華等當(dāng)時(shí)已有成就的技術(shù)專家的個(gè)人之力。
那么其后,這些科學(xué)家進(jìn)一步達(dá)到的高度,則離不開(kāi) 巨人肩膀 的助推之功。
從 2011 年開(kāi)始,百度開(kāi)始成為 ACL 官方贊助者,向全球 NLP 科學(xué)家表達(dá)誠(chéng)意,也展示更加深度參與的決心。
其后 2013 年,王海峰當(dāng)選 ACL 主席,獲得一致認(rèn)可,成為 ACL 五十多年歷史上第一位華人主席(President)。
那年的 ACL,舉辦地在保加利亞首都索菲亞舉行,全球 1000 多名專家來(lái)到現(xiàn)場(chǎng)。
因?yàn)榘俣鹊膸?dòng),相比三年前,已經(jīng)有了更多的中國(guó)面孔。
而這一次,ACL 晚宴上的演講,令他們內(nèi)心激動(dòng)萬(wàn)分,多年后仍記憶猶新。
當(dāng)時(shí)王海峰以新任主席身份,發(fā)表了題為 Natural Language over Thousands of Years 的主題演講。
雖然全程英文,但完美講述了中國(guó)悠久燦爛的歷史文化和飛速發(fā)展的互聯(lián)網(wǎng)技術(shù),正在帶來(lái)的時(shí)代之美。
在他演講中,甲骨文、十二生肖、散氏盤(pán)、造紙、印刷、青玉案、蘭亭序、曲水流觴、玄奘、四庫(kù)全書(shū)、清明上河圖等等,漢語(yǔ)所承載的中華文明,如一幅美麗的畫(huà)卷徐徐展開(kāi)。
而自然語(yǔ)言跨越幾千年,自然語(yǔ)言處理技術(shù)與互聯(lián)網(wǎng)結(jié)合產(chǎn)生了迷人成果,支撐了搜索引擎、電子商務(wù)、社交媒體的迅速發(fā)展。
王海峰在現(xiàn)場(chǎng),以極富想象力的方式,展示了這些科技成果應(yīng)用在古代的畫(huà)面。
例如, 王羲之 利用互聯(lián)網(wǎng)組織世界各地的人進(jìn)行曲水流觴,生動(dòng)形象地展示了語(yǔ)言處理技術(shù)對(duì)人們生活產(chǎn)生的巨大影響力。
于是,這次歷史上 ACL 首位華人主席的致辭,也引發(fā)了歷史性反響,引起了眾多西方技術(shù)專家對(duì)中國(guó)文化的興趣。
在 NLP 領(lǐng)域鼎鼎大名的 Kenneth Church、Kevin Knight 等頂級(jí)專家,紛紛表示要去中國(guó)看看王海峰致辭中提到的文物古跡。
而中國(guó) NLPer 在 ACL 的精彩,也由此更上一層樓。
王海峰之后,2010 年與他一同亮相的另一位百度科學(xué)家——吳華,出任 2014 年 ACL 年會(huì)的程序委員會(huì)主席(Program co-Chair)。
需要說(shuō)明的是,在國(guó)際會(huì)議中,程序委員會(huì)主席承擔(dān)著最重要的學(xué)術(shù)職責(zé),代表著世界級(jí)的學(xué)術(shù)地位和影響力。
吳華的當(dāng)選,背后是圈內(nèi)同行對(duì)其學(xué)術(shù)成就的高度認(rèn)可,也體現(xiàn)了百度在自然語(yǔ)言處理領(lǐng)域的技術(shù)實(shí)力和影響力。
其后,2016 年,王海峰的另一位同事——百度高級(jí)技術(shù)總監(jiān)趙世奇當(dāng)選 ACL 秘書(shū)長(zhǎng),成為首位當(dāng)選 ACL 秘書(shū)長(zhǎng)的亞洲人。
同年年底,王海峰的多年相識(shí),同為哈工大畢業(yè)的微軟亞洲研究院副院長(zhǎng)周明當(dāng)選為 ACL 候任副主席,進(jìn)入 ACL 執(zhí)委會(huì)。
中國(guó) NLPer 的光芒和能力,終于在王海峰等打開(kāi)局面后,真正被全世界看到。
而且「破圈」的故事,到此還不算高潮。
上述這些帶領(lǐng)中國(guó) NLP 完成全球影響力「破圈」的中堅(jiān)科學(xué)家,也在思考另一件事情:
真正落地中國(guó)。
2018 年,借著亞太地區(qū)尤其是中國(guó)在 NLP 領(lǐng)域的研究力量和成果突飛猛進(jìn)的大背景。
國(guó)內(nèi) NLP 領(lǐng)域的學(xué)者們意識(shí)到,成立 ACL 亞太分會(huì)勢(shì)在必行。
于是,百度王海峰、趙世奇,MSRA 周明,以及其他有影響力的亞太學(xué)者一道,積極籌劃推動(dòng),向 ACL 執(zhí)委會(huì)清晰詳盡地說(shuō)明了成立亞太分會(huì)的必要性,以及對(duì)推動(dòng)亞太地區(qū) NLP 研究發(fā)展的重要價(jià)值。
最終獲得 ACL 執(zhí)委會(huì)的一致贊成—— ACL 亞太區(qū)分會(huì)(AACL)正式成立,并由王海峰出任 AACL 創(chuàng)始主席。
這對(duì)于整個(gè)中國(guó) NLP 來(lái)說(shuō),無(wú)疑又是一個(gè)歷史性的里程碑。
而且就在這些年中,中國(guó)的 NLP,也完成了人才和產(chǎn)業(yè)落地的全方位積蓄。
隨著百度 NLP 成立,大牛得以薈聚,王海峰、吳華等有了星聚基礎(chǔ)。
后來(lái)騰訊 AI 實(shí)驗(yàn)室的開(kāi)創(chuàng)者、華為諾亞方舟實(shí)驗(yàn)室的骨干、以及如今 AI 語(yǔ)音、語(yǔ)義理解、智能交互的一大批明星公司的創(chuàng)始人,也都先后聚集于此,讓百度 NLP 真正成為了中國(guó) NLP 領(lǐng)域的 黃埔軍校 。
聚是一團(tuán)火,散成滿天星。
或許在百度以王海峰牽頭成立 NLP 部門(mén)時(shí),積極參與 ACL,彼時(shí)也許更多出于企業(yè)的發(fā)展、技術(shù)的布局。
但十年之后回顧,中國(guó) NLP 完成國(guó)際化「破圈」的十年,背后正是百度 NLP 不懈奮斗十年。
而且客觀上,深刻影響并改變了中國(guó) NLP 的學(xué)術(shù)、人才和產(chǎn)業(yè)格局。
這是如今中國(guó) NLPer 閃耀 ACL,繞不過(guò)去的歷史注腳。
百川東入海,山高人為峰
當(dāng)然,2010-2020,中國(guó) NLP「破圈」的十年里,百度作為企業(yè)發(fā)揮了基石作用,而當(dāng)今的 CTO王海峰在其中的領(lǐng)軍作用,則不得不提。
他是 AI 學(xué)術(shù)領(lǐng)域的高山,也是智能產(chǎn)業(yè)領(lǐng)域中的明珠。
在升任百度 CTO 時(shí),李彥宏的全員內(nèi)部信,也清晰言明了他這一路的成績(jī):
為百度創(chuàng)建了自然語(yǔ)言處理部、互聯(lián)網(wǎng)數(shù)據(jù)研發(fā)部、推薦和個(gè)性化部、多媒體部、圖片搜索部、語(yǔ)音技術(shù)部等,作為執(zhí)行負(fù)責(zé)人協(xié)助創(chuàng)建了百度深度學(xué)習(xí)研究院。他還是自然語(yǔ)言處理領(lǐng)域最具影響力的國(guó)際學(xué)術(shù)組織 ACL 歷史上首位出任過(guò)主席的華 人,也是唯一來(lái)自中國(guó)大陸的 ACL 會(huì)士。
但既然這次感慨的是中國(guó) NLP 與 ACL 的十年,可能也需要更進(jìn)一步補(bǔ)充一些 歷史進(jìn)程中 的王海峰。
最核心的問(wèn)題只有一個(gè):王海峰為何能成為 ACL 首位華人主席?
或者拆解開(kāi)來(lái),ACL 為什么一直沒(méi)有華人主席?又為什么會(huì)在 2013 年出現(xiàn)一位華人主席?
這需要從兩方面說(shuō)起。
一方面,成為 ACL 主席需要什么。另一方面,王海峰做了什么。
從普通人的角度來(lái)看,出任 ACL 主席似乎是一種榮譽(yù)。實(shí)際上, ACL 主席并非是一個(gè)獎(jiǎng)勵(lì)性的名號(hào),而是一種切實(shí)的責(zé)任。
ACL 作為擁有數(shù)千名成員的國(guó)際學(xué)術(shù)組織,就像一所高校或一家企業(yè)一樣需要有 人進(jìn)行領(lǐng)導(dǎo)決策、制定目標(biāo)與方向,帶領(lǐng)整個(gè) NLP 領(lǐng)域繼續(xù)向前。
因此 ACL 主席評(píng)選取向需要從兩個(gè)方向參考,一個(gè)是科學(xué)家自身的學(xué)術(shù)貢獻(xiàn),另一個(gè)是科學(xué)家的組織能力。
其中科學(xué)家自身的學(xué)術(shù)貢獻(xiàn),最直觀的自然是是學(xué)術(shù)能力——發(fā)了幾篇論文、提出了哪些有突破性的想法等等。
但在國(guó)際頂會(huì)組織中眾望所歸,學(xué)術(shù)之外,還需要有 服務(wù)精神 。
所謂的 服務(wù)精神 是一個(gè)非常西方化的概念,意味著領(lǐng)導(dǎo)者不僅僅要有 責(zé)任感、能夠付出足夠的時(shí)間與精力去代表民意發(fā)聲,很多時(shí)候還要站在其他個(gè)體的角度去思考一些細(xì)節(jié)化的問(wèn)題。
同樣就職于百度并擔(dān)任著 ACL 秘書(shū)長(zhǎng)的趙世奇表示,服務(wù)于 ACL 這樣的學(xué)術(shù)組織需要分出一定的時(shí)間和精力,去關(guān)注如何幫助 ACL 向外發(fā)聲、吸引更多會(huì)員,同時(shí)也要從人類文明發(fā)展的角度關(guān)注學(xué)術(shù)平等,給予學(xué)術(shù)能力欠發(fā)達(dá)地區(qū)更多扶持。
這也是為什么 ACL 主席要采取一年一任的輪換制的原因,ACL 希望用這種方式,讓來(lái)自不同地區(qū)的科學(xué)家?guī)?lái)不同的視角。
至于科學(xué)家的組織能力,則要考量科學(xué)家能否承擔(dān)起學(xué)術(shù)活動(dòng)的組織任務(wù)。
這要求科學(xué)家除了醉心學(xué)術(shù)以外,還要有足夠的領(lǐng)導(dǎo)能力和社交能力,尤其是能夠與多個(gè)國(guó)家和地區(qū)的科學(xué)家進(jìn)行流暢的溝通。
如此,基本上就不難理解——為什么 ACL 之前一直沒(méi)能出現(xiàn)華人主席了。
之前也說(shuō)了,中國(guó) NLP 真正起步并不早,而且建立在缺乏國(guó)際交流條件的背景之下,此前的華人科學(xué)家自然也很難做到充分了解世界各地學(xué)術(shù)發(fā)展?fàn)顩r,更不容易建立自身對(duì)于組織管理的能力。
毫不夸張地說(shuō),在很長(zhǎng)一段時(shí)間里中國(guó) NLP 學(xué)術(shù)和 NLP 領(lǐng)域的科學(xué)家,與整個(gè)世界是相割裂的。
十幾年間,從與世隔絕到走到舞臺(tái)中央, 中國(guó) NLP 學(xué)術(shù)的奮斗過(guò)程幾乎帶了幾分史詩(shī)感。
《AI 已來(lái):讓中國(guó) AI 走向世界的王海峰》中提到,在王海峰的記憶中,2006 年可以算是一個(gè)分水嶺。
2005 年,ACL 在美國(guó)密歇根舉辦年會(huì)時(shí),國(guó)內(nèi)只有四位科學(xué)家前往,這四位中除了當(dāng)時(shí)來(lái)自東芝的王海峰和朱江外,還有兩個(gè)來(lái)自微軟亞洲研究院的熟悉面孔。
當(dāng)時(shí)這一隊(duì)來(lái)自中國(guó)的 珍稀動(dòng)物 ,大概只帶來(lái)了三篇被收錄的論文。
但到了 2006 年,ACL 在悉尼舉辦年會(huì)時(shí),來(lái)自中國(guó)的論文數(shù) 量大幅增長(zhǎng),光是王海峰的東芝組就投了五篇論文,并且五篇都被收錄了。
此后 ACL 中的中國(guó)聲音,就如同被按下了放大鍵,一路高歌向前,不斷加碼。
除了自身對(duì)于學(xué)術(shù)界的奉獻(xiàn)精神以外,王海峰也意識(shí)到了中國(guó)力量在 ACL 這樣的學(xué)術(shù)組織中地位的變化——中國(guó)的學(xué)術(shù)能力在崛起,可在學(xué)術(shù)影響力上卻稍遜一籌。
于是王海峰想到,自己競(jìng)選 ACL 主席,能夠在這 一方面進(jìn)行一些拉動(dòng),讓中國(guó) NLP 不僅僅擁有學(xué)術(shù)成果,還能在學(xué)術(shù)界擁有更多話語(yǔ)權(quán)和撬動(dòng)力。
根據(jù)《AI 已來(lái)》一書(shū)中的說(shuō)法,除了王海峰自身的成就和影響力,王海峰還將能夠當(dāng)選的原因歸結(jié)為兩方面:
一方面是中國(guó)科學(xué)家在 ACL 的參與越來(lái)越頻繁,隨著被收錄論文數(shù)量的增加,ACL 開(kāi)始對(duì)中國(guó)聲音加以重視。
另一方面是他在百度的任職,代表了 中國(guó)科技企業(yè) ,當(dāng)時(shí)整個(gè)世界開(kāi)始發(fā)覺(jué)中國(guó)科技企業(yè)所蘊(yùn)含的創(chuàng)新能量,開(kāi)始關(guān)注起中國(guó)科技企業(yè)。
最后,自然也與王海峰個(gè)人的勤奮密不可分。
后來(lái)成為王海峰第一個(gè)博士生的郭江,在 2010 年曾經(jīng)在百度 NLP 實(shí)習(xí)。
在他的印象里,那時(shí)的 NLP 非常小,只有二三十人, 王海峰就和團(tuán)隊(duì)里所有人一樣,坐在開(kāi)放區(qū)辦公,每天早早地來(lái)到公司,一整天都直直地挺著脊背。
一個(gè)幾十人的團(tuán)隊(duì),一位低調(diào)勤奮的領(lǐng)導(dǎo)。這樣的畫(huà)面怎么看都波瀾不壯闊,與 創(chuàng)新 機(jī)會(huì) 、 改變 這些關(guān)鍵詞都毫無(wú)關(guān)系。
可事實(shí)卻恰恰相反,在百度,后來(lái)世界上第一個(gè)互聯(lián)網(wǎng)神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng)、世界上大的知識(shí)圖譜、助力無(wú)數(shù)合作伙伴的百度大腦語(yǔ)言與知識(shí)開(kāi)放技術(shù)、小度機(jī)器人、大量科技企業(yè)爭(zhēng)相刷題競(jìng)爭(zhēng)的閱讀理解數(shù)據(jù)集 DuReader 等等,都是在這個(gè)當(dāng)時(shí)看似不起眼的團(tuán)隊(duì)逐漸成長(zhǎng)、逐漸孵化出來(lái)的。甚至可以說(shuō),百度 AI 的誕生,就從這里開(kāi)始。
今天談?wù)撈鸢俣扰c王海峰時(shí),人們總說(shuō)百度的技術(shù)基礎(chǔ)、技術(shù)信仰和價(jià)值取向,與王海峰此前作為 NLP 科學(xué)家的能力累積是非常契合的。
但從王海峰在百度 NLP 進(jìn)行的一系列技術(shù)累積和前瞻布局來(lái)看,雙方的契合程度遠(yuǎn)不止 學(xué)術(shù)能力 與 場(chǎng)景需求 。
同時(shí)也在于王海峰本人對(duì)于 AI 技術(shù)發(fā)展趨勢(shì)的預(yù)判,和百度對(duì)于這一系列判斷的信任和支持。
你可以說(shuō)王海峰主導(dǎo)了百度 NLP 變革,也可以認(rèn)為百度真正成就了王海峰。
但就在這種相互作用之間,中國(guó) NLP 的「破圈」十年,真正得以實(shí)現(xiàn)。
現(xiàn)在,是時(shí)候乘風(fēng)破浪了。