互聯(lián)網(wǎng)IDC圈4月29日報道,互聯(lián)網(wǎng)的發(fā)展使得大數(shù)據(jù)引起人們廣泛關注?,F(xiàn)如今大數(shù)據(jù)技術早已滲透到金融、通訊等行業(yè)以及生物學、物理學等領域。大數(shù)據(jù)在容量、多樣性和高增速方面的爆炸式增長全面考驗著現(xiàn)代企業(yè)的數(shù)據(jù)處理和分析能力,與此同時也為各個行業(yè)帶來了準確洞察市場行為的機會。迄今為止大數(shù)據(jù)技術與產(chǎn)品有哪些創(chuàng)新,工業(yè)大數(shù)據(jù)應用面臨哪些挑戰(zhàn),金融行業(yè)大數(shù)據(jù)應用現(xiàn)狀如何等。圍繞這一系列問題,4月27日至28日,由工業(yè)和信息化部指導、中國信息通信研究院主辦的"2016大數(shù)據(jù)產(chǎn)業(yè)峰會"在北京國際會議中心盛大召開。28日上午,在數(shù)據(jù)中心聯(lián)盟、中國智慧城市產(chǎn)業(yè)技術創(chuàng)新戰(zhàn)略聯(lián)盟協(xié)辦的地方大數(shù)據(jù)產(chǎn)業(yè)發(fā)展論壇中北京大學軟件所副所長黃罡先生做了精彩的演講。
成都創(chuàng)新互聯(lián)公司自2013年創(chuàng)立以來,是專業(yè)互聯(lián)網(wǎng)技術服務公司,擁有項目成都做網(wǎng)站、網(wǎng)站建設、外貿(mào)營銷網(wǎng)站建設網(wǎng)站策劃,項目實施與項目整合能力。我們以讓每一個夢想脫穎而出為使命,1280元友好做網(wǎng)站,已為上家服務,為友好各地企業(yè)和個人服務,聯(lián)系電話:028-86922220北京大學軟件所副所長黃罡
以下為黃罡演講實錄:
黃罡:非常高興來這個論壇和大家分享我們北京大學在政府數(shù)據(jù)開放方面的一些工作。其實就大數(shù)據(jù)來說,我個人認為互聯(lián)網(wǎng),BAT搞大數(shù)據(jù),實際上是垃圾數(shù)據(jù)里面去挖金子。但是,其實在中國,因為我們過去十年以部委為中心進行了政府信息化建設的提升,我們的政府信息過程政府數(shù)據(jù)實際上本身就是金子。所以,只不過這些金子藏在一個個以部門為中心的信息孤島里面。所以,我個人認為政府做大數(shù)據(jù)考慮的不是像BAT這種互聯(lián)網(wǎng)大數(shù)據(jù),更多考慮怎么能夠盡快的把這些已經(jīng)是金礦的數(shù)據(jù)拿出來,怎么讓這些金礦變成更大的輔助我們國家去做治理。
信息孤島這個詞大家聽過了,去年國務院發(fā)布的《大數(shù)據(jù)行動發(fā)展綱要》,當然是舉國歡慶,包括廠商,包括地方政府。但是,我們自己看這個綱要里面實際上藏著一些數(shù)字。我們通過對神州數(shù)碼、中軟、東軟等這些有資質的企業(yè)進行調研,基本上一個典型的政府信息系統(tǒng),如果是一個孤島式的,它的開放成本一般是1000人/天。這意味著我們的政府信息系統(tǒng)現(xiàn)在至少十萬個以上,這樣開放下來,至少達到1億人/天。政府給了時間點,在2020年對外開放。我們以2018年為時間點,短短兩年半的時間,如果要利用1億人/天實現(xiàn)政府數(shù)據(jù)開放,需要的中高端軟件工程師20萬。我們中國現(xiàn)在正兒八經(jīng)的軟件工程師也就是幾十萬。所以,拋開互聯(lián)網(wǎng)、產(chǎn)業(yè)、物聯(lián)網(wǎng),光政府數(shù)據(jù)開放現(xiàn)在就需要20萬個軟件工程師給我們干活。這20萬個軟件工程師光工資就得一千億。所以,在這個里面看上去,這個數(shù)字首先大家覺得比較聳人聽聞,但是實際上在政府行動綱要里面,部委內部是算過賬的,最高的一筆帳達到3000億。所以,這個數(shù)字實際上是比較準確的。
但是,我們在歡慶的同時,我們具體看一下,這到底是一千個億的市場機遇還是一個代價高達一千億的政府的痛點?當我們真正要去把一個政府的信息化系統(tǒng)打開的時候會碰見什么問題?首先,很容易算出來顯性成本,如果直接把后臺數(shù)據(jù)庫打開風險太大,而且對于政府來說,那就意味著所有的數(shù)據(jù)不加保留的暴露在所有其他人的面前,我為什么要這樣?第二,即便我們做好了這兩個,這時候原系統(tǒng)的開發(fā)商可能不在了,即這樣可能給你開發(fā)的這個系統(tǒng)團隊也都早就沒在了,這意味著要花大量的時間把原來的系統(tǒng)重新補一遍才能準確無誤沒有風險的把數(shù)據(jù)開放出來。第三,系統(tǒng)開發(fā)商的鎖定問題。所以,這些可以證明我們算出來的數(shù)據(jù)。
更關鍵的是我們現(xiàn)在的數(shù)據(jù),所謂政府很多的數(shù)據(jù)開放平臺,更多是說先把數(shù)據(jù)搞出來再說,怎么用,沒想出來,或者說畫幾個漂亮的數(shù)字。所以,如果想不清楚數(shù)據(jù)開放出來怎么用,其實它的阻力就很明顯,怎么去協(xié)調這些數(shù)據(jù)利益的相關者,怎么協(xié)調原來信息系統(tǒng)的相關者。因為我根本講不明白,把數(shù)據(jù)開放出來到底干什么?所以,整個的溝通成本,基本上形成了一個系統(tǒng)。真正到了這邊的真正開工,基本上要花半年到一年的時間進行溝通、交流、論證。所以,這么一算下來,其實真的用傳統(tǒng)方式去實現(xiàn)大數(shù)據(jù)行動綱要的三個時間節(jié)點我個人是持比較悲觀的態(tài)度。
能不能有一種方式去解決我們在政府打破信息孤島實現(xiàn)數(shù)據(jù)開放領域的時間、空間成本。軟件確實在大數(shù)據(jù)時代依然是非常重要的,為什么?所謂信息孤島就是軟件帶,只不過因為我們做的系統(tǒng)軟件太好了,90%以上的代碼功能已經(jīng)被我們系統(tǒng)軟件給實現(xiàn)了,這個時候其實從我們做軟件的角度來看,其實我要去理解這個信息孤島非常簡單,因為90%的東西我都是知道的,只是不知道由應用開發(fā)商寫的不到10%的代碼,而且那10%的代碼往往是遵循我們定義的開發(fā)框架,比如MES,或者BS,或者CS。所以,基本上我們經(jīng)過大量的實驗發(fā)現(xiàn)其實我可以開發(fā)一套非常智能的軟件的自動分析的工具和技術,給我任何一個系統(tǒng),只要你在我的平臺上操作一下,我基本上能夠猜的八九不離十。因此,我們就可以自動的把這些系統(tǒng)生成一大堆的接口,把這些內部數(shù)據(jù)給開放。
整個思路很簡單,把以前網(wǎng)絡化的體系變成開放的自適應的體系。這個確實是非常有挑戰(zhàn),我們最后做的效果是什么?現(xiàn)在我們也有一個產(chǎn)業(yè)化的公司,在我們的左邊是一大堆的信息孤島式的地方政府的各種系統(tǒng),它完全對我們來說是黑的,什么都不提供,我唯一知道的就是我有一個合法的用戶賬號,我這個用戶賬號可以看看他的報表什么東西。這時候我們的平臺能夠通過這個賬號,把你所有的數(shù)據(jù),這個賬號能看到的所有數(shù)據(jù),能寫的所有數(shù)據(jù),能夠把它都分析出來。但是,對于原系統(tǒng)而言,我們這個燕云大數(shù)據(jù)平臺就是一個合法的、正常的,你可以認為我們是一個小機型。我們可以快速的實現(xiàn)數(shù)據(jù)開放領域的三個核心能力。第一個就是數(shù)據(jù)的開放,第二個是快速的優(yōu)化,第三個就是數(shù)據(jù)的流轉。有了這些以后,我們認為在今天的政府信息化,或者政府大數(shù)據(jù)主要可以應用于惠民工程,應約于新型智慧城市。
講了這么多,基本上通過給大家介紹一些具體的案例。目前我們這套技術已經(jīng)推出了將近有半年了。目前已經(jīng)在22個省市的189個各種各樣的政府和央企系統(tǒng)里面,我們把它的數(shù)據(jù)都給接口化,然后拿出來了,基本上覆蓋典型的一些政府部門,包括北京、還有成都這些。
簡單舉幾個例子,首先我們給農(nóng)業(yè)部門一個垂直系統(tǒng),目前全國有500多個農(nóng)產(chǎn)品的批發(fā)價格,這些價格是實時更新的,而且是農(nóng)產(chǎn)品市場自己定的。用我們的燕云,你告訴我們是哪500個,然后我們把網(wǎng)站全部API化,我們首先解決500個人的應用系統(tǒng)我們能夠快速的給你開放出來,當然前提是你有合法的賬號。第二,另外一個是關于鄭州市的,鄭州市就是我前面講的,他們要做一個部級系統(tǒng),這個時候原來的系統(tǒng)廠商拒絕開放性,實際上后來我們調研發(fā)現(xiàn),原來它的團隊早就散了。所以,我怎么接你的系統(tǒng),大家說不接了,所以直接去燕云。用了我們以后,對我們來說,根本不用你的后臺數(shù)據(jù)庫,根本不用你后來的源碼,只要有一個合法算法,有一個合理界面,就可以直接把用戶需要的數(shù)據(jù)全給拿出來。我們可以非常輕松的解決掉開發(fā)商鎖定的問題,所以這個在政府大數(shù)據(jù)時代是非常關鍵的,因為數(shù)據(jù)其實是我們政府的,不是你系統(tǒng)開發(fā)商的,憑什么因為技術鎖定的原因把我們鎖定了。我想這個應該能夠對我們地方大數(shù)據(jù)具體的實施帶來極大的效益。
第三,這就是數(shù)據(jù)流轉。我們給深圳平山做的,它其實就是要做一件事,因為我們在昨天剛剛發(fā)布的“互聯(lián)網(wǎng)+政務”的行動綱要,這是一站式的,要花大量時間跟各個部門去談,現(xiàn)在不需要了,我們快速把它的數(shù)據(jù)出來以后,可以寫到其他地方去,因為一站式一定是把這個填了以后,同時數(shù)據(jù)可以輸入到多個其他系統(tǒng),或者中間數(shù)據(jù)來回流轉。所以,這個里面除了實現(xiàn)數(shù)據(jù)的獨特性,爬蟲是做不到這一點的。同時,我們還按照深圳平山的要求,因為它已經(jīng)流轉起來,數(shù)據(jù)從我這兒出來以后,流轉到那里,安全性是增強的。
這個是給神州數(shù)碼做的惠民工程,以前的做法是一個一個單位,一個一個部門去交流,然后跟那些開發(fā)商去談,基本上一個智慧城市落地一年以上。但是,利用我們現(xiàn)在基本上一個禮拜落地,非常快。當然這里面我們又做了另外一個事情,也是剛才大家很關心的一個,就是數(shù)據(jù)出去以后怎么辦?那么,我們現(xiàn)在因為它同樣是這個問題。當政府數(shù)據(jù)出來以后,除了政府的網(wǎng)站以外我們又有了神州數(shù)碼一個新的智慧城市的一個出口。那么,這時候到底是誰在用我們的數(shù)據(jù),或者查詢接口,到底他是怎么用的,這些東西我們都提供了一套相應的管理的監(jiān)控平臺。首先,你們可以看到,到底我每一個接口,這個接口就代表數(shù)據(jù),到底每天有多少人訪問,或者每個小時有多少人訪問,這個數(shù)據(jù)的流量是什么,流到哪些IP地址,或者流到哪些省市,甚至它在哪個應用里面。我不能做到數(shù)據(jù)確權,但是從燕云流的數(shù)據(jù)至少知道它的第一站是誰。我們是一個更加閉環(huán)的保護方式。
所以,經(jīng)過我們大半年實際在這個產(chǎn)業(yè)里面的應用,我們統(tǒng)計發(fā)現(xiàn)這將近200個工程,實施效率基本提高100倍,最高能達到幾千倍,它的成倍基本上節(jié)省90%以上。所以,我們認為它的核心就是因為我們把傳統(tǒng)的以這種開放數(shù)據(jù)為粗放式的方式變成了一種精細的方式。那么,我們認為如果全部政府數(shù)據(jù)行動綱要,如果此前用傳統(tǒng)的方式我們需要一千個億,用我們燕云只需要一百個億,這是我們認為對國家的一個重大貢獻。這是瀏覽器系統(tǒng),其實我們APP也可以打破,很多CS系統(tǒng)也可以打破。因為對我們而言,不管瀏覽器也好、手機也好,里面其實都是經(jīng)典的軟件。所以說,我們是從軟件的角度看大數(shù)據(jù)最重要的信息孤島。
我們做的從整個大數(shù)據(jù)來說是很小的一個點,我就是把信息孤島給搭配,一打破以后能干什么呢?我們剛才看到能干很多事情。而我們北大干什么?第一,我們會持續(xù)完善我們數(shù)據(jù)開放的能力。其次,我們已經(jīng)做了一套超輕量級的數(shù)據(jù)處理平臺,這個數(shù)據(jù)處理平臺,基本上從理念和整個使用場景上,跟阿里云前一陣發(fā)布的數(shù)加是基本一樣的。但是我們大的特點是,阿里云是基于它的一套大數(shù)據(jù)處理,至少要十個節(jié)點才能跑起來,但是我想問,現(xiàn)在不管是政府也好,所有廠商也好,現(xiàn)在你們手里的數(shù)據(jù)除了從網(wǎng)上的扒的有多少超過1T的。我們一個節(jié)點就可以了。我們燕云處理的數(shù)據(jù)就是API流進來的,但是原始數(shù)據(jù)還是政府的,大家說怎么可以這樣?我可以告訴大家,阿里云對于淘寶大數(shù)據(jù)的處理就是這樣,每個商家自己的電商數(shù)據(jù)全是淘寶可以免費用,但是你要處理不能拿出去給別人。
最后我們的一個理念就是我們認為我們不僅解決了百億級的政府數(shù)據(jù)開放問題,更主要的是把政府數(shù)據(jù)源源不斷安全可控的拿出來放到社會上,我相信整個社會都會存在在這個完全中國特色萬億級的大數(shù)據(jù)時代。謝謝大家!