如今,地理大數(shù)據(jù)產(chǎn)業(yè)在中國(guó)方興未艾。通過(guò)地理大數(shù)據(jù)為企業(yè)提供決策服務(wù)的GeoHey,是其中的代表。如何尋找并發(fā)掘地理大數(shù)據(jù)的價(jià)值。我們請(qǐng)來(lái)GeoHey的數(shù)據(jù)總監(jiān)高楠,分享了他對(duì)地理大數(shù)據(jù)這座金礦的“掘金秘籍”。
創(chuàng)新互聯(lián)自2013年起,是專業(yè)互聯(lián)網(wǎng)技術(shù)服務(wù)公司,擁有項(xiàng)目成都網(wǎng)站設(shè)計(jì)、成都網(wǎng)站建設(shè)網(wǎng)站策劃,項(xiàng)目實(shí)施與項(xiàng)目整合能力。我們以讓每一個(gè)夢(mèng)想脫穎而出為使命,1280元尼河口做網(wǎng)站,已為上家服務(wù),為尼河口各地企業(yè)和個(gè)人服務(wù),聯(lián)系電話:13518219792如何獲取“無(wú)處不在”的地理大數(shù)據(jù)?
我們先來(lái)說(shuō)說(shuō)如何獲取和清洗地理大數(shù)據(jù)。
作為一個(gè)互聯(lián)網(wǎng)用戶,你是否會(huì)留意到不少手機(jī)應(yīng)用在啟動(dòng)時(shí)會(huì)向你發(fā)出獲得個(gè)人位置定位的請(qǐng)求?比如,你在馬路上打開(kāi)喜馬拉雅的FM廣播聽(tīng)個(gè)相聲,邊走邊聽(tīng)的時(shí)候你的位置數(shù)據(jù)便被不斷采集起來(lái),這些被采集的位置數(shù)據(jù),便是地理數(shù)據(jù),也是值得挖掘的對(duì)象。另外,現(xiàn)實(shí)中的地理單位,比如一條馬路,一棟房屋,它們也是一個(gè)個(gè)地理數(shù)據(jù),可以被采集。
當(dāng)我們把這些搜集起來(lái)的數(shù)據(jù)賦予維度并交叉應(yīng)用時(shí),便產(chǎn)生了它的應(yīng)用價(jià)值。
既然位置數(shù)據(jù)來(lái)源于互聯(lián)網(wǎng),那么我們就去互聯(lián)網(wǎng)上爬。
我們將這個(gè)過(guò)程設(shè)定為四個(gè)步驟:首先是開(kāi)發(fā)爬蟲(chóng),我們會(huì)開(kāi)發(fā)挖掘數(shù)據(jù)的爬蟲(chóng)程序,這是我們的核心工具;在爬蟲(chóng)程序設(shè)定之后,我們便設(shè)定策略,確定要抓取哪一方面的數(shù)據(jù),這也是我們的關(guān)鍵環(huán)節(jié);在策略設(shè)定好之后,我們便設(shè)定生產(chǎn)排程,說(shuō)通俗點(diǎn)就是排好工期;最后獲得到我們想要的數(shù)據(jù)。
正如淘金需要過(guò)濾泥沙一樣,我們獲取到的數(shù)據(jù)其實(shí)有很多“廢渣”,會(huì)影響整體價(jià)值。清洗數(shù)據(jù)和獲取數(shù)據(jù)也是同樣重要。按照上述這套流程下來(lái),我們的系統(tǒng)不僅可以獲得數(shù)據(jù),還可以清洗數(shù)據(jù)。
要做到數(shù)據(jù)去重和清洗,首先要保證數(shù)據(jù)的獲取量足夠大。此外,還對(duì)數(shù)據(jù)來(lái)源進(jìn)行評(píng)估,保證數(shù)據(jù)來(lái)源的“干凈”。
我們是一個(gè)僅16人的團(tuán)隊(duì),所以處理數(shù)據(jù)更多是依靠機(jī)器而非人力完成。我們要賦予機(jī)器學(xué)習(xí)能力,即借助計(jì)算機(jī)強(qiáng)大的計(jì)算能力去發(fā)現(xiàn)更多的數(shù)據(jù)信息。
依靠機(jī)器,使我們保持了較高的工作效率。所需的數(shù)據(jù)最快半小時(shí),最多1天就能將全部爬完。而這些數(shù)據(jù)清洗的工作也僅依靠3、4個(gè)人便能完成。
除了提高效率,機(jī)器學(xué)習(xí)還具備三個(gè)功能:
數(shù)據(jù)補(bǔ)全:從網(wǎng)上爬下來(lái)的數(shù)據(jù)很多質(zhì)量不高,而數(shù)據(jù)補(bǔ)全功能就是在當(dāng)數(shù)據(jù)不完整時(shí),可以根據(jù)已有的數(shù)據(jù)去推測(cè)估算缺失的數(shù)據(jù);
新數(shù)據(jù):在缺少某種數(shù)據(jù)時(shí),可以從已有的數(shù)據(jù)提取生產(chǎn)出新數(shù)據(jù)。就像通過(guò)影像數(shù)據(jù)可以提取建筑數(shù)據(jù);
數(shù)據(jù)生長(zhǎng):從現(xiàn)有的數(shù)據(jù)中,可以提取出某些數(shù)據(jù)內(nèi)在的規(guī)律,根據(jù)規(guī)律生產(chǎn)新數(shù)據(jù)。憑借完整的流程設(shè)置和機(jī)器學(xué)習(xí),目前我們獲得數(shù)據(jù)量是非??捎^的,僅以位置數(shù)據(jù)為例,目前GeoHey的位置數(shù)據(jù)總量將近8億,位置數(shù)據(jù)年平均增量達(dá)到了58%。同時(shí),我們還對(duì)數(shù)據(jù)實(shí)行周期更新,更新頻率從小時(shí)到每季度不等。
當(dāng)數(shù)據(jù)被掌握了之后,我們可以用它做哪些事情呢?這就是一個(gè)發(fā)掘地理大數(shù)據(jù)價(jià)值的過(guò)程,我想通過(guò)三個(gè)案例來(lái)介紹。
1. 用大數(shù)據(jù)來(lái)展現(xiàn),哪家運(yùn)營(yíng)商的4G信號(hào)好?
如何用地理大數(shù)據(jù)判斷哪里的4G信號(hào)哪家強(qiáng)?作為非專業(yè)人士,面對(duì)這個(gè)問(wèn)題很難回答。不過(guò),我們通過(guò)挖掘地理數(shù)據(jù),能夠給出答案。
首先,萬(wàn)事開(kāi)頭找數(shù)據(jù)。
那么這些數(shù)據(jù)從哪里挖掘呢?我們都知道,作為通訊運(yùn)營(yíng)商,信號(hào)離不開(kāi)通信基站的支持,每個(gè)通信基站上都有一個(gè)傳感器,傳輸?shù)男盘?hào)數(shù)據(jù)便可以被我們獲取,來(lái)判斷移動(dòng)、電信和聯(lián)通三家運(yùn)營(yíng)商的4G信號(hào)差異。
對(duì)此,我們采集了7500萬(wàn)通信基站的數(shù)據(jù)。(DT君注:在現(xiàn)場(chǎng),高楠還演示了上圖右邊的這些數(shù)據(jù)采集后的三維可視化效果。)
在不同區(qū)域不同運(yùn)營(yíng)商的4G信號(hào)強(qiáng)度是不同的。比如,電信的數(shù)據(jù)應(yīng)用最普遍且信號(hào)強(qiáng)度最高,而在北方尤其是東北地區(qū),聯(lián)通則更加強(qiáng)勢(shì),信號(hào)也要明顯電信和移動(dòng)兩家運(yùn)營(yíng)商。
除了判別不同地區(qū)4G信號(hào)的差異,我們還能看到不同運(yùn)營(yíng)商的信號(hào)覆蓋密集程度。以西南地區(qū)的貴州省為例,在當(dāng)?shù)爻艘苿?dòng)一家獨(dú)大之外,信號(hào)的密集程度也明顯要低于中東部地區(qū)。從側(cè)面來(lái)看,這也說(shuō)明貴州省的基站分布不均,對(duì)于各大運(yùn)營(yíng)商而言,依舊存在競(jìng)爭(zhēng)的可能。
所以,當(dāng)你吐槽4G信號(hào)不給力的時(shí)候,不妨拿出這張圖,看看你在哪個(gè)位置,在用哪家運(yùn)營(yíng)商的網(wǎng)絡(luò)服務(wù)。
2. 為商業(yè)服務(wù),大數(shù)據(jù)可以幫助星巴克開(kāi)下一家店
地理大數(shù)據(jù)的商業(yè)應(yīng)用,則可以直觀體現(xiàn)在店鋪選址上。我們就拿星巴克如何開(kāi)下一家店這個(gè)命題來(lái)舉例。
首先,要判斷星巴克此前的選址偏好以及消費(fèi)人群結(jié)構(gòu),這樣就能了解你會(huì)在哪兒遇見(jiàn)星巴克,又能在星巴克遇上哪些人。
舉個(gè)栗子,交通便利的路段容易獲得星巴克青睞,而消費(fèi)人群中又有20%的商旅乘客。
還記得之前提到的機(jī)器學(xué)習(xí)嗎?在星巴克選址上,我們能不能通過(guò)機(jī)器學(xué)習(xí)的方式去獲得選址的解決方案呢?
通過(guò)機(jī)器,以北京的星巴克門(mén)店為例,根據(jù)不同交通工具的通勤時(shí)間情況,我們找到了星巴克門(mén)店的輻射范圍,也能比較出各家門(mén)店輻射范圍的重疊(注:以下展現(xiàn)的是演示數(shù)據(jù))。
然后我們通過(guò)機(jī)器學(xué)習(xí),發(fā)現(xiàn)了星巴克的“朋友圈”(DT君注:也就是星巴克之前開(kāi)的店,老是跟哪些其他品牌店鋪在一起)。
這個(gè)“朋友圈”的一些秘密,通過(guò)這張結(jié)構(gòu)圖可以體現(xiàn)出來(lái)(注:以下是演示數(shù)據(jù),不是真實(shí)分析結(jié)果):
上圖中,以星巴克為中心的朋友圈,連線越粗,關(guān)系越親密,比如肯德基與麥當(dāng)勞,兩者緊密相連,各自的產(chǎn)品也頗為接近。而麥當(dāng)勞和肯德基,和星巴克之間的關(guān)系則是比較弱的。相比較之下,同樣被人熟知的咖世家(COSTA),無(wú)論從客群構(gòu)成到店鋪規(guī)模,再到產(chǎn)品定位都與星巴克極為相似,兩家極有可能出現(xiàn)在鄰近的地方。
那么按照大數(shù)據(jù)的學(xué)習(xí)方式,如果我看到一家COSTA咖啡店附近沒(méi)有星巴克,是不是這里就可以開(kāi)一家呢?
不過(guò),GeoHey開(kāi)發(fā)出的地理大數(shù)據(jù)產(chǎn)品,目前并不直接面向市場(chǎng)終端消費(fèi)者,作為為企業(yè)決策提供地理大數(shù)據(jù)服務(wù)的機(jī)構(gòu),我們的產(chǎn)品是面向B端。這就意味著,從這座金礦中淘到的金,普通消費(fèi)者要感受到地理大數(shù)據(jù)的價(jià)值,至少需要一道其他的“加工手續(xù)”。
3. 避免看病難,大數(shù)據(jù)提供一些解決方案
第三個(gè)案例,我們來(lái)看看大數(shù)據(jù)怎么提供幫助解決民生問(wèn)題的方案。
看病難一直是個(gè)困擾多數(shù)人的問(wèn)題。如何破解這個(gè)問(wèn)題?
我們采集了全國(guó)三甲醫(yī)院的數(shù)據(jù),包括就醫(yī)數(shù)據(jù)、醫(yī)生資料情況等。根據(jù)這些采集的數(shù)據(jù)進(jìn)行分析,我們能夠得出這些結(jié)論:
首先是三甲醫(yī)院的地域分布不均,全國(guó)80%的三甲醫(yī)院被20%的城市瓜分。和三甲醫(yī)院分布不均的還有教授醫(yī)師的數(shù)量,20%的城市占據(jù)了全國(guó)85%的教授醫(yī)師資源。其實(shí),大家普遍吐槽的看病難其實(shí)就是集中前往大城市的三甲醫(yī)院尋找教授醫(yī)師看病造成的。
另外,結(jié)合就醫(yī)數(shù)據(jù),我們還可以得出一些普遍性的結(jié)論,其實(shí)在一個(gè)城市里頭,忙碌的科室僅占全部科室的29%。在同城的醫(yī)生里頭,僅有22%的醫(yī)生會(huì)非常忙碌。
要避免看病難,如無(wú)大病,不一定要前往三甲醫(yī)院找教授醫(yī)師就診。