因特網(wǎng)是基于哪三項(xiàng)關(guān)鍵技術(shù)A.TCP/IP、 HTML和 HTTPB.客戶機(jī)/服務(wù)器計(jì)算、分組交換技術(shù)和HTTPC.客戶機(jī)/服務(wù)器計(jì)算、分組交換技術(shù)和連接網(wǎng)
目前創(chuàng)新互聯(lián)公司已為成百上千的企業(yè)提供了網(wǎng)站建設(shè)、域名、網(wǎng)站空間、網(wǎng)站托管、服務(wù)器租用、企業(yè)網(wǎng)站設(shè)計(jì)、雙灤網(wǎng)站維護(hù)等服務(wù),公司將堅(jiān)持客戶導(dǎo)向、應(yīng)用為本的策略,正道將秉承"和諧、參與、激情"的文化,與客戶和合作伙伴齊心協(xié)力一起成長,共同發(fā)展。
從物聯(lián)網(wǎng)的定義及各類技術(shù)所起的作用來看,物聯(lián)網(wǎng)的關(guān)鍵核心技術(shù)應(yīng)該是無線傳感器網(wǎng)絡(luò)(WSN)技術(shù),主要原因是:WSN技術(shù)貫穿物聯(lián)網(wǎng)的全部三個(gè)層次,是其它層面技術(shù)的整合應(yīng)用,對(duì)物聯(lián)網(wǎng)的發(fā)展有提綱挈領(lǐng)的作用。WSN技術(shù)的發(fā)展,能為其它層面的技術(shù)提供更明確的方向。
以下是實(shí)現(xiàn)物聯(lián)網(wǎng)的五大核心技術(shù):
核心技術(shù)之感知層:傳感器技術(shù)、射頻識(shí)別技術(shù)、二維碼技術(shù)、微機(jī)電系統(tǒng)和GPS技術(shù)
1.傳感器技術(shù)
傳感技術(shù)同計(jì)算機(jī)技術(shù)與通信技術(shù)一起被稱為信息技術(shù)的三大技術(shù)。從仿生學(xué)觀點(diǎn),如果把計(jì)算機(jī)看成處理和識(shí)別信息的“大腦”,把通信系統(tǒng)看成傳遞信息的“神經(jīng)系統(tǒng)”的話,那么傳感器就是“感覺器官”。微型無線傳感技術(shù)以及以此組件的傳感網(wǎng)是物聯(lián)網(wǎng)感知層的重要技術(shù)手段。
2.射頻識(shí)別(RFID)技術(shù)
射頻識(shí)別(Radio Frequency
Identification,簡稱RFID)是通過無線電信號(hào)識(shí)別特定目標(biāo)并讀寫相關(guān)數(shù)據(jù)的無線通訊技術(shù)。在國內(nèi),RFID已經(jīng)在身份證、電子收費(fèi)系統(tǒng)和物流管理等領(lǐng)域有了廣泛應(yīng)用。
RFID技術(shù)市場應(yīng)用成熟,標(biāo)簽成本低廉,但RFID一般不具備數(shù)據(jù)采集功能,多用來進(jìn)行物品的甄別和屬性的存儲(chǔ),且在金屬和液體環(huán)境下應(yīng)用受限,RFID技術(shù)屬于物聯(lián)網(wǎng)的信息采集層技術(shù)。
3.微機(jī)電系統(tǒng)(MEMS)
微機(jī)電系統(tǒng)是指利用大規(guī)模集成電路制造工藝,經(jīng)過微米級(jí)加工,得到的集微型傳感器、執(zhí)行器以及信號(hào)處理和控制電路、接口電路、通信和電源于一體的微型機(jī)電系統(tǒng)。MEMS技術(shù)屬于物聯(lián)網(wǎng)的信息采集層技術(shù)。
4.GPS技術(shù)
GPS技術(shù)又稱為全球定位系統(tǒng),是具有海、陸、空全方位實(shí)時(shí)三維導(dǎo)航與定位能力的新一代衛(wèi)星導(dǎo)航與定位系統(tǒng)。GPS作為移動(dòng)感知技術(shù),是物聯(lián)網(wǎng)延伸到移動(dòng)物體采集移動(dòng)物體信息的重要技術(shù),更是物流智能化、智能交通的重要技術(shù)。
核心技術(shù)之信息匯聚層:傳感網(wǎng)自組網(wǎng)技術(shù)、局域網(wǎng)技術(shù)及廣域網(wǎng)技術(shù)
1.無線傳感器網(wǎng)絡(luò)(WSN)技術(shù)
無線傳感器網(wǎng)絡(luò)(Wireless Sensor
Network,簡稱WSN)的基本功能是將一系列空間分散的傳感器單元通過自組織的無線網(wǎng)絡(luò)進(jìn)行連接,從而將各自采集的數(shù)據(jù)通過無線網(wǎng)絡(luò)進(jìn)行傳輸匯總,以實(shí)現(xiàn)對(duì)空間分散范圍內(nèi)的物理或環(huán)境狀況的協(xié)作監(jiān)控,并根據(jù)這些信息進(jìn)行相應(yīng)的分析和處理。
WSN技術(shù)貫穿物聯(lián)網(wǎng)的三個(gè)層面,是結(jié)合了計(jì)算、通信、傳感器三項(xiàng)技術(shù)的一門新興技術(shù),具有較大范圍、低成本、高密度、靈活布設(shè)、實(shí)時(shí)采集、全天候工作的優(yōu)勢,且對(duì)物聯(lián)網(wǎng)其他產(chǎn)業(yè)具有顯著帶動(dòng)作用。
2.Wi-Fi
Wi-Fi(Wireless Fidelity,無線保真技術(shù))是一種基于接入點(diǎn)(Access
Point)的無線網(wǎng)絡(luò)結(jié)構(gòu),目前已有一定規(guī)模的布設(shè),在部分應(yīng)用中與傳感器相結(jié)合。Wi-Fi技術(shù)屬于物聯(lián)網(wǎng)的信息匯總層技術(shù)。
3.GPRS
GPRS(General Packet Radio
Service,通用分組無線服務(wù))是一種基于GSM移動(dòng)通信網(wǎng)絡(luò)的數(shù)據(jù)服務(wù)技術(shù)。GPRS技術(shù)可以充分利用現(xiàn)有GSM網(wǎng)絡(luò),目前在很多領(lǐng)域有廣泛應(yīng)用,在物聯(lián)網(wǎng)領(lǐng)域也有部分應(yīng)用。GPRS技術(shù)屬于物聯(lián)網(wǎng)的信息匯總層技術(shù)。
核心技術(shù)之傳輸層:通信網(wǎng)、互聯(lián)網(wǎng)、3G網(wǎng)絡(luò)、GPRS網(wǎng)絡(luò)、廣電網(wǎng)絡(luò)、NGB
1.通信網(wǎng)
通信網(wǎng)是一種使用交換設(shè)備、傳輸設(shè)備,將地理上分散用戶終端設(shè)備互連起來實(shí)現(xiàn)通信和信息交換的系統(tǒng)。通信最基本的形式是在點(diǎn)與點(diǎn)之間建立通信系統(tǒng),但這不能稱為通信網(wǎng),只有將許多的通信系統(tǒng)(傳輸系統(tǒng))通過交換系統(tǒng)按一定拓?fù)浣Y(jié)構(gòu)組合在一起才能稱之為通信。也就是說,有了交換系統(tǒng)才能使某一地區(qū)內(nèi)任意兩個(gè)終端用戶相互接續(xù),才能組成通信網(wǎng)。
2.3G網(wǎng)絡(luò)
3G是英文the 3rd
Generation的縮寫,指第三代移動(dòng)通信技術(shù)。相對(duì)第一代模擬制式手機(jī)(1G)和第二代GSM、CDMA等數(shù)字手機(jī),第三代手機(jī)(3G)是指將無線通信與國際互聯(lián)網(wǎng)等多媒體通信結(jié)合的新一代移動(dòng)通信系統(tǒng)。
3.GPRS網(wǎng)絡(luò)
這是一種基于GSM系統(tǒng)的無線分組交換技術(shù),提供端到端的、廣域的無線IP連接。通俗的講,GPRS是一項(xiàng)高速數(shù)據(jù)處理的科技,方法是以“分組”的形式傳送資料到用戶手上。雖然GPRS是作為現(xiàn)有GSM網(wǎng)絡(luò)向第三代移動(dòng)通信演變的過渡技術(shù),但是它在許多方面都具有顯著的優(yōu)勢。
4.廣電網(wǎng)絡(luò)
廣電網(wǎng)通常是各地有線電視網(wǎng)絡(luò)公司(臺(tái))負(fù)責(zé)運(yùn)營的,通過HFC(光纖+同軸電纜混合網(wǎng))網(wǎng)向用戶提供寬帶服務(wù)及電視服務(wù)網(wǎng)絡(luò),寬帶可通過CableModem連接到計(jì)算機(jī),理論到戶最高速率38M,實(shí)際速度要視網(wǎng)絡(luò)情況而定。
5.NGB廣域網(wǎng)絡(luò)
中國下一代廣播電視網(wǎng)(NGB)是以有線電視數(shù)字化和移動(dòng)多媒體廣播(CMMB)的成果為基礎(chǔ),以自主創(chuàng)新的“高性能帶寬信息網(wǎng)”核心技術(shù)為支撐,構(gòu)建適合我國國情的、三網(wǎng)融合的、有線無線相結(jié)合的、全程全網(wǎng)的下一代廣播電視網(wǎng)絡(luò)。
核心技術(shù)之運(yùn)營層:專家系統(tǒng)、云計(jì)算、API接口、客戶管理、GIS、ERP
1.企業(yè)資源計(jì)劃(ERP)
ERP是指建立在信息技術(shù)基礎(chǔ)上,以系統(tǒng)化的管理思想,為企業(yè)決策層及員工提供決策運(yùn)行手段的管理平臺(tái)。ERP技術(shù)屬于物聯(lián)網(wǎng)的信息處理層技術(shù)。
2.專家系統(tǒng)(Exper System)
專家系統(tǒng)是一個(gè)含有大量的某個(gè)領(lǐng)域?qū)<宜降闹R(shí)與經(jīng)驗(yàn),能夠利用人類專家的知識(shí)和經(jīng)驗(yàn)來處理該領(lǐng)域問題的智能計(jì)算機(jī)程序系統(tǒng)。屬于信息處理層技術(shù)。
3.云計(jì)算
云計(jì)算概念間由Google提出的,這是一個(gè)美麗的網(wǎng)絡(luò)應(yīng)用模式,是指IT基礎(chǔ)設(shè)施的交付和使用,通過網(wǎng)絡(luò)以按需、易擴(kuò)展的方式獲得所需的資源。
核心技術(shù)之應(yīng)用層:垂直行業(yè)應(yīng)用、系統(tǒng)集成、資源打包
應(yīng)用層主要是根據(jù)行業(yè)特點(diǎn),借助互聯(lián)網(wǎng)技術(shù)手段,開發(fā)各類的行業(yè)應(yīng)用解決方案,將物聯(lián)網(wǎng)的優(yōu)勢與行業(yè)的生產(chǎn)經(jīng)營、信息化管理、組織調(diào)度結(jié)合起來,形成各類的物聯(lián)網(wǎng)解決方案,構(gòu)建智能化的行業(yè)應(yīng)用。
如交通行業(yè),涉及的就是智能交通技術(shù);電力行業(yè)采用的是智能電網(wǎng)技術(shù);物流行業(yè)采用的智慧物流技術(shù)等。行業(yè)的應(yīng)用還要更多涉及系統(tǒng)集成技術(shù)、資源打包技術(shù)等。
引言
地理信息系統(tǒng)(Geographic Information System,簡稱GIS)是計(jì)算機(jī)科學(xué)、地理學(xué)、測量學(xué)、地圖學(xué)等多門學(xué)科綜合的技術(shù)[1]。GIS的基本技術(shù)是空間數(shù)據(jù)庫、地圖可視化及空間分析,而空間數(shù)據(jù)庫是GIS的關(guān)鍵。空間數(shù)據(jù)挖掘技術(shù)作為當(dāng)前數(shù)據(jù)庫技術(shù)最活躍的分支與知識(shí)獲取手段,在GIS中的應(yīng)用推動(dòng)著GIS朝智能化和集成化的方向發(fā)展。
1 空間數(shù)據(jù)庫與空間數(shù)據(jù)挖掘技術(shù)的特點(diǎn)
隨著數(shù)據(jù)庫技術(shù)的不斷發(fā)展和數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,數(shù)據(jù)庫中存儲(chǔ)的數(shù)據(jù)量也在急劇增大,在這些海量數(shù)據(jù)的背后隱藏了很多具有決策意義的信息。但是,現(xiàn)今數(shù)據(jù)庫的大多數(shù)應(yīng)用仍然停留在查詢、檢索階段,數(shù)據(jù)庫中隱藏的豐富的知識(shí)遠(yuǎn)遠(yuǎn)沒有得到充分的發(fā)掘和利用,數(shù)據(jù)庫中數(shù)據(jù)的急劇增長和人們對(duì)數(shù)據(jù)庫處理和理解的困難形成了強(qiáng)烈的反差,導(dǎo)致“人們被數(shù)據(jù)淹沒,但卻饑餓于知識(shí)”的現(xiàn)象。
空間數(shù)據(jù)庫(數(shù)據(jù)倉庫)中的空間數(shù)據(jù)除了其顯式信息外,還具有豐富的隱含信息,如數(shù)字高程模型〔DEM或TIN〕,除了載荷高程信息外,還隱含了地質(zhì)巖性與構(gòu)造方面的信息;植物的種類是顯式信息,但其中還隱含了氣候的水平地帶性和垂直地帶性的信息,等等。這些隱含的信息只有通過數(shù)據(jù)挖掘才能顯示出來??臻g數(shù)據(jù)挖掘(Spatial Data Mining,簡稱SDM),或者稱為從空間數(shù)據(jù)庫中發(fā)現(xiàn)知識(shí),是為了解決空間數(shù)據(jù)海量特性而擴(kuò)展的一個(gè)新的數(shù)據(jù)挖掘的研究分支,是指從空間數(shù)據(jù)庫中提取隱含的、用戶感興趣的空間或非空間的模式和普遍特征的過程[2]。由于SDM的對(duì)象主要是空間數(shù)據(jù)庫,而空間數(shù)據(jù)庫中不僅存儲(chǔ)了空間事物或?qū)ο蟮膸缀螖?shù)據(jù)、屬性數(shù)據(jù),而且存儲(chǔ)了空間事物或?qū)ο笾g的圖形空間關(guān)系,因此其處理方法有別于一般的數(shù)據(jù)挖掘方法。SDM與傳統(tǒng)的地學(xué)數(shù)據(jù)分析方法的本質(zhì)區(qū)別在于SDM是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識(shí),挖掘出的知識(shí)應(yīng)具有事先未知、有效和可實(shí)用3個(gè)特征。
空間數(shù)據(jù)挖掘技術(shù)需要綜合數(shù)據(jù)挖掘技術(shù)與空間數(shù)據(jù)庫技術(shù),它可用于對(duì)空間數(shù)據(jù)的理解,對(duì)空間關(guān)系和空間與非空間關(guān)系的發(fā)現(xiàn)、空間知識(shí)庫的構(gòu)造以及空間數(shù)據(jù)庫的重組和查詢的優(yōu)化等。
2 空間數(shù)據(jù)挖掘技術(shù)的主要方法及特點(diǎn)
常用的空間數(shù)據(jù)挖掘技術(shù)包括:序列分析、分類分析、預(yù)測、聚類分析、關(guān)聯(lián)規(guī)則分析、時(shí)間序列分析、粗集方法及云理論等。本文從挖掘任務(wù)和挖掘方法的角度,著重介紹了分類分析、聚類分析和關(guān)聯(lián)規(guī)則分析三種常用的重要的方法。
2.1、分類分析
分類在數(shù)據(jù)挖掘中是一項(xiàng)非常重要的任務(wù),目前在商業(yè)上應(yīng)用最多。分類的目的是學(xué)會(huì)一個(gè)分類函數(shù)或分類模型(也常常稱作分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè)。分類和我們熟知的回歸方法都可用于預(yù)測,兩者的目的都是從歷史數(shù)據(jù)紀(jì)錄中自動(dòng)推導(dǎo)出對(duì)給定數(shù)據(jù)的推廣描述,從而能對(duì)未來數(shù)據(jù)進(jìn)行預(yù)測。和回歸方法不同的是,分類的輸出是離散的類別值,而回歸的輸出則是連續(xù)的數(shù)值。二者常表現(xiàn)為一棵決策樹,根據(jù)數(shù)據(jù)值從樹根開始搜索,沿著數(shù)據(jù)滿足的分支往上走,走到樹葉就能確定類別??臻g分類的規(guī)則實(shí)質(zhì)是對(duì)給定數(shù)據(jù)對(duì)象集的抽象和概括,可用宏元組表示。
要構(gòu)造分類器,需要有一個(gè)訓(xùn)練樣本數(shù)據(jù)集作為輸入。訓(xùn)練集由一組數(shù)據(jù)庫記錄或元組構(gòu)成,每個(gè)元組是一個(gè)由特征(又稱屬性)值組成的特征向量,此外,訓(xùn)練樣本還有一個(gè)類別標(biāo)記。一個(gè)具體樣本的形式可為:( v1, v2, ..., vn; c );其中vi表示字段值,c表示類別。
分類器的構(gòu)造方法有統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法等等。統(tǒng)計(jì)方法包括貝葉斯法和非參數(shù)法(近鄰學(xué)習(xí)或基于事例的學(xué)習(xí)),對(duì)應(yīng)的知識(shí)表示是判別函數(shù)和原型事例。機(jī)器學(xué)習(xí)方法包括決策樹法和規(guī)則歸納法,前者對(duì)應(yīng)的表示為決策樹或判別樹,后者則一般為產(chǎn)生式規(guī)則。神經(jīng)網(wǎng)絡(luò)方法主要是反向傳播(Back-Propagation,簡稱BP)算法,它的模型表示是前向反饋神經(jīng)網(wǎng)絡(luò)模型(由代表神經(jīng)元的節(jié)點(diǎn)和代表聯(lián)接權(quán)值的邊組成的一種體系結(jié)構(gòu)),BP算法本質(zhì)上是一種非線性判別函數(shù)[3]。另外,最近又興起了一種新的方法:粗糙集(rough set),其知識(shí)表示是產(chǎn)生式規(guī)則。
不同的分類器有不同的特點(diǎn)。有三種分類器評(píng)價(jià)或比較尺度:1) 預(yù)測準(zhǔn)確度;2) 計(jì)算復(fù)雜度;3) 模型描述的簡潔度。預(yù)測準(zhǔn)確度是用得最多的一種比較尺度,特別是對(duì)于預(yù)測型分類任務(wù),目前公認(rèn)的方法是10番分層交叉驗(yàn)證法。計(jì)算復(fù)雜度依賴于具體的實(shí)現(xiàn)細(xì)節(jié)和硬件環(huán)境,在數(shù)據(jù)挖掘中,由于操作對(duì)象是海量的數(shù)據(jù)庫,因此空間和時(shí)間的復(fù)雜度問題將是非常重要的一個(gè)環(huán)節(jié)。對(duì)于描述型的分類任務(wù),模型描述越簡潔越受歡迎。例如,采用規(guī)則歸納法表示的分類器構(gòu)造法就很有用,而神經(jīng)網(wǎng)絡(luò)方法產(chǎn)生的結(jié)果就難以理解。
另外要注意的是,分類的效果一般和數(shù)據(jù)的特點(diǎn)有關(guān)。有的數(shù)據(jù)噪聲大,有的有缺值, 有的分布稀疏,有的字段或?qū)傩蚤g相關(guān)性強(qiáng),有的屬性是離散的而有的是連續(xù)值或混合式的。目前普遍認(rèn)為不存在某種方法能適合于各種特點(diǎn)的數(shù)據(jù)。
分類技術(shù)在實(shí)際應(yīng)用非常重要,比如:可以根據(jù)房屋的地理位置決定房屋的檔次等。
2. 2 聚類分析
聚類是指根據(jù)“物以類聚”的原理,將本身沒有類別的樣本聚集成不同的組,并且對(duì)每一個(gè)這樣的組進(jìn)行描述的過程。它的目的是使得屬于同一個(gè)組的樣本之間應(yīng)該彼此相似,而不同組的樣本應(yīng)足夠不相似。與分類分析不同,進(jìn)行聚類前并不知道將要?jiǎng)澐殖蓭讉€(gè)組和什么樣的組,也不知道根據(jù)哪些空間區(qū)分規(guī)則來定義組。其目的旨在發(fā)現(xiàn)空間實(shí)體的屬性間的函數(shù)關(guān)系,挖掘的知識(shí)用以屬性名為變量的數(shù)學(xué)方程來表示。聚類方法包括統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法和面向數(shù)據(jù)庫的方法?;诰垲惙治龇椒ǖ目臻g數(shù)據(jù)挖掘算法包括均值近似算法[4]、CLARANS、BIRCH、DBSCAN等算法。目前,對(duì)空間數(shù)據(jù)聚類分析方法的研究是一個(gè)熱點(diǎn)。
對(duì)于空間數(shù)據(jù),利用聚類分析方法,可以根據(jù)地理位置以及障礙物的存在情況自動(dòng)地進(jìn)行區(qū)域劃分。例如,根據(jù)分布在不同地理位置的ATM機(jī)的情況將居民進(jìn)行區(qū)域劃分,根據(jù)這一信息,可以有效地進(jìn)行ATM機(jī)的設(shè)置規(guī)劃,避免浪費(fèi),同時(shí)也避免失掉每一個(gè)商機(jī)。
2.3 關(guān)聯(lián)規(guī)則分析
關(guān)聯(lián)規(guī)則分析主要用于發(fā)現(xiàn)不同事件之間的關(guān)聯(lián)性,即一事物發(fā)生時(shí),另一事物也經(jīng)常發(fā)生。關(guān)聯(lián)分析的重點(diǎn)在于快速發(fā)現(xiàn)那些有實(shí)用價(jià)值的關(guān)聯(lián)發(fā)生的事件。其主要依據(jù)是:事件發(fā)生的概率和條件概率應(yīng)該符合一定的統(tǒng)計(jì)意義??臻g關(guān)聯(lián)規(guī)則的形式是X->Y[S%,C%],其中X、Y是空間或非空間謂詞的集合,S%表示規(guī)則的支持度,C%表示規(guī)則的置信度??臻g謂詞的形式有3種:表示拓?fù)浣Y(jié)構(gòu)的謂詞、表示空間方向的謂詞和表示距離的謂詞[5]。各種各樣的空間謂詞可以構(gòu)成空間關(guān)聯(lián)規(guī)則。如,距離信息(如Close_to(臨近)、Far_away(遠(yuǎn)離))、拓?fù)潢P(guān)系(Intersect(交)、Overlap(重疊)、Disjoin(分離))和空間方位(如Right_of(右邊)、West_of(西邊))。實(shí)際上大多數(shù)算法都是利用空間數(shù)據(jù)的關(guān)聯(lián)特性改進(jìn)其分類算法,使得它適合于挖掘空間數(shù)據(jù)中的相關(guān)性,從而可以根據(jù)一個(gè)空間實(shí)體而確定另一個(gè)空間實(shí)體的地理位置,有利于進(jìn)行空間位置查詢和重建空間實(shí)體等。大致算法可描述如下:(1)根據(jù)查詢要求查找相關(guān)的空間數(shù)據(jù);(2)利用臨近等原則描述空間屬性和特定屬性;(3)根據(jù)最小支持度原則過濾不重要的數(shù)據(jù);(4)運(yùn)用其它手段對(duì)數(shù)據(jù)進(jìn)一步提純(如OVERLAY);(5)生成關(guān)聯(lián)規(guī)則。
關(guān)聯(lián)規(guī)則通??煞譃閮煞N:布爾型的關(guān)聯(lián)規(guī)則和多值關(guān)聯(lián)規(guī)則。多值關(guān)聯(lián)規(guī)則比較復(fù)雜,一種自然的想法是將它轉(zhuǎn)換為布爾型關(guān)聯(lián)規(guī)則,由于空間關(guān)聯(lián)規(guī)則的挖掘需要在大量的空間對(duì)象中計(jì)算多種空間關(guān)系,因此其代價(jià)是很高的?!N逐步求精的挖掘優(yōu)化方法可用于空間關(guān)聯(lián)的分析,該方法首先用一種快速的算法粗略地對(duì)一個(gè)較大的數(shù)據(jù)集進(jìn)行一次挖掘,然后在裁減過的數(shù)據(jù)集上用代價(jià)較高的算法進(jìn)一步改進(jìn)挖掘的質(zhì)量。因?yàn)槠浯鷥r(jià)非常高,所以空間的關(guān)聯(lián)方法需要進(jìn)一步的優(yōu)化。
對(duì)于空間數(shù)據(jù),利用關(guān)聯(lián)規(guī)則分析,可以發(fā)現(xiàn)地理位置的關(guān)聯(lián)性。例如,85%的靠近高速公路的大城鎮(zhèn)與水相鄰,或者發(fā)現(xiàn)通常與高爾夫球場相鄰的對(duì)象是停車場等。
3 空間數(shù)據(jù)挖掘技術(shù)的研究方向
3.1 處理不同類型的數(shù)據(jù)
絕大多數(shù)數(shù)據(jù)庫是關(guān)系型的,因此在關(guān)系數(shù)據(jù)庫上有效地執(zhí)行數(shù)據(jù)挖掘是至關(guān)重要的。但是在不同應(yīng)用領(lǐng)域中存在各種數(shù)據(jù)和數(shù)據(jù)庫,而且經(jīng)常包含復(fù)雜的數(shù)據(jù)類型,例如結(jié)構(gòu)數(shù)據(jù)、復(fù)雜對(duì)象、事務(wù)數(shù)據(jù)、歷史數(shù)據(jù)等。由于數(shù)據(jù)類型的多樣性和不同的數(shù)據(jù)挖掘目標(biāo),一個(gè)數(shù)據(jù)挖掘系統(tǒng)不可能處理各種數(shù)據(jù)。因此針對(duì)特定的數(shù)據(jù)類型,需要建立特定的數(shù)據(jù)挖掘系統(tǒng)。
3.2 數(shù)據(jù)挖掘算法的有效性和可測性
海量數(shù)據(jù)庫通常有上百個(gè)屬性和表及數(shù)百萬個(gè)元組。GB數(shù)量級(jí)數(shù)據(jù)庫已不鮮見,TB數(shù)量級(jí)數(shù)據(jù)庫已經(jīng)出現(xiàn),高維大型數(shù)據(jù)庫不僅增大了搜索空間,也增加了發(fā)現(xiàn)錯(cuò)誤模式的可能性。因此必須利用領(lǐng)域知識(shí)降低維數(shù),除去無關(guān)數(shù)據(jù),從而提高算法效率。從一個(gè)大型空間數(shù)據(jù)庫中抽取知識(shí)的算法必須高效、可測量,即數(shù)據(jù)挖掘算法的運(yùn)行時(shí)間必須可預(yù)測,且可接受,指數(shù)和多項(xiàng)式復(fù)雜性的算法不具有實(shí)用價(jià)值。但當(dāng)算法用有限數(shù)據(jù)為特定模型尋找適當(dāng)參數(shù)時(shí),有時(shí)也會(huì)導(dǎo)致物超所值,降低效率。
3.3 交互性用戶界面
數(shù)據(jù)挖掘的結(jié)果應(yīng)準(zhǔn)確地描述數(shù)據(jù)挖掘的要求,并易于表達(dá)。從不同的角度考察發(fā)現(xiàn)的知識(shí),并以不同形式表示,用高層次語言和圖形界面表示數(shù)據(jù)挖掘要求和結(jié)果。目前許多知識(shí)發(fā)現(xiàn)系統(tǒng)和工具缺乏與用戶的交互,難以有效利用領(lǐng)域知識(shí)。對(duì)此可以利用貝葉斯方法和演譯數(shù)據(jù)庫本身的演譯能力發(fā)現(xiàn)知識(shí)。
3.4 在多抽象層上交互式挖掘知識(shí)
很難預(yù)測從數(shù)據(jù)庫中會(huì)挖掘出什么樣的知識(shí),因此一個(gè)高層次的數(shù)據(jù)挖掘查詢應(yīng)作為進(jìn)一步探詢的線索。交互式挖掘使用戶能交互地定義一個(gè)數(shù)據(jù)挖掘要求,深化數(shù)據(jù)挖掘過程,從不同角度靈活看待多抽象層上的數(shù)據(jù)挖掘結(jié)果。
3.5 從不同數(shù)據(jù)源挖掘信息
局域網(wǎng)、廣域網(wǎng)以及Internet網(wǎng)將多個(gè)數(shù)據(jù)源聯(lián)成一個(gè)大型分布、異構(gòu)的數(shù)據(jù)庫,從包含不同語義的格式化和非格式化數(shù)據(jù)中挖掘知識(shí)是對(duì)數(shù)據(jù)挖掘的一個(gè)挑戰(zhàn)。數(shù)據(jù)挖掘可揭示大型異構(gòu)數(shù)據(jù)庫中存在的普通查詢不能發(fā)現(xiàn)的知識(shí)。數(shù)據(jù)庫的巨大規(guī)模、廣泛分布及數(shù)據(jù)挖掘方法的計(jì)算復(fù)雜性,要求建立并行分布的數(shù)據(jù)挖掘。
3.6 私有性和安全性
數(shù)據(jù)挖掘能從不同角度、不同抽象層上看待數(shù)據(jù),這將影響到數(shù)據(jù)挖掘的私有性和安全性。通過研究數(shù)據(jù)挖掘?qū)е碌臄?shù)據(jù)非法侵入,可改進(jìn)數(shù)據(jù)庫安全方法,以避免信息泄漏。
3.7 和其它系統(tǒng)的集成
方法、功能單一的發(fā)現(xiàn)系統(tǒng)的適用范圍必然受到一定的限制。要想在更廣泛的領(lǐng)域發(fā)現(xiàn)知識(shí),空間數(shù)據(jù)挖掘系統(tǒng)就應(yīng)該是數(shù)據(jù)庫、知識(shí)庫、專家系統(tǒng)、決策支持系統(tǒng)、可視化工具、網(wǎng)絡(luò)等技術(shù)的集成。
4 有待研究的問題
我們雖然在空間數(shù)據(jù)挖掘技術(shù)的研究和應(yīng)用中取得了很大的成績,但在一些理論及應(yīng)用方面仍存在急需解決的問題。
4.1 數(shù)據(jù)訪問的效率和可伸縮性
空間數(shù)據(jù)的復(fù)雜性和數(shù)據(jù)的大量性,TB數(shù)量級(jí)的數(shù)據(jù)庫的出現(xiàn),必然增大發(fā)現(xiàn)算法的搜索空間,增加了搜索的盲目性。如何有效的去除與任務(wù)無關(guān)的數(shù)據(jù),降低問題的維數(shù),設(shè)計(jì)出更加高效的挖掘算法對(duì)空間數(shù)據(jù)挖掘提出了巨大的挑戰(zhàn)。
4.2 對(duì)當(dāng)前一些GIS軟件缺乏時(shí)間屬性和靜態(tài)存儲(chǔ)的改進(jìn)
由于數(shù)據(jù)挖掘的應(yīng)用在很大的程度上涉及到時(shí)序關(guān)系,因此靜態(tài)的數(shù)據(jù)存儲(chǔ)嚴(yán)重妨礙了數(shù)據(jù)挖掘的應(yīng)用?;趫D層的計(jì)算模式、不同尺度空間數(shù)據(jù)之間的完全割裂也對(duì)空間數(shù)據(jù)挖掘設(shè)置了重重障礙??臻g實(shí)體與屬性數(shù)據(jù)之間的聯(lián)系僅僅依賴于標(biāo)識(shí)碼,這種一維的連接方式無疑將丟失大量的連接信息,不能有效的表示多維和隱含的內(nèi)在連接關(guān)系,這些都增加了數(shù)據(jù)挖掘計(jì)算的復(fù)雜度,極大地增加了數(shù)據(jù)準(zhǔn)備階段的工作量和人工干預(yù)的程度。
4.3 發(fā)現(xiàn)模式的精煉
當(dāng)發(fā)現(xiàn)空間很大時(shí)會(huì)獲得大量的結(jié)果,盡管有些是無關(guān)或沒有意義的模式,這時(shí)可利用領(lǐng)域的知識(shí)進(jìn)一步精煉發(fā)現(xiàn)的模式,從而得到有意義的知識(shí)。
在空間數(shù)據(jù)挖掘技術(shù)方面,重要的研究和應(yīng)用的方向還包括:網(wǎng)絡(luò)環(huán)境上的數(shù)據(jù)挖掘、柵格矢量一體化的挖掘、不確定性情況下的數(shù)據(jù)挖掘、分布式環(huán)境下的數(shù)據(jù)挖掘、數(shù)據(jù)挖掘查詢語言和新的高效的挖掘算法等。
5 小結(jié)
隨著GIS與數(shù)據(jù)挖掘及相關(guān)領(lǐng)域科學(xué)研究的不斷發(fā)展,空間數(shù)據(jù)挖掘技術(shù)在廣度和深度上的不斷深入,在不久的將來,一個(gè)集成了挖掘技術(shù)的GIS、GPS、RS集成系統(tǒng)必將朝著智能化、網(wǎng)絡(luò)化、全球化與大眾化的方向發(fā)展。
隨著Internet技術(shù)的不斷發(fā)展和人們對(duì)地理信息系統(tǒng)(GIS)需求的日益增長,利用Internet在Web上發(fā)布空間數(shù)據(jù),為用戶提供空間數(shù)據(jù)瀏覽、查詢和分析的功能,已成為地理信息系統(tǒng)(GIS)發(fā)展的必然趨勢。于是,基于Internet技術(shù)的地理信息系統(tǒng)———WEBGIS就應(yīng)運(yùn)而生。
WEBGIS是一個(gè)將地理信息處理和地理信息分布于Web計(jì)算平臺(tái)進(jìn)行的網(wǎng)絡(luò)化GIS系統(tǒng),它是面向?qū)ο筌浖?gòu)件技術(shù)、信息互操作技術(shù)、網(wǎng)絡(luò)技術(shù)發(fā)展的產(chǎn)物。系統(tǒng)采用ARCGISServer作為WEBGIS支撐平臺(tái)實(shí)現(xiàn)基礎(chǔ)地理空間數(shù)據(jù)和地質(zhì)空間數(shù)據(jù)的網(wǎng)絡(luò)發(fā)布。
1.柵格WEBGIS技術(shù)
“柵格WEBGIS”(Grid WEBGIS)這一概念和產(chǎn)品是對(duì)傳統(tǒng)Web地圖服務(wù)方式的一種革命。啟用這個(gè)名稱,可謂是一語雙關(guān):就是提供地理底圖的方式來講,再也不是傳統(tǒng)的方式———服務(wù)器端將矢量地圖臨時(shí)生成柵格圖發(fā)給客戶端,而是事先生成好柵格圖,用戶請(qǐng)求時(shí)不必做任何處理就可以即時(shí)發(fā)給客戶端;就客戶端的顯示方式來講,摒棄了傳統(tǒng)的一張地圖的顯示方式,客戶端采用多幅小圖拼接的方式顯示,總體看起來像是小圖片填充一個(gè)大的柵格的效果。
預(yù)先制作好所要發(fā)布的地理底圖、遙感影像不同縮放比例下的靜態(tài)圖像存放于服務(wù)器端,待實(shí)際發(fā)布時(shí)根據(jù)縮放比例在不同級(jí)別圖像之間進(jìn)行切換。這種技術(shù)大大提高了地圖的Web瀏覽速度。
2.Web服務(wù)器端技術(shù)
Web服務(wù)器端主要由兩部分組成,即IIS(Internet Information Server)和WEBGIS服務(wù)器(包括ArcIMS組件、InternetGIS站點(diǎn)設(shè)計(jì)向?qū)С绦騑izard及面向城市地質(zhì)Web應(yīng)用的擴(kuò)展組件)。
其中,IIS主要負(fù)責(zé)接收普通的用戶請(qǐng)求,當(dāng)其需要空間數(shù)據(jù)時(shí)則向WEBGIS服務(wù)器發(fā)出請(qǐng)求,WEBGIS服務(wù)器接收到瀏覽器端的請(qǐng)求后,利用ArcIMS組件和城市地質(zhì)Web應(yīng)用擴(kuò)展組件的功能,進(jìn)行處理、分析、計(jì)算等;如果需要數(shù)據(jù)服務(wù)器的數(shù)據(jù),則由WEBGIS服務(wù)器向數(shù)據(jù)服務(wù)器發(fā)出請(qǐng)求。
3.Web客戶端相關(guān)技術(shù)
包括IITML、客戶端腳本語言、VML(矢量可標(biāo)記語言)、XML、DOM(文檔對(duì)象模型)、CSS(層疊樣式表)及Ajax(Asynchronous JavaScript and XML的縮寫),這些技術(shù)的綜合運(yùn)用大大擴(kuò)展了系統(tǒng)功能,大幅提高了系統(tǒng)響應(yīng)速度。