GIS的空間分析總體上來分可以分為專題圖的空間分析,網(wǎng)絡(luò)分析,DTM分析
公司主營業(yè)務(wù):成都做網(wǎng)站、成都網(wǎng)站設(shè)計、移動網(wǎng)站開發(fā)等業(yè)務(wù)。幫助企業(yè)客戶真正實現(xiàn)互聯(lián)網(wǎng)宣傳,提高企業(yè)的競爭能力。成都創(chuàng)新互聯(lián)是一支青春激揚、勤奮敬業(yè)、活力青春激揚、勤奮敬業(yè)、活力澎湃、和諧高效的團隊。公司秉承以“開放、自由、嚴(yán)謹(jǐn)、自律”為核心的企業(yè)文化,感謝他們對我們的高要求,感謝他們從不同領(lǐng)域給我們帶來的挑戰(zhàn),讓我們激情的團隊有機會用頭腦與智慧不斷的給客戶帶來驚喜。成都創(chuàng)新互聯(lián)推出永定免費做網(wǎng)站回饋大家。
一、專題圖的空間分析包括:疊加分析,包含查詢分析,緩沖分析.
1.疊加分析則主要有
1)視覺信息疊加:視覺信息疊加是將不同側(cè)面的信息內(nèi)容疊加顯示在結(jié)果圖件或屏幕上,以便研究者判斷其相互空間關(guān)系,獲得更為豐富的空間信息.
2)點與面疊加:點與多邊形疊加,實際上是計算多邊形對點的包含關(guān)系.
3)線與面疊加:是比較線上坐標(biāo)與多邊形坐標(biāo)的關(guān)系,判斷線是否落在多邊形內(nèi).
4)面與面疊加:多邊形疊加將兩個或多個多邊形圖層進行疊加產(chǎn)生一個新多邊形圖層的操作,其結(jié)果將原來多邊形要素分割成新要素,新要素綜合了原來兩層或多層的屬性.常用的面疊加主要有相交,相減,判別,求并集等.
2.包含分析查詢:包含分析確定要素之間是否存在著直接的聯(lián)系,即矢量點、線、面之間是否存在在空間位置上的聯(lián)系,這是地理信息分析處理中常要提出的問題,也是在地理信息系統(tǒng)中實現(xiàn)圖形——屬性對位檢索的前提條件與基本的分析方法.
3.緩沖區(qū)分析:緩沖區(qū)分析是研究根據(jù)數(shù)據(jù)庫的點、線、面實體,自動建立其周圍一定寬度范圍內(nèi)的緩沖區(qū)多邊形實體,從而實現(xiàn)空間數(shù)據(jù)在水平方向得以擴展的信息分析方法.
二、網(wǎng)絡(luò)分析:網(wǎng)絡(luò)分析是運籌學(xué)模型中的一個基本模型,它的根本目的是研究、籌劃一項網(wǎng)絡(luò)工程如何安排,并使其運行效果最好,如一定資源的最佳分配,從一地到另一地的運輸費用最低等.其基本思想則在于人類活動總是趨于按一定目標(biāo)選擇達到最佳效果的空間位置.
三、DTM分析:DEM (數(shù)字高程模型)和 DTM(數(shù)字地形模型) 主要用于描述地面起伏狀況,可以用于提取各種地形參數(shù),如坡度、坡向、粗糙度等,并進行通視分析、流域結(jié)構(gòu)生成等應(yīng)用分析.因此,DEM 在各個領(lǐng)域中被廣泛使用.DEM 是建立 DTM 的基礎(chǔ)數(shù)據(jù),其它的地形要素可由 DEM 直接或間接導(dǎo)出,稱為 “ 派生數(shù)據(jù) ” ,如坡度、坡向.
指在GIS(地理信息系統(tǒng))里實現(xiàn)分析空間數(shù)據(jù),即從空間數(shù)據(jù)中獲取有關(guān)地理對象的空間位置、分布、形態(tài)、形成和演變等信息并進行分析。
根據(jù)作用的數(shù)據(jù)性質(zhì)不同,可以分為:
1、基于空間圖形數(shù)據(jù)的分析運算;
2、基于非空間屬性的數(shù)據(jù)運算;
3、空間和非空間數(shù)據(jù)的聯(lián)合運算??臻g分析賴以進行的基礎(chǔ)是地理空間數(shù)據(jù)庫,其運用的手段包括各種幾何的邏輯運算、數(shù)理統(tǒng)計分析,代數(shù)運算等數(shù)學(xué)手段,最終的目的是解決人們所涉及到地理空間的實際問題,提取和傳輸?shù)乩砜臻g信息,特別是隱含信息,以輔助決策。
擴展資料
空間分析源于60年代地理學(xué)的計量革命,在開始階段,主要是應(yīng)用定量(主要是統(tǒng)計)分析手段用于分析點、線、面的空間分布模式。后來更多的是強調(diào)地理空間本身的特征、空間決策過程和復(fù)雜空間系統(tǒng)的時空演化過程分析。
實際上自有地圖以來,人們就始終在自覺或不自覺地進行著各種類型的空間分析。如在地圖上量測地理要素之間的距離、方位、面積,乃至利用地圖進行戰(zhàn)術(shù)研究和戰(zhàn)略決策等,都是人們利用地圖進行空間分析的實例,而后者實質(zhì)上已屬較高層次上的空間分析。
參考資料來源:百度百科-空間分析
參考資料來源:百度百科-GIS空間分析
GIS空間分析有哪些內(nèi)容?分別介紹其功能和意義并舉例說明。
一、GIS空間分析的功能
前面已經(jīng)介紹過GIS,大家已經(jīng)知道空間分析就是對分析空間數(shù)據(jù)有關(guān)技術(shù)的統(tǒng)稱。所以我們根據(jù)作用的數(shù)據(jù)性質(zhì)不同,可以經(jīng)空間分析分為:
1、空間圖形數(shù)據(jù)的拓?fù)溥\算; 2、非空間屬性數(shù)據(jù)運算;
3、空間和非空間數(shù)據(jù)的聯(lián)合運算。
空間分析賴以進行的基礎(chǔ)是仰仗于地理空間數(shù)據(jù)庫,其運用的手段包括各種幾何的邏輯運算、數(shù)理統(tǒng)計分析,代數(shù)運算等數(shù)學(xué)手段,最終的目的是解決人們所涉及到地理空間的實際問題,提取和傳輸?shù)乩砜臻g信息,特別是隱含信息,以輔助決策。
GIS中可以實現(xiàn)空間分析的基本功能,包括空間查詢與量算,疊加分析、緩沖區(qū)分析、網(wǎng)絡(luò)分析等,并描述了相關(guān)的算法,以及其中的計算公式。
1、疊加分析
疊加分析至少要使用到同一區(qū)域,具有相同坐標(biāo)系統(tǒng)的兩個圖層。所謂疊加分析,就是將包含感興趣的空間要素對象的多個數(shù)據(jù)層進行疊加,產(chǎn)生一個新要素圖層。該圖層綜合了原來多層實體要素所具有的屬性特征。疊加分析的目標(biāo)是分析在空間位置上有一定關(guān)聯(lián)的空間對象的空間特征和專題屬性之間的相互關(guān)系。多層數(shù)據(jù)的疊加分析,不僅僅產(chǎn)生了新的空間對象的空間特征和專題屬性之間的相互關(guān)系,能夠發(fā)現(xiàn)多層數(shù)據(jù)間的相互差異、聯(lián)系和變換等特征。
根據(jù)GIS數(shù)據(jù)結(jié)構(gòu)的不同,將GIS疊加分析分為基于矢量數(shù)據(jù)的疊加分析和基于柵格數(shù)據(jù)的疊加分析。 在GIS的矢量數(shù)據(jù)結(jié)構(gòu)中,地理孔吉對象由點、線、面等要素來表示,所以基于矢量數(shù)據(jù)的疊加分析又可以分為點與多邊形的疊加分析、線與多邊形的疊加分析和多邊形間的疊加分析三大類。
點與多邊形的疊加,就是研究某一矢量數(shù)據(jù)層中的點要素位于另外一個矢量數(shù)據(jù)層中的哪個多邊形內(nèi),這呀就可以根據(jù)點與多邊形的空間關(guān)系,確定給點要素添加哪些屬性特征。
線與多邊形疊加,就是研究矢量數(shù)據(jù)層中的線要素與其他數(shù)據(jù)層中的多邊形要素之間的關(guān)系,進而判定線要素與多邊形的相離、相交、包含等空間關(guān)心。
多邊形的疊加,就是要研究兩個或多個多邊形矢量數(shù)據(jù)層的疊加操作,生成一個新的多邊形數(shù)據(jù)層。 柵格數(shù)據(jù)的疊加分析可以表達為地圖代數(shù)的元算的過程。所謂地圖代數(shù),就是指在GIS中將數(shù)據(jù)層作為方程變量的函數(shù)運算,通常情況下都是指柵格數(shù)據(jù)層運算。柵格數(shù)據(jù)中,地理實體都是通過規(guī)則網(wǎng)格單元來表示的,層與層之間的疊加操作是通過逐個網(wǎng)格單元之間的運算來實現(xiàn)的。在柵格數(shù)據(jù)疊加分析中,地圖代數(shù)運算又分為代數(shù)運算與邏輯運算。
柵格疊加分析與多邊形疊加分析一樣,是求兩組或兩組以上空間圖形的交集,但是多邊形疊加分析得到的是合成多邊形,而柵格疊加分析得到的是合成數(shù)據(jù)串,這些合成的數(shù)據(jù)文件是進一步進行空間聚類或聚合的依據(jù)。
類型疊加:將兩組或兩組以上的地理編碼數(shù)據(jù),求它們的交集,以建立新的數(shù)據(jù)文件,根據(jù)分析任務(wù),設(shè)置命令,得到最后的類型疊加結(jié)果。
統(tǒng)計疊加:將區(qū)域界線(政區(qū)、自然區(qū)域或經(jīng)濟區(qū)域等),與專題數(shù)字地圖疊加,建立的合成數(shù)據(jù)串,作出各區(qū)專門內(nèi)容的數(shù)量統(tǒng)計。
動態(tài)分析:將同一種要素在不同時期的兩組屬性數(shù)據(jù)疊加,建立合成數(shù)據(jù)串,它們之差就是該要素在該時段內(nèi)的變化,在土地利用動態(tài)監(jiān)測中,常要使用這種分析方法。
2、緩沖區(qū)分析
緩沖區(qū)是根據(jù)點、線、面地理實體,建立起周圍一定寬度范圍內(nèi)的擴展距離圖,緩沖區(qū)的作用是用來限定所需處理的專題數(shù)據(jù)的空間范圍。一般認(rèn)為緩沖區(qū)以內(nèi)的信息均是與構(gòu)成緩沖區(qū)的核心實體相關(guān)的,及鄰接或關(guān)聯(lián)關(guān)系,而緩沖區(qū)以外的數(shù)據(jù)與分析無關(guān)。 緩沖區(qū)生成步驟: 1、明確目的和標(biāo)準(zhǔn) 2、數(shù)據(jù)準(zhǔn)備 3、空間操作 4、統(tǒng)計分析 5、結(jié)果輸出
緩沖區(qū)分析是在已有的實體對象周圍形成一定范圍的多邊形,即任何實體對象的緩沖區(qū)都是多邊形,且這些多邊形構(gòu)成了一個新的數(shù)據(jù)圖層。矢量數(shù)據(jù)的緩沖區(qū)分析又根據(jù)矢量數(shù)據(jù)結(jié)構(gòu)中的數(shù)據(jù)描述分為點緩沖、現(xiàn)緩沖和面緩沖3種緩沖方式。其分別是矢量數(shù)據(jù)結(jié)構(gòu)中的點或線或面要素,根據(jù)給定的緩沖區(qū)半徑,生成相應(yīng)的點或線或面數(shù)據(jù)層。在柵格數(shù)據(jù)中可以將緩沖區(qū)卡諾是對網(wǎng)格單元向其周圍8個方向進行一定距離的擴展,種子擴展算法是一種典型的建立柵格數(shù)據(jù)緩沖區(qū)的方法。
3、網(wǎng)絡(luò)分析
網(wǎng)絡(luò)分析是根據(jù)結(jié)點與結(jié)點、結(jié)點與線、線與線這3種實體對象的拓?fù)潢P(guān)系來研究構(gòu)成網(wǎng)絡(luò)模型的空間實體對象的空間特征和屬性特征,進而對網(wǎng)絡(luò)模型進行全方位的研究和分析的一種空間分析方法。 網(wǎng)絡(luò)分析的數(shù)學(xué)基礎(chǔ)是計算機圖論和運籌學(xué),它通過研究網(wǎng)絡(luò)的狀態(tài)以及模擬和分析資源在網(wǎng)絡(luò)上的流動和分配情況,對網(wǎng)絡(luò)結(jié)構(gòu)及其資源等的優(yōu)化問題進行研究。
網(wǎng)絡(luò)模型是對計算機數(shù)據(jù)結(jié)構(gòu)中圖的模型的擴充,因此構(gòu)成網(wǎng)絡(luò)模型的各個基本組成部分與圖模型的組成部分也基本相同。
引言
地理信息系統(tǒng)(Geographic Information System,簡稱GIS)是計算機科學(xué)、地理學(xué)、測量學(xué)、地圖學(xué)等多門學(xué)科綜合的技術(shù)[1]。GIS的基本技術(shù)是空間數(shù)據(jù)庫、地圖可視化及空間分析,而空間數(shù)據(jù)庫是GIS的關(guān)鍵??臻g數(shù)據(jù)挖掘技術(shù)作為當(dāng)前數(shù)據(jù)庫技術(shù)最活躍的分支與知識獲取手段,在GIS中的應(yīng)用推動著GIS朝智能化和集成化的方向發(fā)展。
1 空間數(shù)據(jù)庫與空間數(shù)據(jù)挖掘技術(shù)的特點
隨著數(shù)據(jù)庫技術(shù)的不斷發(fā)展和數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,數(shù)據(jù)庫中存儲的數(shù)據(jù)量也在急劇增大,在這些海量數(shù)據(jù)的背后隱藏了很多具有決策意義的信息。但是,現(xiàn)今數(shù)據(jù)庫的大多數(shù)應(yīng)用仍然停留在查詢、檢索階段,數(shù)據(jù)庫中隱藏的豐富的知識遠(yuǎn)遠(yuǎn)沒有得到充分的發(fā)掘和利用,數(shù)據(jù)庫中數(shù)據(jù)的急劇增長和人們對數(shù)據(jù)庫處理和理解的困難形成了強烈的反差,導(dǎo)致“人們被數(shù)據(jù)淹沒,但卻饑餓于知識”的現(xiàn)象。
空間數(shù)據(jù)庫(數(shù)據(jù)倉庫)中的空間數(shù)據(jù)除了其顯式信息外,還具有豐富的隱含信息,如數(shù)字高程模型〔DEM或TIN〕,除了載荷高程信息外,還隱含了地質(zhì)巖性與構(gòu)造方面的信息;植物的種類是顯式信息,但其中還隱含了氣候的水平地帶性和垂直地帶性的信息,等等。這些隱含的信息只有通過數(shù)據(jù)挖掘才能顯示出來。空間數(shù)據(jù)挖掘(Spatial Data Mining,簡稱SDM),或者稱為從空間數(shù)據(jù)庫中發(fā)現(xiàn)知識,是為了解決空間數(shù)據(jù)海量特性而擴展的一個新的數(shù)據(jù)挖掘的研究分支,是指從空間數(shù)據(jù)庫中提取隱含的、用戶感興趣的空間或非空間的模式和普遍特征的過程[2]。由于SDM的對象主要是空間數(shù)據(jù)庫,而空間數(shù)據(jù)庫中不僅存儲了空間事物或?qū)ο蟮膸缀螖?shù)據(jù)、屬性數(shù)據(jù),而且存儲了空間事物或?qū)ο笾g的圖形空間關(guān)系,因此其處理方法有別于一般的數(shù)據(jù)挖掘方法。SDM與傳統(tǒng)的地學(xué)數(shù)據(jù)分析方法的本質(zhì)區(qū)別在于SDM是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識,挖掘出的知識應(yīng)具有事先未知、有效和可實用3個特征。
空間數(shù)據(jù)挖掘技術(shù)需要綜合數(shù)據(jù)挖掘技術(shù)與空間數(shù)據(jù)庫技術(shù),它可用于對空間數(shù)據(jù)的理解,對空間關(guān)系和空間與非空間關(guān)系的發(fā)現(xiàn)、空間知識庫的構(gòu)造以及空間數(shù)據(jù)庫的重組和查詢的優(yōu)化等。
2 空間數(shù)據(jù)挖掘技術(shù)的主要方法及特點
常用的空間數(shù)據(jù)挖掘技術(shù)包括:序列分析、分類分析、預(yù)測、聚類分析、關(guān)聯(lián)規(guī)則分析、時間序列分析、粗集方法及云理論等。本文從挖掘任務(wù)和挖掘方法的角度,著重介紹了分類分析、聚類分析和關(guān)聯(lián)規(guī)則分析三種常用的重要的方法。
2.1、分類分析
分類在數(shù)據(jù)挖掘中是一項非常重要的任務(wù),目前在商業(yè)上應(yīng)用最多。分類的目的是學(xué)會一個分類函數(shù)或分類模型(也常常稱作分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的某一個。分類和我們熟知的回歸方法都可用于預(yù)測,兩者的目的都是從歷史數(shù)據(jù)紀(jì)錄中自動推導(dǎo)出對給定數(shù)據(jù)的推廣描述,從而能對未來數(shù)據(jù)進行預(yù)測。和回歸方法不同的是,分類的輸出是離散的類別值,而回歸的輸出則是連續(xù)的數(shù)值。二者常表現(xiàn)為一棵決策樹,根據(jù)數(shù)據(jù)值從樹根開始搜索,沿著數(shù)據(jù)滿足的分支往上走,走到樹葉就能確定類別。空間分類的規(guī)則實質(zhì)是對給定數(shù)據(jù)對象集的抽象和概括,可用宏元組表示。
要構(gòu)造分類器,需要有一個訓(xùn)練樣本數(shù)據(jù)集作為輸入。訓(xùn)練集由一組數(shù)據(jù)庫記錄或元組構(gòu)成,每個元組是一個由特征(又稱屬性)值組成的特征向量,此外,訓(xùn)練樣本還有一個類別標(biāo)記。一個具體樣本的形式可為:( v1, v2, ..., vn; c );其中vi表示字段值,c表示類別。
分類器的構(gòu)造方法有統(tǒng)計方法、機器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法等等。統(tǒng)計方法包括貝葉斯法和非參數(shù)法(近鄰學(xué)習(xí)或基于事例的學(xué)習(xí)),對應(yīng)的知識表示是判別函數(shù)和原型事例。機器學(xué)習(xí)方法包括決策樹法和規(guī)則歸納法,前者對應(yīng)的表示為決策樹或判別樹,后者則一般為產(chǎn)生式規(guī)則。神經(jīng)網(wǎng)絡(luò)方法主要是反向傳播(Back-Propagation,簡稱BP)算法,它的模型表示是前向反饋神經(jīng)網(wǎng)絡(luò)模型(由代表神經(jīng)元的節(jié)點和代表聯(lián)接權(quán)值的邊組成的一種體系結(jié)構(gòu)),BP算法本質(zhì)上是一種非線性判別函數(shù)[3]。另外,最近又興起了一種新的方法:粗糙集(rough set),其知識表示是產(chǎn)生式規(guī)則。
不同的分類器有不同的特點。有三種分類器評價或比較尺度:1) 預(yù)測準(zhǔn)確度;2) 計算復(fù)雜度;3) 模型描述的簡潔度。預(yù)測準(zhǔn)確度是用得最多的一種比較尺度,特別是對于預(yù)測型分類任務(wù),目前公認(rèn)的方法是10番分層交叉驗證法。計算復(fù)雜度依賴于具體的實現(xiàn)細(xì)節(jié)和硬件環(huán)境,在數(shù)據(jù)挖掘中,由于操作對象是海量的數(shù)據(jù)庫,因此空間和時間的復(fù)雜度問題將是非常重要的一個環(huán)節(jié)。對于描述型的分類任務(wù),模型描述越簡潔越受歡迎。例如,采用規(guī)則歸納法表示的分類器構(gòu)造法就很有用,而神經(jīng)網(wǎng)絡(luò)方法產(chǎn)生的結(jié)果就難以理解。
另外要注意的是,分類的效果一般和數(shù)據(jù)的特點有關(guān)。有的數(shù)據(jù)噪聲大,有的有缺值, 有的分布稀疏,有的字段或?qū)傩蚤g相關(guān)性強,有的屬性是離散的而有的是連續(xù)值或混合式的。目前普遍認(rèn)為不存在某種方法能適合于各種特點的數(shù)據(jù)。
分類技術(shù)在實際應(yīng)用非常重要,比如:可以根據(jù)房屋的地理位置決定房屋的檔次等。
2. 2 聚類分析
聚類是指根據(jù)“物以類聚”的原理,將本身沒有類別的樣本聚集成不同的組,并且對每一個這樣的組進行描述的過程。它的目的是使得屬于同一個組的樣本之間應(yīng)該彼此相似,而不同組的樣本應(yīng)足夠不相似。與分類分析不同,進行聚類前并不知道將要劃分成幾個組和什么樣的組,也不知道根據(jù)哪些空間區(qū)分規(guī)則來定義組。其目的旨在發(fā)現(xiàn)空間實體的屬性間的函數(shù)關(guān)系,挖掘的知識用以屬性名為變量的數(shù)學(xué)方程來表示。聚類方法包括統(tǒng)計方法、機器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法和面向數(shù)據(jù)庫的方法?;诰垲惙治龇椒ǖ目臻g數(shù)據(jù)挖掘算法包括均值近似算法[4]、CLARANS、BIRCH、DBSCAN等算法。目前,對空間數(shù)據(jù)聚類分析方法的研究是一個熱點。
對于空間數(shù)據(jù),利用聚類分析方法,可以根據(jù)地理位置以及障礙物的存在情況自動地進行區(qū)域劃分。例如,根據(jù)分布在不同地理位置的ATM機的情況將居民進行區(qū)域劃分,根據(jù)這一信息,可以有效地進行ATM機的設(shè)置規(guī)劃,避免浪費,同時也避免失掉每一個商機。
2.3 關(guān)聯(lián)規(guī)則分析
關(guān)聯(lián)規(guī)則分析主要用于發(fā)現(xiàn)不同事件之間的關(guān)聯(lián)性,即一事物發(fā)生時,另一事物也經(jīng)常發(fā)生。關(guān)聯(lián)分析的重點在于快速發(fā)現(xiàn)那些有實用價值的關(guān)聯(lián)發(fā)生的事件。其主要依據(jù)是:事件發(fā)生的概率和條件概率應(yīng)該符合一定的統(tǒng)計意義??臻g關(guān)聯(lián)規(guī)則的形式是X->Y[S%,C%],其中X、Y是空間或非空間謂詞的集合,S%表示規(guī)則的支持度,C%表示規(guī)則的置信度??臻g謂詞的形式有3種:表示拓?fù)浣Y(jié)構(gòu)的謂詞、表示空間方向的謂詞和表示距離的謂詞[5]。各種各樣的空間謂詞可以構(gòu)成空間關(guān)聯(lián)規(guī)則。如,距離信息(如Close_to(臨近)、Far_away(遠(yuǎn)離))、拓?fù)潢P(guān)系(Intersect(交)、Overlap(重疊)、Disjoin(分離))和空間方位(如Right_of(右邊)、West_of(西邊))。實際上大多數(shù)算法都是利用空間數(shù)據(jù)的關(guān)聯(lián)特性改進其分類算法,使得它適合于挖掘空間數(shù)據(jù)中的相關(guān)性,從而可以根據(jù)一個空間實體而確定另一個空間實體的地理位置,有利于進行空間位置查詢和重建空間實體等。大致算法可描述如下:(1)根據(jù)查詢要求查找相關(guān)的空間數(shù)據(jù);(2)利用臨近等原則描述空間屬性和特定屬性;(3)根據(jù)最小支持度原則過濾不重要的數(shù)據(jù);(4)運用其它手段對數(shù)據(jù)進一步提純(如OVERLAY);(5)生成關(guān)聯(lián)規(guī)則。
關(guān)聯(lián)規(guī)則通常可分為兩種:布爾型的關(guān)聯(lián)規(guī)則和多值關(guān)聯(lián)規(guī)則。多值關(guān)聯(lián)規(guī)則比較復(fù)雜,一種自然的想法是將它轉(zhuǎn)換為布爾型關(guān)聯(lián)規(guī)則,由于空間關(guān)聯(lián)規(guī)則的挖掘需要在大量的空間對象中計算多種空間關(guān)系,因此其代價是很高的?!N逐步求精的挖掘優(yōu)化方法可用于空間關(guān)聯(lián)的分析,該方法首先用一種快速的算法粗略地對一個較大的數(shù)據(jù)集進行一次挖掘,然后在裁減過的數(shù)據(jù)集上用代價較高的算法進一步改進挖掘的質(zhì)量。因為其代價非常高,所以空間的關(guān)聯(lián)方法需要進一步的優(yōu)化。
對于空間數(shù)據(jù),利用關(guān)聯(lián)規(guī)則分析,可以發(fā)現(xiàn)地理位置的關(guān)聯(lián)性。例如,85%的靠近高速公路的大城鎮(zhèn)與水相鄰,或者發(fā)現(xiàn)通常與高爾夫球場相鄰的對象是停車場等。
3 空間數(shù)據(jù)挖掘技術(shù)的研究方向
3.1 處理不同類型的數(shù)據(jù)
絕大多數(shù)數(shù)據(jù)庫是關(guān)系型的,因此在關(guān)系數(shù)據(jù)庫上有效地執(zhí)行數(shù)據(jù)挖掘是至關(guān)重要的。但是在不同應(yīng)用領(lǐng)域中存在各種數(shù)據(jù)和數(shù)據(jù)庫,而且經(jīng)常包含復(fù)雜的數(shù)據(jù)類型,例如結(jié)構(gòu)數(shù)據(jù)、復(fù)雜對象、事務(wù)數(shù)據(jù)、歷史數(shù)據(jù)等。由于數(shù)據(jù)類型的多樣性和不同的數(shù)據(jù)挖掘目標(biāo),一個數(shù)據(jù)挖掘系統(tǒng)不可能處理各種數(shù)據(jù)。因此針對特定的數(shù)據(jù)類型,需要建立特定的數(shù)據(jù)挖掘系統(tǒng)。
3.2 數(shù)據(jù)挖掘算法的有效性和可測性
海量數(shù)據(jù)庫通常有上百個屬性和表及數(shù)百萬個元組。GB數(shù)量級數(shù)據(jù)庫已不鮮見,TB數(shù)量級數(shù)據(jù)庫已經(jīng)出現(xiàn),高維大型數(shù)據(jù)庫不僅增大了搜索空間,也增加了發(fā)現(xiàn)錯誤模式的可能性。因此必須利用領(lǐng)域知識降低維數(shù),除去無關(guān)數(shù)據(jù),從而提高算法效率。從一個大型空間數(shù)據(jù)庫中抽取知識的算法必須高效、可測量,即數(shù)據(jù)挖掘算法的運行時間必須可預(yù)測,且可接受,指數(shù)和多項式復(fù)雜性的算法不具有實用價值。但當(dāng)算法用有限數(shù)據(jù)為特定模型尋找適當(dāng)參數(shù)時,有時也會導(dǎo)致物超所值,降低效率。
3.3 交互性用戶界面
數(shù)據(jù)挖掘的結(jié)果應(yīng)準(zhǔn)確地描述數(shù)據(jù)挖掘的要求,并易于表達。從不同的角度考察發(fā)現(xiàn)的知識,并以不同形式表示,用高層次語言和圖形界面表示數(shù)據(jù)挖掘要求和結(jié)果。目前許多知識發(fā)現(xiàn)系統(tǒng)和工具缺乏與用戶的交互,難以有效利用領(lǐng)域知識。對此可以利用貝葉斯方法和演譯數(shù)據(jù)庫本身的演譯能力發(fā)現(xiàn)知識。
3.4 在多抽象層上交互式挖掘知識
很難預(yù)測從數(shù)據(jù)庫中會挖掘出什么樣的知識,因此一個高層次的數(shù)據(jù)挖掘查詢應(yīng)作為進一步探詢的線索。交互式挖掘使用戶能交互地定義一個數(shù)據(jù)挖掘要求,深化數(shù)據(jù)挖掘過程,從不同角度靈活看待多抽象層上的數(shù)據(jù)挖掘結(jié)果。
3.5 從不同數(shù)據(jù)源挖掘信息
局域網(wǎng)、廣域網(wǎng)以及Internet網(wǎng)將多個數(shù)據(jù)源聯(lián)成一個大型分布、異構(gòu)的數(shù)據(jù)庫,從包含不同語義的格式化和非格式化數(shù)據(jù)中挖掘知識是對數(shù)據(jù)挖掘的一個挑戰(zhàn)。數(shù)據(jù)挖掘可揭示大型異構(gòu)數(shù)據(jù)庫中存在的普通查詢不能發(fā)現(xiàn)的知識。數(shù)據(jù)庫的巨大規(guī)模、廣泛分布及數(shù)據(jù)挖掘方法的計算復(fù)雜性,要求建立并行分布的數(shù)據(jù)挖掘。
3.6 私有性和安全性
數(shù)據(jù)挖掘能從不同角度、不同抽象層上看待數(shù)據(jù),這將影響到數(shù)據(jù)挖掘的私有性和安全性。通過研究數(shù)據(jù)挖掘?qū)е碌臄?shù)據(jù)非法侵入,可改進數(shù)據(jù)庫安全方法,以避免信息泄漏。
3.7 和其它系統(tǒng)的集成
方法、功能單一的發(fā)現(xiàn)系統(tǒng)的適用范圍必然受到一定的限制。要想在更廣泛的領(lǐng)域發(fā)現(xiàn)知識,空間數(shù)據(jù)挖掘系統(tǒng)就應(yīng)該是數(shù)據(jù)庫、知識庫、專家系統(tǒng)、決策支持系統(tǒng)、可視化工具、網(wǎng)絡(luò)等技術(shù)的集成。
4 有待研究的問題
我們雖然在空間數(shù)據(jù)挖掘技術(shù)的研究和應(yīng)用中取得了很大的成績,但在一些理論及應(yīng)用方面仍存在急需解決的問題。
4.1 數(shù)據(jù)訪問的效率和可伸縮性
空間數(shù)據(jù)的復(fù)雜性和數(shù)據(jù)的大量性,TB數(shù)量級的數(shù)據(jù)庫的出現(xiàn),必然增大發(fā)現(xiàn)算法的搜索空間,增加了搜索的盲目性。如何有效的去除與任務(wù)無關(guān)的數(shù)據(jù),降低問題的維數(shù),設(shè)計出更加高效的挖掘算法對空間數(shù)據(jù)挖掘提出了巨大的挑戰(zhàn)。
4.2 對當(dāng)前一些GIS軟件缺乏時間屬性和靜態(tài)存儲的改進
由于數(shù)據(jù)挖掘的應(yīng)用在很大的程度上涉及到時序關(guān)系,因此靜態(tài)的數(shù)據(jù)存儲嚴(yán)重妨礙了數(shù)據(jù)挖掘的應(yīng)用?;趫D層的計算模式、不同尺度空間數(shù)據(jù)之間的完全割裂也對空間數(shù)據(jù)挖掘設(shè)置了重重障礙??臻g實體與屬性數(shù)據(jù)之間的聯(lián)系僅僅依賴于標(biāo)識碼,這種一維的連接方式無疑將丟失大量的連接信息,不能有效的表示多維和隱含的內(nèi)在連接關(guān)系,這些都增加了數(shù)據(jù)挖掘計算的復(fù)雜度,極大地增加了數(shù)據(jù)準(zhǔn)備階段的工作量和人工干預(yù)的程度。
4.3 發(fā)現(xiàn)模式的精煉
當(dāng)發(fā)現(xiàn)空間很大時會獲得大量的結(jié)果,盡管有些是無關(guān)或沒有意義的模式,這時可利用領(lǐng)域的知識進一步精煉發(fā)現(xiàn)的模式,從而得到有意義的知識。
在空間數(shù)據(jù)挖掘技術(shù)方面,重要的研究和應(yīng)用的方向還包括:網(wǎng)絡(luò)環(huán)境上的數(shù)據(jù)挖掘、柵格矢量一體化的挖掘、不確定性情況下的數(shù)據(jù)挖掘、分布式環(huán)境下的數(shù)據(jù)挖掘、數(shù)據(jù)挖掘查詢語言和新的高效的挖掘算法等。
5 小結(jié)
隨著GIS與數(shù)據(jù)挖掘及相關(guān)領(lǐng)域科學(xué)研究的不斷發(fā)展,空間數(shù)據(jù)挖掘技術(shù)在廣度和深度上的不斷深入,在不久的將來,一個集成了挖掘技術(shù)的GIS、GPS、RS集成系統(tǒng)必將朝著智能化、網(wǎng)絡(luò)化、全球化與大眾化的方向發(fā)展。