小編給大家分享一下C語(yǔ)言如何實(shí)現(xiàn)K-Means算法,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!
創(chuàng)新互聯(lián)自2013年創(chuàng)立以來(lái),是專(zhuān)業(yè)互聯(lián)網(wǎng)技術(shù)服務(wù)公司,擁有項(xiàng)目網(wǎng)站建設(shè)、成都網(wǎng)站制作網(wǎng)站策劃,項(xiàng)目實(shí)施與項(xiàng)目整合能力。我們以讓每一個(gè)夢(mèng)想脫穎而出為使命,1280元東山做網(wǎng)站,已為上家服務(wù),為東山各地企業(yè)和個(gè)人服務(wù),聯(lián)系電話(huà):18982081108
一、聚類(lèi)和聚類(lèi)算法
聚類(lèi),就是將數(shù)據(jù)對(duì)象劃分成若干個(gè)類(lèi),在同一個(gè)類(lèi)中的對(duì)象具有較高的相似度,而不同的類(lèi)相似度較小。聚類(lèi)算法將數(shù)據(jù)集合進(jìn)行劃分,分成彼此相互聯(lián)系的若干類(lèi),以此實(shí)現(xiàn)對(duì)數(shù)據(jù)的深入分析和數(shù)據(jù)價(jià)值挖掘的初步處理階段。例如在現(xiàn)代商業(yè)領(lǐng)域,聚類(lèi)分析算法可以從龐大的數(shù)據(jù)集合中對(duì)消費(fèi)者的消費(fèi)習(xí)慣、消費(fèi)傾向,以方便決策者制訂消費(fèi)策略??傊?,作為數(shù)據(jù)挖掘中的一個(gè)模塊,聚類(lèi)分析算法可以作為一個(gè)單獨(dú)的工具已發(fā)現(xiàn)數(shù)據(jù)庫(kù)中分布的一些深層信息,并概括出每一類(lèi)的特點(diǎn)。聚類(lèi)分析算法也可作為數(shù)據(jù)挖掘算法中其他分析算法的一個(gè)預(yù)處理步驟。
在數(shù)據(jù)挖掘領(lǐng)域,聚類(lèi)分析算法可以分為一下幾個(gè)大類(lèi),包括劃分法、層次法、基于密度的方法、基于網(wǎng)絡(luò)的方法和基于模型的方法?;趧澐值幕舅枷刖褪峭ㄟ^(guò)迭代的方法將含有N個(gè)數(shù)據(jù)對(duì)象的數(shù)據(jù)集分成K個(gè)聚類(lèi)。具體的步驟就是,用戶(hù)先給出要?jiǎng)澐值膫€(gè)數(shù),然后通過(guò)一定的算法反復(fù)的進(jìn)行迭代,使得每次得到的分組比前一次更加接近預(yù)期目標(biāo),是否優(yōu)化的判定標(biāo)準(zhǔn)是同組數(shù)據(jù)之間不同數(shù)據(jù)之間的相似程度,同組數(shù)據(jù)相似程度越大,組間似程度越小越優(yōu)化。
K-means聚類(lèi)算法的核心思想就是基于對(duì)數(shù)據(jù)集合的劃分,它把N個(gè)數(shù)據(jù)對(duì)象劃分成K個(gè)類(lèi),使每個(gè)類(lèi)中的數(shù)據(jù)點(diǎn)到該聚類(lèi)中心的距離平方和最小。下面我將利用C語(yǔ)言來(lái)實(shí)現(xiàn)K-means算法,并對(duì)該算法在輸入不同的聚類(lèi)個(gè)數(shù)、改變數(shù)據(jù)點(diǎn)的密集程度以及初始聚類(lèi)中心點(diǎn)的選擇三個(gè)方面來(lái)測(cè)試該算法。
二、K-means算法實(shí)現(xiàn)步驟
通過(guò)對(duì)聚類(lèi)和K-Means算法思想的了解,C語(yǔ)言算法的實(shí)現(xiàn)過(guò)程如下:
(1)通過(guò)文件輸入N個(gè)數(shù)據(jù)點(diǎn),并選取其中K(K (2)對(duì)剩余的數(shù)據(jù)點(diǎn)分別計(jì)算到各個(gè)聚類(lèi)聚點(diǎn)中心的歐氏距離,并將該點(diǎn)劃分到最近的類(lèi)中; (3)重新計(jì)算各個(gè)聚類(lèi)的聚點(diǎn)中心; (4)與之前的聚類(lèi)中心比較,如果聚類(lèi)中心發(fā)生變化,轉(zhuǎn)到(2),否則結(jié)束迭并輸出結(jié)果。 三、K-means算法實(shí)現(xiàn) (一)實(shí)現(xiàn)思路 通過(guò)以上對(duì)K-means算法的了解,該算法主要是通過(guò)迭代的思想來(lái)求解K個(gè)聚類(lèi)的中心。由于傳統(tǒng)數(shù)組需要先定義再使用,且在使用的過(guò)程中不能實(shí)現(xiàn)數(shù)組長(zhǎng)度的動(dòng)態(tài)增長(zhǎng)。同時(shí)考慮到設(shè)計(jì)該算法時(shí),沒(méi)有涉及到在迭代過(guò)程中各個(gè)數(shù)據(jù)點(diǎn)的插入和刪除,各個(gè)數(shù)據(jù)點(diǎn)具體劃分到那個(gè)聚類(lèi)中,是由結(jié)構(gòu)體成員變量中的className來(lái)標(biāo)識(shí),因此選用了Vector來(lái)作為存儲(chǔ)數(shù)據(jù)的容器,這樣當(dāng)從文件輸入大量數(shù)據(jù)時(shí),由程序自己開(kāi)辟需要的存儲(chǔ)空間。同時(shí),也可通過(guò)Vector向量容器提供的size和迭代器方法,實(shí)現(xiàn)遍歷并按照所在聚類(lèi)進(jìn)行輸出。 每個(gè)數(shù)據(jù)點(diǎn)都含有X、Y坐標(biāo),算法初始狀態(tài)時(shí),指定聚類(lèi)的具體個(gè)數(shù)K,初試狀態(tài)的K個(gè)聚類(lèi)中心由輸入文件的前K個(gè)數(shù)據(jù)點(diǎn)來(lái)指定。算法在每一次迭代中,需要計(jì)算各個(gè)點(diǎn)到K個(gè)聚類(lèi)中心坐標(biāo)的歐氏距離,并選擇距離最近的一個(gè)聚類(lèi),用該聚類(lèi)的名稱(chēng)標(biāo)識(shí)當(dāng)前數(shù)據(jù)點(diǎn)。當(dāng)所有數(shù)據(jù)點(diǎn)遍歷完后,計(jì)算劃分到每個(gè)聚類(lèi)中所有數(shù)據(jù)點(diǎn)X與Y的均值,并將該均值與前一次聚類(lèi)中心點(diǎn)的坐標(biāo)相比較。當(dāng)X與Y的誤差小于或者等于1e-6時(shí),則結(jié)束迭代并輸出收斂后的K歌聚類(lèi)的中心坐標(biāo)。 (二)變量和函數(shù)說(shuō)明 (1)定義結(jié)構(gòu)體類(lèi)型,用于存儲(chǔ)數(shù)據(jù)點(diǎn)坐標(biāo)、所在聚類(lèi)、與聚類(lèi)中心距離 (2)變量聲明 vector vector vector (3)函數(shù)聲明 字符串轉(zhuǎn)換函數(shù):將整型變量轉(zhuǎn)換成字符串類(lèi)型: 讀入數(shù)據(jù)函數(shù):從文件讀入坐標(biāo)數(shù)據(jù): 初始化數(shù)據(jù)集合函數(shù): 計(jì)算各個(gè)數(shù)據(jù)點(diǎn)距離聚點(diǎn)中心的歐氏距離的函數(shù): 將各個(gè)點(diǎn)劃分到相應(yīng)類(lèi)的函數(shù): (三)核心代碼(部分) (1)初始化數(shù)據(jù)集合函數(shù): (2)K-means函數(shù): 以上是“C語(yǔ)言如何實(shí)現(xiàn)K-Means算法”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對(duì)大家有所幫助,如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!typedef struct point
{
float x,y; //數(shù)據(jù)點(diǎn)的坐標(biāo)
string className; //所屬的聚類(lèi)
float distance; //距離聚類(lèi)中心的距離
}Point;
string converToString(int x);
vector
void initDataset(int classNum,vector
string computerDistance(Point *p_totalPoints,vector
void kMeansClustering(int classNum,vector
void initDataset(int classNum,vector
void kMeansClustering(int classNum,vector
網(wǎng)站名稱(chēng):C語(yǔ)言如何實(shí)現(xiàn)K-Means算法
網(wǎng)站網(wǎng)址:http://weahome.cn/article/pjchpi.html