怎樣理解K-均值聚類(lèi)原理,針對(duì)這個(gè)問(wèn)題,這篇文章詳細(xì)介紹了相對(duì)應(yīng)的分析和解答,希望可以幫助更多想解決這個(gè)問(wèn)題的小伙伴找到更簡(jiǎn)單易行的方法。
成都創(chuàng)新互聯(lián)公司專(zhuān)注于石峰企業(yè)網(wǎng)站建設(shè),成都響應(yīng)式網(wǎng)站建設(shè),電子商務(wù)商城網(wǎng)站建設(shè)。石峰網(wǎng)站建設(shè)公司,為石峰等地區(qū)提供建站服務(wù)。全流程按需網(wǎng)站建設(shè),專(zhuān)業(yè)設(shè)計(jì),全程項(xiàng)目跟蹤,成都創(chuàng)新互聯(lián)公司專(zhuān)業(yè)和態(tài)度為您提供的服務(wù)
如何正確使用K-均值聚類(lèi)
無(wú)監(jiān)督學(xué)習(xí)是指從無(wú)標(biāo)注數(shù)據(jù)中學(xué)習(xí)模型的機(jī)器學(xué)習(xí)問(wèn)題。無(wú)標(biāo)注數(shù)據(jù)是自然得到的數(shù)據(jù),模型表示數(shù)據(jù)的類(lèi)別、轉(zhuǎn)換或概率無(wú)監(jiān)督學(xué)習(xí)的本質(zhì)是學(xué)習(xí)數(shù)據(jù)中的統(tǒng)計(jì)規(guī)律或潛在結(jié)構(gòu),主要包括聚類(lèi)、降維、概率估計(jì)。
KMeans算法是典型的基于距離的聚類(lèi)算法,采用距離作為相似性的評(píng)價(jià)指標(biāo),即認(rèn)為兩個(gè)對(duì)象的距離越近,其相似度就越大。該算法認(rèn)為簇是由距離靠近的對(duì)象組成的,因此把得到緊湊且獨(dú)立的簇作為最終目標(biāo)。
K個(gè)初始聚類(lèi)中心點(diǎn)的選取對(duì)聚類(lèi)結(jié)果具有較大的影響,因?yàn)樵谠撍惴ǖ谝徊街惺请S機(jī)地選取任意k個(gè)對(duì)象作為初始聚類(lèi)中心,初始地代表一個(gè)簇。該算法在每次迭代中對(duì)數(shù)據(jù)集中剩余的每個(gè)對(duì)象,根據(jù)其與各個(gè)簇中心的距離賦給最近的簇。當(dāng)考查完所有數(shù)據(jù)對(duì)象后,一次迭代運(yùn)算完成,新的聚類(lèi)中心被計(jì)算出來(lái)。算法過(guò)程如下:
(1)從N個(gè)數(shù)據(jù)文檔(樣本)隨機(jī)選取K個(gè)數(shù)據(jù)文檔作為質(zhì)心(聚類(lèi)中心)。
本文在聚類(lèi)中心初始化實(shí)現(xiàn)過(guò)程中采取在樣本空間范圍內(nèi)隨機(jī)生成K個(gè)聚類(lèi)中心。
(2)對(duì)每個(gè)數(shù)據(jù)文檔測(cè)量其到每個(gè)質(zhì)心的距離,并把它歸到最近的質(zhì)心的類(lèi)。
(3)重新計(jì)算已經(jīng)得到的各個(gè)類(lèi)的質(zhì)心。
(4)迭代(2)~(3步直至新的質(zhì)心與原質(zhì)心相等或小于指定閾值,算法結(jié)束。下圖為幾張GIF,形象說(shuō)明k均值聚類(lèi)的過(guò)程。數(shù)據(jù)點(diǎn)。
從最左邊的4點(diǎn)開(kāi)始
從最右邊的4點(diǎn)開(kāi)始
從4個(gè)最高點(diǎn)開(kāi)始
從4個(gè)底線(xiàn)開(kāi)始
從一個(gè)簇中的4個(gè)隨機(jī)點(diǎn)開(kāi)始
關(guān)于怎樣理解K-均值聚類(lèi)原理問(wèn)題的解答就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,如果你還有很多疑惑沒(méi)有解開(kāi),可以關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道了解更多相關(guān)知識(shí)。
新聞標(biāo)題:怎樣理解K-均值聚類(lèi)原理
文章分享:
http://weahome.cn/article/gceojd.html