這篇文章主要為大家分析了大數(shù)據(jù)中的數(shù)據(jù)挖掘與建模是怎樣的的相關(guān)知識(shí)點(diǎn),內(nèi)容詳細(xì)易懂,操作細(xì)節(jié)合理,具有一定參考價(jià)值。如果感興趣的話,不妨跟著跟隨小編一起來(lái)看看,下面跟著小編一起深入學(xué)習(xí)“大數(shù)據(jù)中的數(shù)據(jù)挖掘與建模是怎樣的”的知識(shí)吧。
成都創(chuàng)新互聯(lián)是一家以網(wǎng)站建設(shè)公司、網(wǎng)頁(yè)設(shè)計(jì)、品牌設(shè)計(jì)、軟件運(yùn)維、網(wǎng)站推廣、小程序App開(kāi)發(fā)等移動(dòng)開(kāi)發(fā)為一體互聯(lián)網(wǎng)公司。已累計(jì)為火鍋店設(shè)計(jì)等眾行業(yè)中小客戶(hù)提供優(yōu)質(zhì)的互聯(lián)網(wǎng)建站和軟件開(kāi)發(fā)服務(wù)。
紙上得來(lái)終覺(jué)淺,絕知此事要躬行。
數(shù)據(jù)挖掘是基于統(tǒng)計(jì)學(xué)原理,利用機(jī)器學(xué)習(xí)中的算法工具實(shí)現(xiàn)價(jià)值信息的發(fā)現(xiàn)。機(jī)器學(xué)習(xí)是一種實(shí)現(xiàn)人工智能的方法,深度學(xué)習(xí)是實(shí)現(xiàn)機(jī)器學(xué)習(xí)的一種技術(shù)。
四大經(jīng)典算法:分類(lèi)、關(guān)聯(lián)、聚類(lèi)、回歸
一、監(jiān)督學(xué)習(xí)
(通俗來(lái)說(shuō)就是已知樣本類(lèi)別,即知道當(dāng)前的樣本是哪一類(lèi)的樣本。)1、分類(lèi)分析:找出一組對(duì)象的共同特點(diǎn)并按照分類(lèi)模式將他們分為不同類(lèi),分為線性分類(lèi)和非線性分類(lèi)。
線性分類(lèi)典型的算法包括邏輯回歸和線性判別分析。非線性分類(lèi)經(jīng)典算法包括K近鄰(KNN)、支持向量機(jī)(SVM)、決策樹(shù)(D Tree)、樸素貝葉斯(NB)2、回歸分析:反映事務(wù)數(shù)據(jù)屬性在時(shí)間上的特征,預(yù)測(cè)數(shù)據(jù)間的相關(guān)關(guān)系,與分類(lèi)區(qū)別在于,分類(lèi)是預(yù)測(cè)目標(biāo)的離散變量,而回歸是預(yù)測(cè)目標(biāo)的連續(xù)變量。典型的回歸分析模型包括線性回歸分析、支持向量機(jī)(回歸)、K近鄰(回歸)。二、無(wú)監(jiān)督學(xué)習(xí)(事先沒(méi)有任何訓(xùn)練數(shù)據(jù)樣本,需要直接對(duì)數(shù)據(jù)進(jìn)行建模,即不提供經(jīng)驗(yàn)和訓(xùn)練樣本,完全靠自己摸索)
1、關(guān)聯(lián)分析:描述數(shù)據(jù)庫(kù)中數(shù)據(jù)之間存在關(guān)系的規(guī)則。關(guān)聯(lián)規(guī)則挖掘中有4個(gè)指標(biāo):置信度、支持度、期望置信度、提升度。典型算法:Apriori算法、FP-Tree算法、PrefixSpan算法。2、聚類(lèi)分析:訓(xùn)練樣本標(biāo)簽信息未知,通過(guò)學(xué)習(xí)揭示數(shù)據(jù)內(nèi)在性質(zhì)及規(guī)律。典型算法:K均值算法(K-means)、DBSCAN(具有噪聲的基于密度的聚類(lèi)方法)。三、沃爾瑪經(jīng)典營(yíng)銷(xiāo)案例:啤酒與尿布
模型發(fā)現(xiàn):
20世紀(jì)90年代的美國(guó)沃爾瑪超市中,管理人員分析銷(xiāo)售數(shù)據(jù)時(shí)發(fā)現(xiàn)了一個(gè)令人難于理解的現(xiàn)象:
在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無(wú)關(guān)系的商品會(huì)經(jīng)常出現(xiàn)在同一個(gè)購(gòu)物籃中。原因分析:
在美國(guó)有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親前去超市購(gòu)買(mǎi)尿布。
父親在購(gòu)買(mǎi)尿布的同時(shí),往往會(huì)順便為自己購(gòu)買(mǎi)啤酒,這樣就會(huì)出現(xiàn)啤酒與尿布這兩件看上去不相干的商品經(jīng)常會(huì)出現(xiàn)在同一個(gè)購(gòu)物籃的現(xiàn)象。模型應(yīng)用:
在賣(mài)場(chǎng)嘗試將啤酒與尿布擺放在相同的區(qū)域,讓年輕的父親可以同時(shí)找到這兩件商品,并很快地完成購(gòu)物;
而沃爾瑪超市也可以讓這些客戶(hù)一次購(gòu)買(mǎi)兩件商品、而不是一件,從而獲得了很好的商品銷(xiāo)售收入。理論支撐:
1993年美國(guó)學(xué)者Agrawal提出通過(guò)分析購(gòu)物籃中的商品集合,從而找出商品之間關(guān)聯(lián)關(guān)系的關(guān)聯(lián)算法,并根據(jù)商品之間的關(guān)系,找出客戶(hù)的購(gòu)買(mǎi)行為。
艾格拉沃從數(shù)學(xué)及計(jì)算機(jī)算法角度提 出了商品關(guān)聯(lián)關(guān)系的計(jì)算方法——Apriori算法。關(guān)于“大數(shù)據(jù)中的數(shù)據(jù)挖掘與建模是怎樣的”就介紹到這了,更多相關(guān)內(nèi)容可以搜索創(chuàng)新互聯(lián)以前的文章,希望能夠幫助大家答疑解惑,請(qǐng)多多支持創(chuàng)新互聯(lián)網(wǎng)站!
當(dāng)前名稱(chēng):大數(shù)據(jù)中的數(shù)據(jù)挖掘與建模是怎樣的
本文路徑:
http://weahome.cn/article/iggpeh.html