今天就跟大家聊聊有關(guān)怎樣幫助解決大數(shù)據(jù)轉(zhuǎn)換和管理問(wèn)題,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結(jié)了以下內(nèi)容,希望大家根據(jù)這篇文章可以有所收獲。
目前成都創(chuàng)新互聯(lián)公司已為1000+的企業(yè)提供了網(wǎng)站建設(shè)、域名、網(wǎng)絡(luò)空間、網(wǎng)站托管、服務(wù)器租用、企業(yè)網(wǎng)站設(shè)計(jì)、三元網(wǎng)站維護(hù)等服務(wù),公司將堅(jiān)持客戶導(dǎo)向、應(yīng)用為本的策略,正道將秉承"和諧、參與、激情"的文化,與客戶和合作伙伴齊心協(xié)力一起成長(zhǎng),共同發(fā)展。
盡管大數(shù)據(jù)分析技術(shù)取得了驚人的進(jìn)步,但我們?cè)诤艽蟪潭壬先孕枰謩?dòng)來(lái)完成重要任務(wù),例如數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)管理。隨著數(shù)據(jù)量的增長(zhǎng),手動(dòng)完成任務(wù)與自動(dòng)化產(chǎn)生的生產(chǎn)力差距越來(lái)越大,這使得以人工智能和機(jī)器學(xué)習(xí)為基礎(chǔ)的自動(dòng)化趨勢(shì)越來(lái)越有市場(chǎng)。機(jī)器學(xué)習(xí)可以幫助縮小這一差距嗎?
坦率地說(shuō),數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)管理問(wèn)題頗具挑戰(zhàn)性。各行各業(yè)的公司都渴望將機(jī)器學(xué)習(xí)與他們的數(shù)據(jù)庫(kù)結(jié)合使用,以獲得競(jìng)爭(zhēng)優(yōu)勢(shì)。但是,數(shù)據(jù)不干凈、數(shù)據(jù)未集成、不可比較和不匹配的數(shù)據(jù)問(wèn)題層出不窮,使公司的大數(shù)據(jù)計(jì)劃陷入困境。
許多從事機(jī)器學(xué)習(xí)的數(shù)據(jù)科學(xué)家花費(fèi)了90%的時(shí)間來(lái)查找、集成、修復(fù)和清理其輸入數(shù)據(jù)。人們似乎沒(méi)有意識(shí)到數(shù)據(jù)科學(xué)家不再是數(shù)據(jù)科學(xué)家,而是成為了數(shù)據(jù)集成商。
不過(guò)也有一個(gè)好消息,服務(wù)器租用,機(jī)器學(xué)習(xí)本身可以幫助機(jī)器學(xué)習(xí)。這個(gè)想法是利用算法的預(yù)測(cè)能力來(lái)模擬人類數(shù)據(jù)處理。這不是100%完美的解決方案,但它可以幫助緩解工作強(qiáng)度,讓數(shù)據(jù)科學(xué)家轉(zhuǎn)向真正的創(chuàng)新工作。
您可以在任何你能買(mǎi)到的地方購(gòu)買(mǎi)ML,通過(guò)使用ML來(lái)來(lái)幫助您完成ETL的轉(zhuǎn)換部分。
轉(zhuǎn)換和管理數(shù)據(jù)
雖然它們?cè)谀承┓矫媸窍嗨频模菙?shù)據(jù)管理和數(shù)據(jù)轉(zhuǎn)換之間有重要的區(qū)別。數(shù)據(jù)轉(zhuǎn)換是數(shù)據(jù)集成過(guò)程中的第一步,其目標(biāo)是將異類數(shù)據(jù)轉(zhuǎn)換為通用的全局模式,組織可以提前制定該模式。自動(dòng)腳本通常用于將美元轉(zhuǎn)換成歐元,或?qū)⒂㈡^轉(zhuǎn)換成公斤。
轉(zhuǎn)換階段之后,分析人員開(kāi)始管理和分析數(shù)據(jù)。第一步通常涉及運(yùn)行“match/merge”函數(shù)來(lái)創(chuàng)建與相同實(shí)體對(duì)應(yīng)的記錄集群,例如將不同但拼寫(xiě)相似的名稱分組在一起。像“編輯距離”這樣的概念可以用來(lái)確定兩個(gè)不同實(shí)體之間的距離。
然后使用更多的規(guī)則來(lái)比較各種實(shí)體,以確定給定記錄的最佳值。公司可以聲明最后一項(xiàng)是最好的,或者使用一組值中的公共值,這樣就可以產(chǎn)生最佳數(shù)據(jù)。
幾十年來(lái),這種通用的兩步過(guò)程已在許多數(shù)據(jù)倉(cāng)庫(kù)中使用,并且在現(xiàn)代的數(shù)據(jù)湖中繼續(xù)使用。但是,ETL和數(shù)據(jù)管理在很大程度上未能跟上今天的數(shù)據(jù)量以及企業(yè)面臨的挑戰(zhàn)規(guī)模。
例如,這需要預(yù)先定義一個(gè)全局模式,這阻礙了許多ETL的進(jìn)行,這些工作試圖集成更多的數(shù)據(jù)源。在有些時(shí)候,程序員無(wú)法跟上必須設(shè)置的數(shù)據(jù)轉(zhuǎn)換規(guī)則的數(shù)量。
如果您有10個(gè)數(shù)據(jù)源,您還可以這樣做,但是,香港免備案主機(jī),如果您有10,000個(gè),那就不太可能了。
顯然,這需要一種不同的方法。
在小型企業(yè)中,您可能可以提前創(chuàng)建全局?jǐn)?shù)據(jù)模式,然后在整個(gè)組織中強(qiáng)制使用它,從而省去了昂貴的ETL和數(shù)據(jù)管理項(xiàng)目的成本,一起放在數(shù)據(jù)倉(cāng)庫(kù)中。但是,在大型組織中,這種自上而下的方法不可避免地會(huì)失敗。
即使大型企業(yè)中的業(yè)務(wù)部門(mén)彼此非常相似,它們記錄數(shù)據(jù)的方式也會(huì)有微小的差異。這些微小差異需要加以考慮,然后才能對(duì)其進(jìn)行有意義的分析,這只是企業(yè)數(shù)據(jù)性質(zhì)的反映。
因此業(yè)務(wù)靈活性需要一定程度的獨(dú)立性,這意味著每個(gè)業(yè)務(wù)部門(mén)都建立自己的數(shù)據(jù)中心。
例如,以豐田汽車歐洲公司(Toyota Motor Europe)為例,該公司在每個(gè)業(yè)務(wù)國(guó)家都有獨(dú)立的客戶支持組織。該公司希望為250個(gè)數(shù)據(jù)庫(kù)中的所有實(shí)體創(chuàng)建一個(gè)主記錄,其中包含40種不同語(yǔ)言的3000萬(wàn)條記錄。
豐田汽車歐洲公司面臨的問(wèn)題是,ETL和數(shù)據(jù)管理項(xiàng)目的規(guī)模是巨大的,如果按照傳統(tǒng)方式進(jìn)行,將消耗大量的資源。該公司決定使用Tamr來(lái)幫助解決機(jī)器學(xué)習(xí)的挑戰(zhàn),而不是數(shù)據(jù)轉(zhuǎn)換和使用數(shù)據(jù)管理過(guò)程。
ETL最大的問(wèn)題是已經(jīng)預(yù)先定義了全局模式,如何大規(guī)模地做到這一點(diǎn)是個(gè)問(wèn)題。需要使用機(jī)器學(xué)習(xí)進(jìn)行自下向上的匹配、自下而上地構(gòu)造目標(biāo)模式,從規(guī)模上看,這是唯一可行的方式。
這并不意味著機(jī)器學(xué)習(xí)提供了非常簡(jiǎn)單的方法來(lái)解決這些棘手的數(shù)據(jù)集成問(wèn)題。它仍然需要大量的數(shù)據(jù)和處理能力,您通常需要一個(gè)最優(yōu)秀的員工來(lái)幫助指導(dǎo)軟件獲得正確的數(shù)據(jù)分析結(jié)果與決策見(jiàn)解。
這樣來(lái)看的話,成本并不便宜,但這不是最重要的。但還有一個(gè)問(wèn)題是,不同的供應(yīng)商之間該如何選擇。不同國(guó)家或地區(qū)的供應(yīng)商提供的解決方案不同,而且出于一些宏觀因素,會(huì)出現(xiàn)不同的選擇。
機(jī)器幫助解決大數(shù)據(jù)轉(zhuǎn)換和管理問(wèn)題,這些數(shù)據(jù)問(wèn)題不能完全外包給其他公司,所以不要指望完全利用機(jī)器學(xué)習(xí)來(lái)處理數(shù)據(jù),而人在其中的作用是非常重要的。人與機(jī)器學(xué)習(xí)合作才能夠使您的數(shù)據(jù)集成和管理效率最大化。
看完上述內(nèi)容,你們對(duì)怎樣幫助解決大數(shù)據(jù)轉(zhuǎn)換和管理問(wèn)題有進(jìn)一步的了解嗎?如果還想了解更多知識(shí)或者相關(guān)內(nèi)容,請(qǐng)關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝大家的支持。