數(shù)據(jù)采集過程包括集成、導(dǎo)入、格式化。
創(chuàng)新互聯(lián)建站專業(yè)為企業(yè)提供察隅網(wǎng)站建設(shè)、察隅做網(wǎng)站、察隅網(wǎng)站設(shè)計(jì)、察隅網(wǎng)站制作等企業(yè)網(wǎng)站建設(shè)、網(wǎng)頁(yè)設(shè)計(jì)與制作、察隅企業(yè)網(wǎng)站模板建站服務(wù),十余年察隅做網(wǎng)站經(jīng)驗(yàn),不只是建網(wǎng)站,更提供有價(jià)值的思路和整體網(wǎng)絡(luò)服務(wù)。
數(shù)據(jù)采集過程中首先集成來(lái)自不同來(lái)源的數(shù)據(jù)。數(shù)據(jù)集成要考慮存儲(chǔ)架構(gòu)、采集方式、接口方式、采集周期等。
在存儲(chǔ)架構(gòu)方面,可以考慮在數(shù)據(jù)源側(cè)設(shè)置數(shù)據(jù)暫存區(qū)(Staging Area),也可以考慮在采集平臺(tái)側(cè)設(shè)置的暫存區(qū)??扛鶕?jù)數(shù)據(jù)量和累計(jì)速度來(lái)設(shè)置合理大小的數(shù)據(jù)暫存區(qū),防止數(shù)據(jù)溢出。
在存取方式方面,可以根據(jù)應(yīng)用的需要采用不同的存取方式。采集方式包括單個(gè)采集和批量采集兩種類型,對(duì)于數(shù)據(jù)量小、時(shí)效性要求高的應(yīng)用,可以采用單個(gè)采集的方式,當(dāng)數(shù)據(jù)形成后可以立即同步到數(shù)據(jù)倉(cāng)庫(kù)。比如用于審計(jì)的操作日志,可以采用單個(gè)采集的方式,當(dāng)操作日志產(chǎn)生后就實(shí)時(shí)地同步到數(shù)據(jù)倉(cāng)庫(kù)。對(duì)于文件多而且實(shí)時(shí)性要求相對(duì)較低的數(shù)據(jù),可以等文件數(shù)達(dá)到一定規(guī)模或者達(dá)到一定的時(shí)間周期后,批量采集或者推送到數(shù)據(jù)倉(cāng)庫(kù)。
在接口方式方面,對(duì)于批量采集的數(shù)據(jù),可以考慮采用FTP方式,對(duì)于單個(gè)采集的數(shù)據(jù),可以采用API或者Web Services接口的方式。
在采集周期方面,通常是采集周期越短,數(shù)據(jù)的實(shí)時(shí)性越高,數(shù)據(jù)分析的結(jié)果越及時(shí)。企業(yè)可以根據(jù)應(yīng)用的需要設(shè)置不同的采集周期,要考慮數(shù)據(jù)暫存區(qū)能否滿足要求。
在數(shù)據(jù)導(dǎo)入方面,根據(jù)數(shù)據(jù)規(guī)模大小分為三種導(dǎo)入類型。
第一種是數(shù)據(jù)量大而且需要導(dǎo)入數(shù)據(jù)定義的場(chǎng)景,比如數(shù)據(jù)定義包括索引、分區(qū)等,可以考慮采用大文件導(dǎo)入方式,這樣可以保證數(shù)據(jù)源的完整性。
第二種是對(duì)于數(shù)據(jù)源結(jié)構(gòu)簡(jiǎn)單、導(dǎo)入文件多、規(guī)模大的數(shù)據(jù),可以采用批量文件導(dǎo)入的方式,這樣可以看到導(dǎo)入過程中產(chǎn)生的錯(cuò)誤,并及時(shí)糾正,保證數(shù)據(jù)導(dǎo)入的質(zhì)量。
最后一種是對(duì)于數(shù)據(jù)量小的單個(gè)文件,比如某些代碼表、配置文件等,可以通過數(shù)據(jù)導(dǎo)入工具逐個(gè)導(dǎo)入,這種方式比較簡(jiǎn)單靈活。
數(shù)據(jù)采集階段的數(shù)據(jù)規(guī)范化工作非常重要,因?yàn)閿?shù)據(jù)分析必須基于一個(gè)統(tǒng)一的標(biāo)準(zhǔn),而多種數(shù)據(jù)源就某一個(gè)數(shù)據(jù)通常會(huì)存在形成和內(nèi)容上的不同。比如在A數(shù)據(jù)源中,日期格式以“年-月-日”形式存儲(chǔ),而B數(shù)據(jù)源中以“月-日-年”形成存儲(chǔ),因此需要將這兩種數(shù)據(jù)源中的格式進(jìn)行統(tǒng)一。
也有的字段存儲(chǔ)的數(shù)據(jù)類型不一樣,比如在A數(shù)據(jù)源中,年齡字段以字符串格式存放,而B數(shù)據(jù)源中以整型格式存放,需要將兩個(gè)字段統(tǒng)一為一種數(shù)據(jù)類型。還有的數(shù)據(jù)在不同數(shù)據(jù)源中存放的內(nèi)容不一樣,但是表達(dá)的是同一個(gè)意思。比如A數(shù)據(jù)源中的“性別”是“M”和“F”代表“男”和“女”,而B數(shù)據(jù)源中“性別”則是用“1”代表“男”,而用“0”代表“女”,因此需要實(shí)現(xiàn)兩種數(shù)據(jù)源“性別”在語(yǔ)義上的統(tǒng)一。
不同數(shù)據(jù)源在同一數(shù)據(jù)上存在差異的原因是信息系統(tǒng)設(shè)計(jì)時(shí)并沒有考慮到其它信息系統(tǒng)或者不同的應(yīng)用提供商并沒有遵循共同的編碼規(guī)范。