Spark 可以讀取文本,csv和rmdb中的數(shù)據(jù),并且?guī)в蓄愋妥詣?dòng)檢測(cè)功能
目前創(chuàng)新互聯(lián)已為上千多家的企業(yè)提供了網(wǎng)站建設(shè)、域名、網(wǎng)絡(luò)空間、網(wǎng)站托管維護(hù)、企業(yè)網(wǎng)站設(shè)計(jì)、印臺(tái)網(wǎng)站維護(hù)等服務(wù),公司將堅(jiān)持客戶導(dǎo)向、應(yīng)用為本的策略,正道將秉承"和諧、參與、激情"的文化,與客戶和合作伙伴齊心協(xié)力一起成長(zhǎng),共同發(fā)展。public final static String DATA_SEPARATOR_TAB = "\t";
session.read().format("csv").option("delimiter", Constants.DATA_SEPARATOR_TAB).option("inferSchema", "true").option("header", "true").option("encoding", charset).csv(path).toDF(columnNames).write().mode(mode).saveAsTable(tempTable);
紅色屬性決定spark是否自動(dòng)探測(cè)數(shù)據(jù)類型,如果不開啟自動(dòng)探測(cè),默認(rèn)都是string
rdbms導(dǎo)入到spark中默認(rèn)會(huì)類型探測(cè)和對(duì)應(yīng),但是在處理sqlserver的時(shí)間類型有問題
如上圖所示
只有datetime可以被spark識(shí)別并存儲(chǔ)為日期類型,其他的都落地成了String類型,所以在執(zhí)行data_formate時(shí)因?yàn)橐嘧鲆徊睫D(zhuǎn)換所以性能會(huì)差很多
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。