這篇文章主要為大家展示了python如何讀取hdfs上的parquet文件,內(nèi)容簡而易懂,希望大家可以學(xué)習(xí)一下,學(xué)習(xí)完之后肯定會有收獲的,下面讓小編帶大家一起來看看吧。
屯昌ssl適用于網(wǎng)站、小程序/APP、API接口等需要進(jìn)行數(shù)據(jù)傳輸應(yīng)用場景,ssl證書未來市場廣闊!成為創(chuàng)新互聯(lián)的ssl證書銷售渠道,可以享受市場價格4-6折優(yōu)惠!如果有意向歡迎電話聯(lián)系或者加微信:18980820575(備注:SSL證書合作)期待與您的合作!在使用python做大數(shù)據(jù)和機(jī)器學(xué)習(xí)處理過程中,首先需要讀取hdfs數(shù)據(jù),對于常用格式數(shù)據(jù)一般比較容易讀取,parquet略微特殊。從hdfs上使用python獲取parquet格式數(shù)據(jù)的方法(當(dāng)然也可以先把文件拉到本地再讀取也可以):
1、安裝anaconda環(huán)境。
2、安裝hdfs3。
conda install hdfs3
3、安裝fastparquet。
conda install fastparquet
4、安裝python-snappy。
conda install python-snappy
5、讀取文件
##namenode mode: from hdfs3 import HDFileSystem from fastparquet import ParquetFile hdfs = HDFileSystem(host=IP, port=8020) sc = hdfs.open pf = ParquetFile(filename, open_with=sc) df = pf.to_pandas() ##返回pandas的DataFrame類型 ##HA mode: from hdfs3 import HDFileSystem from fastparquet import ParquetFile host = "nameservice1" conf = { "dfs.nameservices":"nameservice1", ...... } hdfs = HDFileSystem(host = host, pars = conf) ......
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。