pyspark創(chuàng)建空的DataFrame-創(chuàng)新互聯(lián)

前言
正文
- 創(chuàng)建沒有schema的DataFrame
- 創(chuàng)建有schema的DataFrame
- - 直接創(chuàng)建空的DataFrame
  - - 法1：直接傳遞 [ ]
  - 通過空RDD創(chuàng)建空DataFrame
  - - 法2：通過spark.createDataFrame(rdd)函數(shù)
    - 法3：通過rdd.toDF函數(shù)
總結(jié)

廣州ssl適用于網(wǎng)站、小程序/APP、API接口等需要進行數(shù)據(jù)傳輸應(yīng)用場景，ssl證書未來市場廣闊！成為創(chuàng)新互聯(lián)公司的ssl證書銷售渠道，可以享受市場價格4-6折優(yōu)惠！如果有意向歡迎電話聯(lián)系或者加微信：028-86922220（備注：SSL證書合作）期待與您的合作！前言

做大數(shù)據(jù)分析時，經(jīng)常會使用到空的DataFrame，直接給spark.createDataFrame傳遞空的Pandas DataFrame會報錯：

spark.createDataFrame(data=pd.DataFrame(data=None,columns=['pageid','uid']))
# 報錯：
ValueError: can not infer schema from empty dataset

因此總結(jié)了幾種可以成功創(chuàng)建空的spark DataFrame的方法。

參考：None

正文創(chuàng)建沒有schema的DataFrame

df_empty = spark.createDataFrame([], StructType([]))
df_empty.printSchema()
"""
輸出:
root
"""

創(chuàng)建有schema的DataFrame

創(chuàng)建schema:

from pyspark.sql.types import StructType,StructField, StringType
schema = StructType([
  StructField('pageid', StringType(), True),
  StructField('uid', StringType(), True)
  ])

# 查看schema  
print(schema.simpleString())
"""
輸出:
struct"""

直接創(chuàng)建空的DataFrame 法1：直接傳遞 [ ]

df_empty1 = spark.createDataFrame([], schema)
df_empty1.printSchema()
"""
輸出:
root
 |-- pageid: string (nullable = true)
 |-- uid: string (nullable = true)

"""

通過空RDD創(chuàng)建空DataFrame

可以通過兩種方式創(chuàng)建空的rdd:

rdd1 = spark.sparkContext.emptyRDD()
rdd2 = spark.sparkContext.parallelize([])

法2：通過spark.createDataFrame(rdd)函數(shù)

df_empty2 = spark.createDataFrame(rdd1,schema)
df_empty2.printSchema()
"""
輸出:
root
 |-- pageid: string (nullable = true)
 |-- uid: string (nullable = true)
"""

法3：通過rdd.toDF函數(shù)

df_empty3 = rdd1.toDF(schema)
df_empty3.printSchema()
"""
輸出:
root
 |-- pageid: string (nullable = true)
 |-- uid: string (nullable = true)
"""

總結(jié)

推薦使用通過“法1”，流程簡單：

from pyspark.sql.types import StructType, StructField, StringType
schema = StructType([
  StructField('pageid', StringType(), True),
  StructField('uid', StringType(), True)
  ])
df_empty1 = spark.createDataFrame([], schema)

完。

你是否還在尋找穩(wěn)定的海外服務(wù)器提供商？創(chuàng)新互聯(lián)www.cdcxhl.cn海外機房具備T級流量清洗系統(tǒng)配攻擊溯源，準確流量調(diào)度確保服務(wù)器高可用性，企業(yè)級服務(wù)器適合批量采購，新人活動首月15元起，快前往官網(wǎng)查看詳情吧

文章名稱：pyspark創(chuàng)建空的DataFrame-創(chuàng)新互聯(lián)
鏈接URL：http://weahome.cn/article/csocco.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

pyspark創(chuàng)建空的DataFrame-創(chuàng)新互聯(lián)

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管