真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

spark中如何實(shí)現(xiàn)行列轉(zhuǎn)換即寬表窄表轉(zhuǎn)換

spark中如何實(shí)現(xiàn)行列轉(zhuǎn)換即寬表窄表轉(zhuǎn)換,很多新手對此不是很清楚,為了幫助大家解決這個(gè)難題,下面小編將為大家詳細(xì)講解,有這方面需求的人可以來學(xué)習(xí)下,希望你能有所收獲。

創(chuàng)新互聯(lián)公司是一家集網(wǎng)站建設(shè),葉縣企業(yè)網(wǎng)站建設(shè),葉縣品牌網(wǎng)站建設(shè),網(wǎng)站定制,葉縣網(wǎng)站建設(shè)報(bào)價(jià),網(wǎng)絡(luò)營銷,網(wǎng)絡(luò)優(yōu)化,葉縣網(wǎng)站推廣為一體的創(chuàng)新建站企業(yè),幫助傳統(tǒng)企業(yè)提升企業(yè)形象加強(qiáng)企業(yè)競爭力。可充分滿足這一群體相比中小企業(yè)更為豐富、高端、多元的互聯(lián)網(wǎng)需求。同時(shí)我們時(shí)刻保持專業(yè)、時(shí)尚、前沿,時(shí)刻以成就客戶成長自我,堅(jiān)持不斷學(xué)習(xí)、思考、沉淀、凈化自己,讓我們?yōu)楦嗟钠髽I(yè)打造出實(shí)用型網(wǎng)站。

不定期上代碼干貨

spark列轉(zhuǎn)行

from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession, SQLContext, Row, functions as F
from pyspark.sql.functions import array, col, explode, struct, lit

conf = SparkConf().setAppName("test").setMaster("local[*]")
sc = SparkContext(conf=conf)
spark = SQLContext(sc)

# df is datasource, by will exclude column
def df_columns_to_line(df, by):
    # Filter dtypes and split into column names and type description
    df_a = df.select([col(c).cast("string") for c in df.columns])
    cols, dtypes = zip(*((c, t) for (c, t) in df_a.dtypes if c not in by))
    # Spark SQL supports only homogeneous columns
    assert len(set(dtypes)) == 1, "All columns have to be of the same type"
    # Create and explode an array of (column_name, column_value) structs
    kvs = explode(array([
      struct(lit(c).alias("feature"), col(c).alias("value")) for c in cols
    ])).alias("kvs")
    return df_a.select(by + [kvs]).select(by + ["kvs.feature", "kvs.value"])

df = sc.parallelize([(1, 0.0, 0.6), (1, 0.6, 0.7)]).toDF(["A", "col_1", "col_2"])
df_row_data = df_columns_to_line(df, ["A"])
df.show()
df_row_data.show()
>>> df.show()
+---+-----+-----+
|  A|col_1|col_2|
+---+-----+-----+
|  1|  0.0|  0.6|
|  1|  0.6|  0.7|
+---+-----+-----+

>>> df_row_data.show()
+---+-------+-----+
|  A|feature|value|
+---+-------+-----+
|  1|  col_1|  0.0|
|  1|  col_2|  0.6|
|  1|  col_1|  0.6|
|  1|  col_2|  0.7|
+---+-------+-----+

注意feature和value是原多列名轉(zhuǎn)換為行數(shù)據(jù)后,重新定義的最終兩列名

spark行轉(zhuǎn)列

df_features = df_row_data.select('feature').distinct().collect()
features = map(lambda r:r.feature, df_features)
df_column_data = df_row_data.groupby("A").pivot('feature', features).agg(F.first('value', ignorenulls=True))
df_column_data.show()
+---+-----+-----+
|  A|col_2|col_1|
+---+-----+-----+
|  1|  0.6|  0.0|
+---+-----+-----+

行轉(zhuǎn)列比較簡單,在上文結(jié)果基礎(chǔ)上直接轉(zhuǎn)換,關(guān)鍵是pivot函數(shù)的使用

看完上述內(nèi)容是否對您有幫助呢?如果還想對相關(guān)知識(shí)有進(jìn)一步的了解或閱讀更多相關(guān)文章,請關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝您對創(chuàng)新互聯(lián)的支持。


網(wǎng)站欄目:spark中如何實(shí)現(xiàn)行列轉(zhuǎn)換即寬表窄表轉(zhuǎn)換
網(wǎng)站路徑:http://weahome.cn/article/ggssds.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部