pyspark

Pandas dataframe <-> Spark dataframe 변환

wefree 2025. 1. 10. 11:55

Spark dataframe -> Pandas dataframe 

toPandas() 메서드로 변환할 수 있다.

spark_df = spark.read.parquet("hdfs://...").limit(10)
pandas_df = spark_df.toPandas()

 

 

Pandas dataframe -> Spark dataframe 

pandas_df = pd.read_csv("data.csv", header=0)

# spark, pandas 버전에 따라 아래 추가가 필요할 수 있다.
# https://stackoverflow.com/a/76404841/5137193
pd.DataFrame.iteritems = pd.DataFrame.items

spark_df = spark.createDataFrame(pandas_df).toDF("url", "count")