pyspark
Pandas dataframe <-> Spark dataframe 변환
wefree
2025. 1. 10. 11:55
Spark dataframe -> Pandas dataframe
toPandas() 메서드로 변환할 수 있다.
spark_df = spark.read.parquet("hdfs://...").limit(10)
pandas_df = spark_df.toPandas()
Pandas dataframe -> Spark dataframe
pandas_df = pd.read_csv("data.csv", header=0)
# spark, pandas 버전에 따라 아래 추가가 필요할 수 있다.
# https://stackoverflow.com/a/76404841/5137193
pd.DataFrame.iteritems = pd.DataFrame.items
spark_df = spark.createDataFrame(pandas_df).toDF("url", "count")