-
Pandas dataframe <-> Spark dataframe 변환pyspark 2025. 1. 10. 11:55
Spark dataframe -> Pandas dataframe
toPandas() 메서드로 변환할 수 있다.
spark_df = spark.read.parquet("hdfs://...").limit(10) pandas_df = spark_df.toPandas()
Pandas dataframe -> Spark dataframe
pandas_df = pd.read_csv("data.csv", header=0) # spark, pandas 버전에 따라 아래 추가가 필요할 수 있다. # https://stackoverflow.com/a/76404841/5137193 pd.DataFrame.iteritems = pd.DataFrame.items spark_df = spark.createDataFrame(pandas_df).toDF("url", "count")
'pyspark' 카테고리의 다른 글
pyspark 에서 avro 파일 읽기 (0) 2024.10.29 dataclass 로 부터 dataframe schema 추출하기 (0) 2024.05.29 pyspark Local 개발 환경 구성 (0) 2023.12.10