spark dataframe partition
-
데이터의 partition 수와 partition 별로 레코드 수 확인 방법spark 2021. 7. 18. 21:57
문제 DataFrame df 에 대해 다음을 확인하는 방법 몇개의 partition 으로 나뉘어져 있는지? partition-id 별로 몇개의 record 가 들어 있는지? Code val df: DataFrame = ??? val numPartitions: Int = df.rdd.getNumPartitions println(numPartitions) import org.apache.spark.sql.functions.spark_partition_id df.groupBy(spark_partition_id()).count().show()