-
데이터의 partition 수와 partition 별로 레코드 수 확인 방법spark 2021. 7. 18. 21:57
문제
DataFrame df 에 대해 다음을 확인하는 방법
- 몇개의 partition 으로 나뉘어져 있는지?
- partition-id 별로 몇개의 record 가 들어 있는지?
Code
val df: DataFrame = ??? val numPartitions: Int = df.rdd.getNumPartitions println(numPartitions) import org.apache.spark.sql.functions.spark_partition_id df.groupBy(spark_partition_id()).count().show()
'spark' 카테고리의 다른 글
spark managed tables - partitionBy, bucketBy, sortBy (0) 2021.07.25 spark tables - managed vs unmanaged(external) tables (0) 2021.07.25 spark 에서 schema 를 적용해 데이터 읽기 (0) 2021.07.18 spark 에서 groupByKey 로 특정 column 기준 unique row 만 남기기 (0) 2021.07.16 windows10 에 hdfs 설치하기 (0) 2021.07.10