bucketBy
-
broadcast join 과 bucket joinspark 2021. 7. 26. 00:11
broadcast join join 할 데이터가 작은게 있을 경우 spark 에서 자동으로 broadcast join 을 적용해 준다. broadcast join 을 적용하라고 broadcast() function 으로 Hint 를 줄 수도 있다. import org.apache.spark.sql.functions.broadcast import org.apache.spark.sql.{Column, DataFrame, SparkSession} object MySpark extends Serializable { def main(args: Array[String]): Unit = { val spark: SparkSession = ??? val smallDf: DataFrame = ??? val hugeDf: ..
-
spark managed tables - partitionBy, bucketBy, sortByspark 2021. 7. 25. 19:37
문제 spark 에서 schema 를 적용해 데이터를 읽기에서 사용된 csv 형식의 데이터를 spark managed table 로 저장하기 partitionBy, bucketBy, sortBy 도 사용해 보도록 한다. Code /** * build.sbt 에 아래 의존성을 추가해 준다. * "org.apache.spark" %% "spark-hive" % sparkVersion */ import org.apache.spark.sql.{DataFrame, Encoders, SaveMode, SparkSession} import java.sql.Date final case class Person(name: String, age: Int, birthDay: Date) object MySpark extends..