broadcast
-
broadcast join 과 bucket joinspark 2021. 7. 26. 00:11
broadcast join join 할 데이터가 작은게 있을 경우 spark 에서 자동으로 broadcast join 을 적용해 준다. broadcast join 을 적용하라고 broadcast() function 으로 Hint 를 줄 수도 있다. import org.apache.spark.sql.functions.broadcast import org.apache.spark.sql.{Column, DataFrame, SparkSession} object MySpark extends Serializable { def main(args: Array[String]): Unit = { val spark: SparkSession = ??? val smallDf: DataFrame = ??? val hugeDf: ..
-
BroadcastState 예제flink 2021. 5. 20. 01:37
문제 입력으로 직원 Employee(id: Int, dept: String) 목록과 퇴직자 RetireId(id: Int) 목록이 있을 때, 직원 목록에서 퇴직자 목록을 제외 후 부서별(dept)로 남게되는 인원 정보 EmployeeLeft(dept: String, count: Int) 를 출력한다. RetireId 목록을 broadcast 해 구현한다. Input(in code) 직원 Employee Employee(1, "dept1") Employee(2, "dept2") Employee(3, "dept3") Employee(4, "dept1") Employee(5, "dept2") Employee(6, "dept3") Employee(7, "dept4") 퇴직자 RetireId RetireId(2..