groupby
-
spark 에서 groupByKey 로 특정 column 기준 unique row 만 남기기spark 2021. 7. 16. 21:45
문제 아래와 같이 Person 데이터가 있을 때 name age location a 1 A b 2 B a 3 C name 기준으로 unique 한 row 만 남긴다. name 이 a 인 레코드가 2개 있는데, 중복이 제거되어 둘 중 임의의 하나만 남으면 된다. 단순히 groupBy(name) 을 사용하면 age, location 에 대해 aggregation 을 해야되서 복잡해 진다. Code import org.apache.spark.sql.{Dataset, SparkSession} final case class Person(name: String, age: Int, location: String) object MySpark extends Serializable { def main(args: Array..