ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • pyspark 에서 avro 파일 읽기
    pyspark 2024. 10. 29. 11:19

    문제

    pyspark(jupyter notebook) 에서 avro 파일을  읽어본다.

     

    방법1

    1. spark conf 의 `spark.jars.packages` 를 아래와 같이 설정한다.

    import pyspark
    from pyspark.sql import SparkSession
    
    
    conf = pyspark.SparkConf().setAll([
      ('spark.jars.packages', 'org.apache.spark:spark-avro_2.12:3.1.2'),
      ...
    ])
    
    spark = SparkSession.builder.config(conf=conf).getOrCreate()

     

    2. 아래와 같이 코드를 작성한다.

    df = spark.read.format('avro').load('myfile.avro')

     

    방법2

    1. spark-avro_xxx.jar 를 다운로드 한다.
        예) https://mvnrepository.com/artifact/org.apache.spark/spark-avro_2.12/3.1.2

     

    2. spark conf 의  'spark.jars'  값에 다운로드 받은 spark-avro_xxx.jar 를 설정한다.

    import pyspark
    from pyspark.sql import SparkSession
    
    
    conf = pyspark.SparkConf().setAll([
      ('spark.jars', '/home/windbird/spark-avro_2.12-3.1.2.jar'),
      ...
    ])
    
    spark = SparkSession.builder.config(conf=conf).getOrCreate()

     

    3. 아래와 같이 코드를 작성한다.

    df = spark.read.format('avro').load('myfile.avro')

    'pyspark' 카테고리의 다른 글

    dataclass 로 부터 dataframe schema 추출하기  (0) 2024.05.29
    pyspark Local 개발 환경 구성  (0) 2023.12.10

    댓글

Designed by Tistory.