-
pyspark 에서 avro 파일 읽기pyspark 2024. 10. 29. 11:19
문제
pyspark(jupyter notebook) 에서 avro 파일을 읽어본다.
방법1
1. spark conf 의 `spark.jars.packages` 를 아래와 같이 설정한다.
import pyspark from pyspark.sql import SparkSession conf = pyspark.SparkConf().setAll([ ('spark.jars.packages', 'org.apache.spark:spark-avro_2.12:3.1.2'), ... ]) spark = SparkSession.builder.config(conf=conf).getOrCreate()
2. 아래와 같이 코드를 작성한다.
df = spark.read.format('avro').load('myfile.avro')
방법2
1. spark-avro_xxx.jar 를 다운로드 한다.
예) https://mvnrepository.com/artifact/org.apache.spark/spark-avro_2.12/3.1.22. spark conf 의 'spark.jars' 값에 다운로드 받은 spark-avro_xxx.jar 를 설정한다.
import pyspark from pyspark.sql import SparkSession conf = pyspark.SparkConf().setAll([ ('spark.jars', '/home/windbird/spark-avro_2.12-3.1.2.jar'), ... ]) spark = SparkSession.builder.config(conf=conf).getOrCreate()
3. 아래와 같이 코드를 작성한다.
df = spark.read.format('avro').load('myfile.avro')
'pyspark' 카테고리의 다른 글
dataclass 로 부터 dataframe schema 추출하기 (0) 2024.05.29 pyspark Local 개발 환경 구성 (0) 2023.12.10