pyspark
-
Pandas dataframe <-> Spark dataframe 변환pyspark 2025. 1. 10. 11:55
Spark dataframe -> Pandas dataframe toPandas() 메서드로 변환할 수 있다.spark_df = spark.read.parquet("hdfs://...").limit(10)pandas_df = spark_df.toPandas() Pandas dataframe -> Spark dataframe pandas_df = pd.read_csv("data.csv", header=0)# spark, pandas 버전에 따라 아래 추가가 필요할 수 있다.# https://stackoverflow.com/a/76404841/5137193pd.DataFrame.iteritems = pd.DataFrame.itemsspark_df = spark.createDataFrame(pandas_df..
-
pyspark 에서 avro 파일 읽기pyspark 2024. 10. 29. 11:19
문제pyspark(jupyter notebook) 에서 avro 파일을 읽어본다. 방법11. spark conf 의 `spark.jars.packages` 를 아래와 같이 설정한다.import pysparkfrom pyspark.sql import SparkSessionconf = pyspark.SparkConf().setAll([ ('spark.jars.packages', 'org.apache.spark:spark-avro_2.12:3.1.2'), ...])spark = SparkSession.builder.config(conf=conf).getOrCreate() 2. 아래와 같이 코드를 작성한다.df = spark.read.format('avro').load('myfile.avro') 방법21...
-
dataclass 로 부터 dataframe schema 추출하기pyspark 2024. 5. 29. 17:55
AI 가 생성한 코드from pyspark.sql.types import StructType, StructField, IntegerType, StringTypefrom dataclasses import fields# Assuming you have a dataclass named User@dataclasses.dataclassclass User: id: int name: str age: int# Get the fields of the User classuser_fields = fields(User)# Create a StructType and StructField for each fielduser_schema = StructType([ StructField(field.name, ty..
-
pyspark Local 개발 환경 구성pyspark 2023. 12. 10. 17:27
Docker 로 실행 mkdir -p /home/windbird/opt/pyspark-notebook docker run -p 8888:8888 -v /home/windbird/opt/pyspark-notebook:/home/jovyan jupyter/pyspark-notebook 접속하기 위의 docker run 실행하면 터미널에 아래와 같이 로그가 남겨지는 것을 확인할 수 있다. 브라우저에서 가이드된 주소로 (예: http://127.0.0.1:8888/lab?token=f765ddd427f2409b1878cc9b227ed7620122d7716d4134b1) 접속한다. 코드 실행 (jupyter notebook) from pyspark.sql import SparkSession spark = Spar..