'pyspark' 카테고리의 글 목록

pandas rolling 을 pyspark window function 으로 표현해 보기

pyspark 2025. 3. 5. 21:39

Pandas rollingimport pandas as pddf = pd.read_csv('./UDEMY_TSA_FINAL/Data/starbucks.csv', index_col='Date', parse_dates=True)df.rolling(window=7).mean() Pyspark window functionimport pysparkfrom pyspark.sql import SparkSession, Windowimport pyspark.sql.functions as Fspark = SparkSession.builder.appName('spark_test').master("local[*]").getOrCreate()df = spark.read.csv('./UDEMY_TSA_FINAL/Data/star..

Pandas dataframe <-> Spark dataframe 변환

pyspark 2025. 1. 10. 11:55

Spark dataframe -> Pandas dataframe toPandas() 메서드로 변환할 수 있다.spark_df = spark.read.parquet("hdfs://...").limit(10)pandas_df = spark_df.toPandas() Pandas dataframe -> Spark dataframe pandas_df = pd.read_csv("data.csv", header=0)# spark, pandas 버전에 따라 아래 추가가 필요할 수 있다.# https://stackoverflow.com/a/76404841/5137193pd.DataFrame.iteritems = pd.DataFrame.itemsspark_df = spark.createDataFrame(pandas_df..

pyspark 에서 avro 파일 읽기

pyspark 2024. 10. 29. 11:19

문제pyspark(jupyter notebook) 에서 avro 파일을 읽어본다. 방법11. spark conf 의 `spark.jars.packages` 를 아래와 같이 설정한다.import pysparkfrom pyspark.sql import SparkSessionconf = pyspark.SparkConf().setAll([ ('spark.jars.packages', 'org.apache.spark:spark-avro_2.12:3.1.2'), ...])spark = SparkSession.builder.config(conf=conf).getOrCreate() 2. 아래와 같이 코드를 작성한다.df = spark.read.format('avro').load('myfile.avro') 방법21...

dataclass 로 부터 dataframe schema 추출하기

pyspark 2024. 5. 29. 17:55

AI 가 생성한 코드from pyspark.sql.types import StructType, StructField, IntegerType, StringTypefrom dataclasses import fields# Assuming you have a dataclass named User@dataclasses.dataclassclass User: id: int name: str age: int# Get the fields of the User classuser_fields = fields(User)# Create a StructType and StructField for each fielduser_schema = StructType([ StructField(field.name, ty..

pyspark Local 개발 환경 구성

pyspark 2023. 12. 10. 17:27

Docker 로 실행 mkdir -p /home/windbird/opt/pyspark-notebook docker run -p 8888:8888 -v /home/windbird/opt/pyspark-notebook:/home/jovyan jupyter/pyspark-notebook 접속하기 위의 docker run 실행하면 터미널에 아래와 같이 로그가 남겨지는 것을 확인할 수 있다. 브라우저에서 가이드된 주소로 (예: http://127.0.0.1:8888/lab?token=f765ddd427f2409b1878cc9b227ed7620122d7716d4134b1) 접속한다. 코드 실행 (jupyter notebook) from pyspark.sql import SparkSession spark = Spar..

ABOUT ME

빠르고 정확한 개발자 빠르고 정확한 개발자

티스토리툴바