pandas rolling 을 pyspark window function 으로 표현해 보기

pyspark 2025. 3. 5. 21:39

Pandas rolling

import pandas as pd
df = pd.read_csv('./UDEMY_TSA_FINAL/Data/starbucks.csv', index_col='Date', parse_dates=True)
df.rolling(window=7).mean()

Pyspark window function

import pyspark
from pyspark.sql import SparkSession, Window
import pyspark.sql.functions as F


spark = SparkSession.builder.appName('spark_test').master("local[*]").getOrCreate()

df = spark.read.csv('./UDEMY_TSA_FINAL/Data/starbucks.csv', header=True, inferSchema=True)
window = Window.orderBy('Date').rowsBetween(-6, Window.currentRow)  # -7 이 아니라 -6 임에 주의
df.withColumn('mean', F.mean('Close').over(window)).show()

df2 = df.withColumn('Date', F.to_date(df['Date']))
df3 = df2.withColumn('Year', F.year('Date'))
df3.groupby('Year').agg(F.mean('Close'), F.mean('Volume')).show()

'pyspark' 카테고리의 다른 글

Pandas dataframe <-> Spark dataframe 변환 (0)	2025.01.10
pyspark 에서 avro 파일 읽기 (0)	2024.10.29
dataclass 로 부터 dataframe schema 추출하기 (0)	2024.05.29
pyspark Local 개발 환경 구성 (0)	2023.12.10

ABOUT ME

빠르고 정확한 개발자 빠르고 정확한 개발자

Pandas rolling

Pyspark window function

'pyspark' 카테고리의 다른 글

티스토리툴바

ABOUT ME

Pandas rolling

Pyspark window function

'pyspark' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바