전체 글
-
pyspark 에서 avro 파일 읽기pyspark 2024. 10. 29. 11:19
문제pyspark(jupyter notebook) 에서 avro 파일을 읽어본다. 방법11. spark conf 의 `spark.jars.packages` 를 아래와 같이 설정한다.import pysparkfrom pyspark.sql import SparkSessionconf = pyspark.SparkConf().setAll([ ('spark.jars.packages', 'org.apache.spark:spark-avro_2.12:3.1.2'), ...])spark = SparkSession.builder.config(conf=conf).getOrCreate() 2. 아래와 같이 코드를 작성한다.df = spark.read.format('avro').load('myfile.avro') 방법21...
-
자주 쓰는 Pandas 코드pandas 2024. 8. 13. 11:08
데이터 통계 보기df.describe()df.describe(include='object') df.value_counts() 데이터 필터링df[['name', 'age']]df.loc[df['a'] > 10, ['a', 'c']] # Select rows meeting loglogical condition, and only the specific columns .df.sample(frac=0.5)df.sample(n=10) # Randomly select n rows. 1개의 Cell 읽어 DataFrame 이 아닌 원래 type 으로 리턴하기web_doc_meta.loc[web_doc_meta['key'] == 'vTime', 'value'].to_numpy()[0] Column 타입 변경하..
-
Bean 만들기java/spring 2024. 7. 22. 20:27
HelloConfiguration.javaimport org.springframework.beans.factory.annotation.Qualifier;import org.springframework.context.annotation.Bean;import org.springframework.context.annotation.Configuration;import org.springframework.context.annotation.Primary;class Person { private String name; private int age; private Address address; public Person(String name, int age, Address address) { ..
-
DataFrame 에 신규 칼럼 추가하기spark 2024. 7. 19. 19:19
문제보통 withColumn() 으로 쉽게 신규 칼럼을 추가할 수 있다. 하지만 mapPartitions() 등을 사용할 때는 쉽지가 않다. 코드https://stackoverflow.com/questions/33876155/how-to-add-columns-into-org-apache-spark-sql-row-inside-of-mappartitions import org.apache.spark.rdd.RDDimport org.apache.spark.sql.types.{StringType, StructField, StructType}import org.apache.spark.sql.{DataFrame, Row, SparkSession}val spark: SparkSession = ...val df: D..
-
dataclass 로 부터 dataframe schema 추출하기pyspark 2024. 5. 29. 17:55
AI 가 생성한 코드from pyspark.sql.types import StructType, StructField, IntegerType, StringTypefrom dataclasses import fields# Assuming you have a dataclass named User@dataclasses.dataclassclass User: id: int name: str age: int# Get the fields of the User classuser_fields = fields(User)# Create a StructType and StructField for each fielduser_schema = StructType([ StructField(field.name, ty..
-
multi-module 프로젝트 컴파일 / scalatest 테스트 하기java/maven 2024. 5. 10. 15:19
프로젝트 컴파일 하기# parents project 위치에서mvn clean install -Dmaven.test.skip=true -pl my-project -am(windows 일 경우) mvn clean install -D"maven.test.skip"="true" -pl my-project -am# 하위 module (my-project) 에서mvn clean package -Dmaven.test.skip=true(windows 일 경우) mvn clean package -D"maven.test.skip"="true" maven 에서 scalatest 테스트 하기scalatest 의 maven plugin 을 이용할 경우 특정 test class 만 실행할려면# 변경된 테스트를 컴파일 후mvn ..
-
type lambdasscala/scala3 2024. 4. 23. 14:55
object Test { type MyList[A] = List[A] type MyListV2 = [A] =>> List[A] type MyMap[K, V] = Map[K, V] type MyMapV2 = [K, V] =>> Map[K, V] class Functor[F[_]] type MyFunctor[F[_]] = Functor[F] type MyFunctorV2 = [F[_]] =>> Functor[F] trait Monad[M[_]] { def flatMap[A, B](fa: M[A])(f: A => M[B]): M[B] } class ZIO[R, E, A] class ZIOMonad[R, E] extends Monad[[A] =>> ZIO[R, E, A]] { override def flatMa..
-
Multi Stagedocker 2024. 4. 17. 18:40
참고: https://nesoy.github.io/articles/2020-11/Docker-multi-stage-build 예제 FROM golang:1.7.3 AS builder WORKDIR /go/src/github.com/alexellis/href-counter/ RUN go get -d -v golang.org/x/net/html COPY app.go . RUN CGO_ENABLED=0 GOOS=linux go build -a -installsuffix cgo -o app . FROM alpine:latest RUN apk --no-cache add ca-certificates WORKDIR /root/ COPY --from=builder /go/src/github.com/alexellis/h..