pandas & duckdb

복사와 결측치

wefree 2022. 10. 8. 20:23
import seaborn as sns


df = sns.load_dataset('titanic')
df_copy = df.copy()

# 결측치 갯수를 확인하기 위해서는 sum() 활용
df.isnull().sum()
df.notnull().sum()

# 결측치 필터링
df.loc[df['age'].isnull()]

# 결측치 채우기
df['age'].fillna(50)

# 결측치를 평균으로 채우기
df['age'].fillna(df['age'].mean())

# 결측치를 최빈값으로 채우기
# 최빈값(mode)으로 채울 때에는 반드시 0번째 index 지정하여 값을 추출한 후 채워야 합니다.
v = df['deck'].mode()[0]
df['deck'].fillna(v)

# 1개 라도 NaN 값이 있는 행을 제거
df.dropna(how='any')  # default how='any'

# 모두 NaN값이 존재시 drop
df.dropna(how='all')

 

참고: https://www.udemy.com/course/pandas-i/