본문 바로가기

개발/머신러닝

데이터 전처리

머신러닝 공부하다 보면 .csv 파일을 처리할 때가 많습니다. 자주 쓰는 명령어들을 잘 모아두었다가 사전처럼 필요할 때 마다 들러서 보는 페이지를 만들려 합니다.

 

파일을 읽을 땐 

import pandas as pd
df = pd.read_csv("file.cvs")

 

같은 형식으로 읽습니다. 이때, pip install pandas로 미리 설치해 두어야 합니다.

print(df.head(10)) # 처음 10개
print(df.tail(10)) # 마지막 10개
# 숫자 없으면 5개가 기본

 

로 데이터를 출력할 수 있습니다.

 

df.columns

 

로 column 이름들만 뽑아서 간단히 볼 수 있습니다.

print(df.info())

 

로 타입과 non-null 개수를 확인할 수 있습니다.

 

print(df.describe())

 

로 데이터의 평균, 분산, 최대 최소를 간단히 알 수 있습니다.

 

print(df[["col_name_1","col_name_2"]]) # 해당 col만 뽑아서 보여줌

arr = [2,3,4]
print(df.loc[arr]) # 해당 row만 뽑아서 보여줌

print(df["col_name_1"] == 0) # 조건에 맞으면 True, 아니면 False인 배열 출력

print(df.loc[df["col_name_1"] == 0]) # 해당 조건에 맞는 row만 출력

 

로 원하는 데이터만 출력할 수 있습니다.

'개발 > 머신러닝' 카테고리의 다른 글

데이터 시각화  (1) 2024.05.16