본문 바로가기

개발/머신러닝

(2)
데이터 시각화 데이터 시각화에 대한 정보들입니다. 자주 쓰는 명령어들을 잘 모아두었다가 사전처럼 필요할 때 마다 들러서 보는 페이지를 만들려 합니다. 기본적으로 pandas 데이터를 보여준다고 가정할 것입니다. import matplotlib.pyplot as plt import seaborn as sns 다음 두개를 이용해 데이터를 보여줄 것입니다. 수치형 데이터histplot히스토그램을 보여줍니다.x에는 col, data에는 보여줄 데이터를 넣습니다. 추가로 hue를 주면 해당 col 값을 기준으로 쪼개서 보여주고 kde를 주면 개형을 그려줍니다. 이는 이 뒤의 그래프도 마찬가지 입니다. jointplot두 데이터의 관계를 볼 때 유용합니다.  범주형 데이터boxplotx에는 범주, y에는 수치형 데이터가 들어갑니..
데이터 전처리 머신러닝 공부하다 보면 .csv 파일을 처리할 때가 많습니다. 자주 쓰는 명령어들을 잘 모아두었다가 사전처럼 필요할 때 마다 들러서 보는 페이지를 만들려 합니다. 파일을 읽을 땐 import pandas as pddf = pd.read_csv("file.cvs") 같은 형식으로 읽습니다. 이때, pip install pandas로 미리 설치해 두어야 합니다.print(df.head(10)) # 처음 10개print(df.tail(10)) # 마지막 10개# 숫자 없으면 5개가 기본 로 데이터를 출력할 수 있습니다. df.columns 로 column 이름들만 뽑아서 간단히 볼 수 있습니다.print(df.info()) 로 타입과 non-null 개수를 확인할 수 있습니다. print(df.describe..