본문 바로가기

개발/머신러닝

데이터 시각화

데이터 시각화에 대한 정보들입니다. 자주 쓰는 명령어들을 잘 모아두었다가 사전처럼 필요할 때 마다 들러서 보는 페이지를 만들려 합니다. 기본적으로 pandas 데이터를 보여준다고 가정할 것입니다.

 

import matplotlib.pyplot as plt 
import seaborn as sns

 

다음 두개를 이용해 데이터를 보여줄 것입니다.

 

수치형 데이터

histplot

히스토그램을 보여줍니다.

x에는 col, data에는 보여줄 데이터를 넣습니다.

 

추가로 hue를 주면 해당 col 값을 기준으로 쪼개서 보여주고 kde를 주면 개형을 그려줍니다. 이는 이 뒤의 그래프도 마찬가지 입니다.

 

jointplot

두 데이터의 관계를 볼 때 유용합니다. 

 

범주형 데이터

boxplot

x에는 범주, y에는 수치형 데이터가 들어갑니다. 

상자 가운데 선이 중앙값, 상자의 위 아래가 3사분위(75%)와 1사분위(25%), 선의 양 끝은 이상치를 제외한 데이터 중 최대와 최소, 점은 이상치를 나타냅니다. 이상치는 (3사분위 + 상자의 길이)보다 큰 데이터와 (1사분위 - 상자의 길이)보다 작은 데이터를 말합니다.

 

violinplot

boxplot의 상위호환입니다. 분포까지 보여줍니다.

 

swarmplot

violinplot에서 개형이 아니라 점으로 보여줍니다. hue와 같이 쓰면 분포를 좀 더 시각적으로 알 수 있습니다.

'개발 > 머신러닝' 카테고리의 다른 글

데이터 전처리  (0) 2024.05.16