탐색적 데이터분석 과정에서 수행하는
데이터 시각화는 평면적인 데이터에서 주요한 특성을 드러내는 가장 효과적인 수단이다.
1. 데이터 종류
수치형
- 히스토그램 분포도 커널밀도추정 러그플롯
- 연속형: 값이 연속된 데이터
- 수치형: 정수로 딱 떨어져 셀 수 있는 데이터
- 사칙연산 가능
범주형
- 막대그래프 포인트플롯 박스플롯 카운트플롯 ...
- 순서형데이터(ordinal): 순위를 매길 수 있는 데이터
- 명목형 데이터(nominal): 순위가 따로 없는 데이터
- 사칙연산 불가능
데이터관계 시각화
:히트맵 라인플롯 산점도 산점도+회귀선
2. 수치형 데이터 시각화
- 일정한 범위 내에서 어떻게 분포되어 있는지 중요
분포를 알아야 데이터를 어떻게 변환할지, 어떻게 해석해서 활용할지 판단
seaborn이 제공하는 주요 분포도 함수:
histplot()
kdeplot()
displot()
rugplot()
히스토그램 histplot
수치형데이터의 구간별 빈도수를 나타내는 그래프
커널밀도추정 함수 그래프 kdeplot
히스토그램을 매끄럽게 곡선으로 연결한 그래프
분포도 displot
수치형 데이터 하나의 분포를 나타내는 그래프
파라미터만 조정하면 histplot(), kdeplot() 모두 그릴 수 있다.
러그플롯 rugplot
주변분포를 나타내는 그래프
단독으로 사용하기보다는 주로 다른 분포도 그래프와 함께 사용한다.
3. 범주형 데이터 시각화
막대 그래프 barplot
범주형 데이터값에 따라 수치형 데이터 값이 어떻게 달라지는지 파악할 때 사용
평균(막대높이)과 신뢰구간(오차막대) 표시
포인트플롯 pointplot
범주형데이터에 따른 수치형 데이터의 평균과 신뢰구간 나타낸다. 점과 선으로
한 화면에 여러 그래프를 그릴 때 효과적
예) 계절에 따른 시간대별 자전거 대여 수량 그래프
박스플롯 boxplot
5가지 요약 수치 제공
최솟값, 제1,2,3사분위, 최댓값
바이올릿플롯 violinplot
박스플롯과 커널밀도추정함수 그래프를 합쳐놓은 그래프
박스플롯이 제공하는 정보를 모두 포함, 모양은 커널밀도추정함수 그래프 형태
박스플롯- 각 범주별로 5가지 요약 수치를 한눈에 보고싶은 경우
바이올린플롯 - 수치형 데이터의 전체적인 분포 양상을 알고 싶을 경우
카운트플롯 countplot
범주형 데이터의 개수를 확인할 때 사용하는 그래프
범주형 피처나 타깃값의 분포가 어떤지 파악하는 용도
바플롯- 범주형 데이터별 수치형 데이터의 평균을 구함 - 피처를 두개받음(x, y)
평균이 아닌 중앙값, 최댓값, 최솟값을 구할 수 있음 (파라미터 estimator
vs
카운트플롯 - 범주형 피처 하나만 받음(x or y)
파이그래프 pie
범주혀 데이터별 비율을 알아볼 때 사용
matplotlib의 pie()
4. 데이터 관계 시각화
히트맵 heatmap
데이터 간 관계를 색상으로 표현한 그래프
비교해야할 데이터가 많을 때 주로 사용
라인플롯 lineplot
두 수치형 데이터 사이의 관계를 나타낼 때 사용
x 파라미터에 전달한 값에 따라 y 파라미터에 전달한 값의 평균과 95% 신뢰구간을 나타낸다.
산점도 scatterplot
두 데이터의 관계를 점으로 표현하는 그래프
회귀선을 포함한 산점도 그래프 regplot
산점도와 선형 회귀선을 동시에 그려주는 그래프
선형회귀선 주변 음영은 95% 신뢰구간 -> 신뢰구간을 99%로 늘리려면 ci 파라미터를 99로 전달
'2022 K Data 청년 캠퍼스 > ML&DL' 카테고리의 다른 글
[DL] 1. 딥러닝 개괄 (0) | 2022.07.25 |
---|---|
[DL] 딥러닝 기초 용어 정리 (0) | 2022.07.20 |
[ML] 4. 주요 머신러닝 모델 (0) | 2022.07.19 |
[ML] 3. 교차 검증 (0) | 2022.07.19 |
[ML] 2. 데이터 인코딩과 피처 스케일링 (0) | 2022.07.19 |