2022 K Data 청년 캠퍼스/ML&DL

[ML] 1. 분류와 회귀

flozl 2022. 7. 19. 15:31

 

1. 분류와 회귀

1.1 분류 classification

어떤 대상을 정해진 범주에 구분해 넣는 작업

이진분류 binary classification: 타깃값이 두 개인 분류

다중분류 multiclass classification: 타깃값이 세 개 이상인 분류

 

1.2 회귀 regression

독립변수와 종속변수 간 관계를 모델링하는 방법

독립변수: 영향을 미치는 변수 x

종속변수: 영향을 받는 변수 y

단순선형회귀 simple linear regression: 독립변수 하나와 종속변수 하나 사이 관계를 나타낸 모델링 기법

다중선형회귀 multiple linear regression: 독립변수 여러 개와 종속변수 하나 사이의 관계를 나타낸 모델링 기법

 

회귀 문제에서는 주어진 독립변수(x, 피처...)와 종속변수(y, 타깃값...) 사이의 관계를 기반으로

최적의 회귀 계수(=기울기)를 찾아야 한다.

 

1.3 회귀 평가지표

MAE: 평균 절대 오차. 실제 타깃값과 예측 타깃값 차의 절댓값 평균

MSE: 평균 제곱 오차. 실제 타깃값과 예측 타깃값 차의 제곱의 평균

RMSE: 평균 제곱근 오차. MSE에 제곱근을 취한 값

MSLE: MSE에서 타깃값에 로그를 취한 값 **log(y+1) 주의 ..

RMSLE: MSLE에 제곱근을 취한 값

R^2: 결정계수. 예측 타깃값의 분산/실제 타깃값의 분산 *1에 가까울수록 모델 성능이 좋음*

 

 

상관계수 correlation coefficient

두 변수 사이의 상관관계 정도를 수치로 나타낸 값

 

피어슨 상관계수 pearson correlation coefficient

선형 상관계수의 강도와 방향을 나타낸다. 

-1부터 1사이의 값을 갖는다.

상관계수가 음수이면 음의 상관관계, 양수이면 양의 상관관계가 있다고 한다. 

0이면 상관관계가 없다.

 

오차행렬 confusion matrix

실제 타깃값과 예측 타깃값이 어떻게 매칭되는지를 보여주는 표

정확도, 재현율, f1점수를 사용하려면 타깃 예측값을 확률이 아닌 이산값으로 구해야함

 

- 정확도(accuracy): 실젯값과 예측값이 얼마나 일치되는지를 비율로 나타낸 평가지표 

  TP+TN/TP+FP+FN+TN 

- 정밀도(precision): 양성 예측의 정확도

  음성을 양성으로 잘못 판단하면 문제가 발생하는 경우 사용(스팸 필터링)

  TP/TP+FP

 

- 재현율(recall): 실제 양성 값(TP+FN)중 양성으로 잘 예측한 값(TP)의 비율

  양성을 음성으로 잘못 판단하면 문제가 되는 경우 사용

  TP/TP+FN

 

- F1 점수(F1 score): 정밀도와 재현율을 조합한 평가지표(조화평균)

 

 

1.4 분류 평가지표

로그 손실

분류문제에서 타깃값을 확률로 예측할 때 기본적으로 사용하는 평가지표

값이 작을수록 좋은 지표다.

 

ROC 곡선과 AUC

ROC: 참양성비율에 대한 거짓양성비율 곡선

AUC: ROC 곡선 아래 면적