1. 분류와 회귀
1.1 분류 classification
어떤 대상을 정해진 범주에 구분해 넣는 작업
이진분류 binary classification: 타깃값이 두 개인 분류
다중분류 multiclass classification: 타깃값이 세 개 이상인 분류
1.2 회귀 regression
독립변수와 종속변수 간 관계를 모델링하는 방법
독립변수: 영향을 미치는 변수 x
종속변수: 영향을 받는 변수 y
단순선형회귀 simple linear regression: 독립변수 하나와 종속변수 하나 사이 관계를 나타낸 모델링 기법
다중선형회귀 multiple linear regression: 독립변수 여러 개와 종속변수 하나 사이의 관계를 나타낸 모델링 기법
회귀 문제에서는 주어진 독립변수(x, 피처...)와 종속변수(y, 타깃값...) 사이의 관계를 기반으로
최적의 회귀 계수(=기울기)를 찾아야 한다.
1.3 회귀 평가지표
MAE: 평균 절대 오차. 실제 타깃값과 예측 타깃값 차의 절댓값 평균
MSE: 평균 제곱 오차. 실제 타깃값과 예측 타깃값 차의 제곱의 평균
RMSE: 평균 제곱근 오차. MSE에 제곱근을 취한 값
MSLE: MSE에서 타깃값에 로그를 취한 값 **log(y+1) 주의 ..
RMSLE: MSLE에 제곱근을 취한 값
R^2: 결정계수. 예측 타깃값의 분산/실제 타깃값의 분산 *1에 가까울수록 모델 성능이 좋음*
상관계수 correlation coefficient
두 변수 사이의 상관관계 정도를 수치로 나타낸 값
피어슨 상관계수 pearson correlation coefficient
선형 상관계수의 강도와 방향을 나타낸다.
-1부터 1사이의 값을 갖는다.
상관계수가 음수이면 음의 상관관계, 양수이면 양의 상관관계가 있다고 한다.
0이면 상관관계가 없다.
오차행렬 confusion matrix
실제 타깃값과 예측 타깃값이 어떻게 매칭되는지를 보여주는 표
정확도, 재현율, f1점수를 사용하려면 타깃 예측값을 확률이 아닌 이산값으로 구해야함
- 정확도(accuracy): 실젯값과 예측값이 얼마나 일치되는지를 비율로 나타낸 평가지표
TP+TN/TP+FP+FN+TN
- 정밀도(precision): 양성 예측의 정확도
음성을 양성으로 잘못 판단하면 문제가 발생하는 경우 사용(스팸 필터링)
TP/TP+FP
- 재현율(recall): 실제 양성 값(TP+FN)중 양성으로 잘 예측한 값(TP)의 비율
양성을 음성으로 잘못 판단하면 문제가 되는 경우 사용
TP/TP+FN
- F1 점수(F1 score): 정밀도와 재현율을 조합한 평가지표(조화평균)
1.4 분류 평가지표
로그 손실
분류문제에서 타깃값을 확률로 예측할 때 기본적으로 사용하는 평가지표
값이 작을수록 좋은 지표다.
ROC 곡선과 AUC
ROC: 참양성비율에 대한 거짓양성비율 곡선
AUC: ROC 곡선 아래 면적
'2022 K Data 청년 캠퍼스 > ML&DL' 카테고리의 다른 글
데이터 시각화 (0) | 2022.07.19 |
---|---|
[ML] 4. 주요 머신러닝 모델 (0) | 2022.07.19 |
[ML] 3. 교차 검증 (0) | 2022.07.19 |
[ML] 2. 데이터 인코딩과 피처 스케일링 (0) | 2022.07.19 |
[Pandas] 데이터 분석을 위한 판다스(1) (0) | 2022.07.15 |