분류 전체보기

2022 K Data 청년 캠퍼스/ML&DL

[ML] 3. 교차 검증

Cross Validation [ch5] Cross Validation | Kaggle [ch5] Cross Validation Explore and run machine learning code with Kaggle Notebooks | Using data from No attached data sources www.kaggle.com k fold 교차 검증 1. 전체 훈련 데이터를 k개 그룹으로 나눈다. 2. 그룹 하나는 검증 데이터로, 나머지 k-1개는 훈련 데이터로 지정한다. 3. 훈련 데이터로 모델을 훈련하고, 검증 데이터로 평가한다. 4. 평가점수를 기록한다. 5. 검증 데이터를 다른 그룹으로 바꿔가면 2~4 절차를 k번 반복한다. 6. k개 검증 평가점수의 평균을 구한다. 층화 K 폴드 교차..

2022 K Data 청년 캠퍼스/ML&DL

[ML] 2. 데이터 인코딩과 피처 스케일링

데이터 인코딩 1. 레이블 인코딩 범주형 데이터를 숫자로 일대일 매핑해주는 인코딩 방식 범주형 데이터를 숫자로 치환하는 것 원본 레이블 인코딩 적용 후 사과 3 블루베리 2 바나나 1 귤 0 바나나 1 사과 3 원본데이터에 사전순으로 번호를 매김 단점: 명목형 데이터를 레이블 인코딩하면 모델 성능이 떨어질 수 있음 머신러닝모델이 서로 가까운 숫자를 비슷한 데이터로 판단하기 때문이다. from sklearn.preprocessing import LabelEncoder # 레이블 인코더 fruits = ['사과', '블루베리', '바나나', '귤', '블루베리', '바나나', '바나나', '사과'] # 레이블 인코더 생성 label_encoder = LabelEncoder() # 레이블 인코딩 적용 frui..

2022 K Data 청년 캠퍼스/ML&DL

[ML] 1. 분류와 회귀

1. 분류와 회귀 1.1 분류 classification 어떤 대상을 정해진 범주에 구분해 넣는 작업 이진분류 binary classification: 타깃값이 두 개인 분류 다중분류 multiclass classification: 타깃값이 세 개 이상인 분류 1.2 회귀 regression 독립변수와 종속변수 간 관계를 모델링하는 방법 독립변수: 영향을 미치는 변수 x 종속변수: 영향을 받는 변수 y 단순선형회귀 simple linear regression: 독립변수 하나와 종속변수 하나 사이 관계를 나타낸 모델링 기법 다중선형회귀 multiple linear regression: 독립변수 여러 개와 종속변수 하나 사이의 관계를 나타낸 모델링 기법 회귀 문제에서는 주어진 독립변수(x, 피처...)와 종..

카테고리 없음

Kaggle에 대해서

캐글 데이터 과학 및 머신러닝 경진대회를 주최하는 온라인 커뮤니티다. 방대한 데이터, 유능한 데이터 과학자, 훌륭한 코드, 좋은 문화가 있어 데이터 과학 역량을 쌓는 데 최적의 플랫폼이다. 2010년에 설립되어 2017년 구글에 인수되었다. [장점] - 웹 기반 플랫폼이기 때문에 인터넷만 연결되면 전 세계 누구나 참여(개발 환경 구축 X) - 개인이나 작은 기업에서 쉽게 접할 수 없는 다양한 데이터로 데이터과학과 머신러닝을 연습해볼 수 있고, 같은 목표로 대회에 참여한 전 세계 데이터 과학자들과 교류할 수 있다. [활용 사례] 기업이나 단체는 자체적으로 어려웠던 머신러닝 모델 개발 문제를 해결하고, 우수한 직원을 채용하기 위해 대회 성과를 활용하는 경향이 커지고 있다. 왜 캐글인가? 1. 데이터과학 및 ..

Projects/capstone design

Anaconda3 딥러닝 가상환경 구축하기

가상환경을 쓰는 이유 패키지간의 의존성 [설치 해야 할 것들] 1. nvidia driver NVIDIA Corporation TU116 [GeForce GTX 1650 SUPER] 2. cuda 3. cuDnn 1. nvidia driver sudo ubuntu-drivers autoinstall nvidia-smi # 가상환경 생성 conda create -n dense_v1 python=3.7 # 생성한 가상환경 확인 conda info --envs # 가상환경 활성화 conda activate dense_v1 생성한 가상환경에서 라이브러리 설치 진행한다. 2. cuda 설치 ubunto 22.04 LTS는 cuda 최신버전부터 지원하기 때문에 일단 cuda 11.7로 설치진행한다. wget htt..

Projects/capstone design

Anaconda 가상환경 활성화 오류

가상환경 활성화 오류 발생하였을 때 , , source ~/anaconda3/etc/profile.d/conda.sh conda activate 가상환경이름

Projects/capstone design

Ubuntu 환경에서 Anaconda 설치

*공식 홈페이지 install 방법 https://docs.anaconda.com/anaconda/install/linux/ Installing on Linux — Anaconda documentation The installer prompts “Do you wish the installer to initialize Anaconda3 by running conda init?” We recommend “yes”. Note If you enter “no”, then conda will not modify your shell scripts at all. In order to initialize after the installation pro docs.anaconda.com Ubunti22.04 LTS 1. 다..

2022 K Data 청년 캠퍼스/ML&DL

[Pandas] 데이터 분석을 위한 판다스(1)

Pandas를 배우는 이유 데이터 분석의 80~90%가 데이터 수집과 정리 데이터 정리란 분석이 가능한 형태로 만드는 것 여러가지 유형의 데이터를 공통의 포맷으로 정리 데이터를 수집하고 정리하는데 최적화된 도구 Pandas의 자료구조 시리즈(Series) - 1차원의 데이터 구조, 데이터프레임의 열 데이터프레임(DataFrame) - 2차원의 데이터 구조, 표 파이썬을 판다스로 변환 1. 시리즈로 변환 pandas.Series index와 value값이 일대응 대응 딕셔너리 → 시리즈 import pandas as pd dic = {'a':1, 'b':2, 'c':3} sr = pd.Series(dic) # output a 1 b 2 c 3 dtype: int64 딕셔너리의 키가 시리즈의 인덱스에 대응,..

flozl
'분류 전체보기' 카테고리의 글 목록 (4 Page)