※ 데이터 정제 및 분리하기
- 일반적으로 머신러닝 모델의 입력 값으로 결측값을 사용할 수 없어
Null, None, NaN 등 과 같은 결츨값들을 처리 해야함
결측값을 처리하는 방법들은
- 결측값 존재 샘플 삭제
- 결측값 다수 존재 변수 삭제
- 결측값 다른 값으로 대체
※ 이상치 처리하기
- 이상치는 모델의 성능을 저하할 수 있기 때문에
일반적으로 전 처리 과정에서 제거하며 어떤 값이 이상치인지 판단하는 기준이 중요함
판단 기준
- 통계 지표(카이제곱 검정, IQR 지표 등)를 사용해 판단
- 데이터 분포를 보고 판단
- 머신러닝 기법을 사용해 이상치 분류
데이터 분리의 필요성
- 머신러닝 모델을 평가하기 위해선 학습에 이용하지 않은 평가용 데이터가 필수적으로
필요하기 때문에 7:3 ~ 8:2 정도의 비율로 분리를 함
- 지도학습의 경우엔 feature 데이터와 label 데이터를 분리하여 저장함
Feature 데이터 - label 을 예측하기 위한 입력 값
Label 데이터 - 예측해야 할 대상이 되는 데이터
'기타 > What I Learned' 카테고리의 다른 글
[TIL] 2021.11.03 (0) | 2021.11.03 |
---|---|
[TIL] 2021.11.02 (0) | 2021.11.02 |
[TIL] 2021.10.31 (0) | 2021.10.31 |
[TIL] 2021.10.30 (0) | 2021.10.30 |
[TIL] 2021.10.29 (0) | 2021.10.29 |