기타/What I Learned

[TIL] 2021.11.01

가죽방패 2021. 11. 1. 07:37

※ 데이터 정제 및 분리하기

- 일반적으로 머신러닝 모델의 입력 값으로 결측값을 사용할 수 없어

Null, None, NaN 등 과 같은 결츨값들을 처리 해야함

 

결측값을 처리하는 방법들은

- 결측값 존재 샘플 삭제

- 결측값 다수 존재 변수 삭제

- 결측값 다른 값으로 대체

 

※ 이상치 처리하기

- 이상치는 모델의 성능을 저하할 수 있기 때문에

일반적으로 전 처리 과정에서 제거하며 어떤 값이 이상치인지 판단하는 기준이 중요함

 

판단 기준

- 통계 지표(카이제곱 검정, IQR 지표 등)를 사용해 판단

- 데이터 분포를 보고 판단

- 머신러닝 기법을 사용해 이상치 분류

 

데이터 분리의 필요성

- 머신러닝 모델을 평가하기 위해선 학습에 이용하지 않은 평가용 데이터가 필수적으로

필요하기 때문에 7:3 ~ 8:2 정도의 비율로 분리를 함

- 지도학습의 경우엔 feature 데이터와 label 데이터를 분리하여 저장함

Feature 데이터 - label 을 예측하기 위한 입력 값

Label 데이터 - 예측해야 할 대상이 되는 데이터

'기타 > What I Learned' 카테고리의 다른 글

[TIL] 2021.11.03  (0) 2021.11.03
[TIL] 2021.11.02  (0) 2021.11.02
[TIL] 2021.10.31  (0) 2021.10.31
[TIL] 2021.10.30  (0) 2021.10.30
[TIL] 2021.10.29  (0) 2021.10.29