데이터의 정제는 높은 정확도를 위해서는 필요한 과정이다. 그 과정에서는 결측값(missing data) 와 이상치(outlier)를 제거해주는 과정 등이 있다.
데이터 프레임에서 특정 컬럼의 데이터 값이 존재하지 않는 경우가 있는데 해당하는 컬럼의 데이터를 삭제하고
정제된 데이터는 순수한 데이터가 필요한 경우가 있기 때문에 다른 변수명에 저장하는 것이 좋다.
예를 들어
corona_del_col = corona_all.drop(columns = ['국적', '환자정보', '조치사항'])
drop 함수를 이용해 원하는 컬럼을 삭제한 뒤 새로운 변수명에 저장하는 방법이 있다.
이후 info 함수를 사용해 정제 처리된 데이터 프레임 정보를 출력하면 삭제하고자 하는 컬럼의 데이터들이
제외된 채로 출력되는 것을 볼 수 있다.
출처: 엘리스 NIPA 과정
'기타 > What I Learned' 카테고리의 다른 글
[TIL] 2021.10.25 (0) | 2021.10.25 |
---|---|
[TIL] 2021.10.24 (0) | 2021.10.24 |
[TIL] 2021.10.22 (0) | 2021.10.22 |
[AI] Matplotlib 데이터 시각화(2) (0) | 2021.10.21 |
[AI] Matplotlib 데이터 시각화(1) (0) | 2021.10.20 |