기타/What I Learned

[TIL] 2021.10.25

가죽방패 2021. 10. 25. 20:10

※ 자료의 형태를 알아야 하는 이유?

- 머신러닝은 데이터라는 디지털 자료를 바탕으로 분석하기 때문에 자료의 형태를 파악하는 것은

효율적으로 사용하기 위한 필수 과정임

 

자료는 크게 수치형 자료(Numerical data)범주형 자료(Categorical data)로 나눌수 있고

수치형 자료는 연속형 자료(Continuous data)와 이산형 자료(Discrete data)로 나뉘며

범주형 자료는 순위형 자료(Ordinal data)와 명목형 자료(Norminal data)로 나뉜다.

수치형 자료
(Numerical data)
범주형 자료
(Categorical data)
양적 자료(Quantitative data) 질적 자료(Qualitative data)
수치로 측정이 가능한 자료 수치로 측정이 불가능한 자료
예시)키, 몸무게 예시)성별, 지역

위와 같이 각 자료별 특징이 구분이 되어 있으나 나눈 기준이 무작정 자료를 숫자로 표현할 수 있는지 여부를 따지는것이 아니다. 그 예시로는 범주형 자료가 숫자로 표현이 되는 경우도 있는데 남녀 성별 구분시 남자를 1, 여자를 0 으로 표현하는 경우 숫자로 표현되어 있으나 범주형 자료로 간주한다

또한, 수치형 자료를 범주형 자료로 변환하는 경우는 나이 구분시 10~19세, 20~29세 와 같이 나이대로 구간화 시킨 경우는 범주형 자료로 간주한다.

 

순위형 자료는 범주 사이의 순서에 의미가 있다는 것이 특징이며 명목형 자료는 범주 사이의 순서에 의미가 없다는 것이 특징이다. 각 자료별 예시로는 순위는 학점(A+, A, A-)같은 것이 있고 명목은 혈액형(A, AB, B, O) 같은 것이 있다