til 206

[TIL] 2021.11.17

자연어 전 처리(Preprocessing) - 단어 표현(Word Embedding) - 모델 적용하기(Modeling) 자연어 전 처리 방법은 Noise canceling, Tokenizing, StopWord removal 과 같은 과정이 필요함 Noise canceling - 자연어 문장의 스펠링 체크 및 띄어쓰기 오류 교정을 함 Tokenizing - 문장을 토큰화 시킴. 토큰은 어절, 단어 등으로 목적에 따라 다르게 정의를 함 StopWord - 불필요한 단어를 의미하는 불용어를 제거함

[TIL] 2021.11.16

※ 합성곱 신경망(Convolution Neural Network) - 작은 필터를 순환시키는 방식으로 이미지의 패턴이 아닌 특징을 중점으로 인식함 - 구조: 입력 이미지의 특징을 추출, 분류하는 과정으로 동작함 - 이미지에서 어떤 특징이 있는지 구하는 과정이며 필터가 이미지를 이동하며 새로운 이미지(피쳐맵)을 생성함 피쳐맵 크기 변형 - Padding : 원본 이미지의 상하좌우에 한 줄씩 추가 - Striding : 필터를 이동시키는 거리(Stride) 설정 Pooling Layer - 이미지의 왜곡의 영향(노이즈)를 축소시키는 과정

[TIL] 2021.11.15

이미지 처리 기술 예시 - 얼굴 인식 카메라, 화질 개선(Super Resolution), 이미지 자동 태깅 - 특정 이미지를 분류하고자 할 때, 컴퓨터는 이미지를 각 픽셀 값을 가진 숫자 배열로 인식함 이미지 전 처리하기 - 모두 같은 크기를 갖는 이미지로 통일하고 가로 세로 픽셀 사이즈를 표현하는 해상도 통일 - 색을 표현하는 방식 통일(RGB, HSV, Gray-Scale, Binary)

[TIL] 2021.11.11

※ 딥러닝 모델 구현 순서 1. 데이터 전 처리하기 2. 딥러닝 모델 구축하기 3. 모델 학습시키기 4. 평가 및 예측하기 데이터 전 처리하기 - Tensorflow 딥러닝 모델은 Tensor 형태의 데이터를 입력 받고 Tensor란 다차원 배열로 tensorflow에서 사용하는 객체 - 딥러닝에 사용하는 데이터는 추가적인 전 처리 작업이 필요함 = Epoch, Batch Epoch = 한 번의 epoch는 전체 데이터 셋에 대해 한번 학습을 완료한 상태 Batch = 나눠진 데이터 셋 (보통 mini-batch라 표현). iteration는 epoch를 나누어 실행하는 횟수 의미

[TIL] 2021.11.10

딥러닝 모델 구성 요소 - Node/Unit : 각 층을 구성하는 요소 - Layer : 모델을 구성하는 층 - Weight(가중치) : 노드간의 연결강도 학습 방법 - 예측값과 실제값 간의 오차값을 최소화 하기 위해 오차값을 최소화 하는 모델의 인자를 찾는 알고리즘 적용 Loss Function 을 최소화 하는 가중치를 찾기 위해 최적화 알고리즘 적용 순전파(Forward Propagation) - 입력값을 바탕으로 출력 값을 계산하는 과정 순전파를 사용하면 예측값과 실제값 간의 오차값을 구해 Loss function을 구할 수 있음 => 최적화, 경사 하강법(Gradient descent) 사용 경사 하강법 - 가중치를 Loss function 값이 작아지게 업데이트 하는 방법이며 가중치는 Gradi..

[TIL] 2021.11.07

※ 혼동 행렬(Confusion Matrix) - 분류 모델의 성능을 평가하기 위함 정확도(Accuracy) - 전체 데이터 중에서 잘 분류된 데이터의 비율로, 모델이 얼마나 정확하게 분류하는지를 나타냄 클래스 비율이 불균형 할 경우 평가 지표의 신뢰성을 잃을 가능성이 있음 정밀도(Precision) - 모델이 Positive 라고 분류한 데이터 중 실제로 Positive 인 데이터의 비율 Negative가 중요한 경우. 실제로 Negative인 데이터를 Positive 라고 판단하면 안되는 경우 사용함 Negative가 중요한 경우 - 메일이 스팸인 경우 Positive 아닌경우 Negative 라고 했을때 스팸메일이 아닌, 일반메일을 Positive로 잘못 예측한 경우 필요한 메일을 수신하지 못하는 ..

[TIL] 2021.11.06

※ 의사결정나무 - 불순도 - 데이터의 불순도(Impurity)를 최소화 하는 구역으로 나누기 불순도? - 다른 데이터가 섞여 있는 정도 - 지니 계수(Gini Index) : 해당 구역 안에서 특정 클래스에 속하는 데이터의 비율을 모두 제외한 값 다양성을 계산하는 방법임 특징 - 결과가 직관적이며, 해석하기 쉬움 - 나무 깊이가 깊어질수록 과적합(Overfitting) 문제 발생 가능성이 매우 높음 - 학습이 끝난 트리의 작업속도가 매우 빠르다

[TIL] 2021.11.05

※ 지도학습 - 분류 - 지도학습에서의 분류: 주어진 입력 값이 어떤 클래스에 속할지에 대한 결과값을 도출하는 알고리즘 분류 알고리즘의 종류 - 트리 구조 기반, 확률 모델 기반, 결정 경계 기반, 신경망 등이 있음 ※ 의사 결정 나무(Decision Tree) - 특정 질문들을 통해 정답을 찾아가는 모델이며 뿌리 마디에서 마지막 끝 마디까지 아래 방향으로 진행