본문 바로가기
일하기/공부하기

Machine Learning - abstract

by 달콤말 2020. 6. 29.
반응형

Regression (toward the mean) - 데이터(set)를 가장 잘 대변하는 직선의 방정식을 구하는 것

Hypothesis (or model or prediction)   H(x) = Wx + b 

Cost(W,b) = (H(x)(가설) - y(실제데이터))의 제곱의 평균 

Machine Learning  - cost가 최소가 되는 W(weight)와 b(bias)의 값을 구하는 것

Gradient descent ~ cost를 최소화 하는 방법 중 가장 많이 쓰이는 방법.
       경사를 내려가면서 cost가 minimize되는 W, b 값을 찾는 알고리즘.
       cost 함수에서 경사도(기울기, 미분값)를 구해서 기존 W에서 기울기값(*learning rate)을 빼준다.
       지속적으로 Update

Predict ~ x에 어떤 값을 넣었을 때 H(x)값 


Multi-Variable(multi-feature) Linear Regression - inputs (x1, x2, ... xn)

H(x1,x2,x3) = w1x1 + w2x2 + ... + wnxn  =>matrix로 표현(행*열) : H(X) = XW

W의 크기는 inputs의 colume 수와 output의 colume 수로 결정. (데이터의 개수는 상관없음)


Activation Functions : Sigmoid < ReLU 

Data Preprocessing : Normalize 필요. 

weight matrix의 initialization : (1) Xavier initialization ~ std = 1 / sqrt(Din): (FC layers에서)
                                       Conv layers에서는 Din = kernel_size^2 * input_channel
                                       output(y_i)의 variance가 input(x_i)da의 variance와 같도록 만들어줌. 
                                       Var(y_i)= Din * Var(x_iW_i)  - x와 w가 iid(independent and identically distributed).
                                       (2) Kaiming(MSRA) initialization ~ std = sqrt(2/Din) => 0으로 수렴하는 것을 방지. 
                                         첫번째 convolution때, W의 초기화는 MSRA로 하고, 두번째 conv부터는 weight를 0. 

<Data Regularization> Batch Normalization , Data Augmentation, Dropout, DropConnect, Fractional Pooling, Stochastic Depth(Residual block을 drop), Cutout, Mixup, ...

Batch Normalization : L1, L2, L1+L2, (loss에 regularization term을 추가)
                            -> training 때 randomness 추가, testing 할 때 randomness를 평균화.
Dropout (feature간의 co-adaptaion을 방지)
            models의 매우 큰 ensemble 을 training 한 것과 같은 효과. powerful.
            ensemble:학습결과를 모아서 종합적인 결론을 내리는 것
Data Augmentation : data를 transform시킨 것도 train시킴, random crop, scales, Color Jitter, .....

Learning Rate : as a hyperparameter. 너무 크면 overfit, 너무 작으면 시간이 너무 오래 걸림. 보통 0.01로 초기화.


LSTM (long short-term memory)

Arousal (자극성) Valence (유발성) - 자극성은 감정적으로 자극이 되는지의 여부, 유발성은 행복이나 슬픔처럼 감정이 긍정적인지 부정적인지 여부. -5점에서 +5점까지의 점수로 판단.

AffectNet 데이터셋 - AV 영역에서의 감정 인식 분석을 위한 데이터셋

FERPlus( FER+ ) Emotion Recognition: Deep CNN with Crowd-Sourced Label Distribution. FER dataset 에 annotation 한 것. 

Network 이름?: ResNet, AlexNet, VGG16, GoogleNet, Lightweight CNN, ...

 

 


Kaggle  Dataset - Colab 연동

 

반응형

댓글