본문 바로가기
Data Science/NLP

Gradient-Based Optimization

by 루크 Luke 2022. 3. 28.
반응형
  • Off-the-shelf gradient-based optimization
    • Gradient descent, L-BFGS, Conjugate gradient 등 방법 들이 있습니다.
    • 그러나 위 방법들은 매개변수(parameters)가 많아질 수록 시간이 오래걸립니다.
    • 그 이유는 훈련 샘플 전체의 Loss 는 각 샘플에 대한 Loss 의 합으로 구해지며,
    • 데이터가 많아 질수록 오래 걸리기 때문입니다.
  • 확률적 경사 하강법(Stochastic Gradient descent)

1. M개의 훈련 샘플을 선택합니다. 이를 미니배치(Mini batch) 라고 합니다.

2. 미니배치 경사를 계산합니다.

3. 매개변수를 업데이트합니다.

4. 검증 세트로 구한 validation loss 가 더 이상 진전이 없을때까지 진행합니다

  • Early Stopping
    • 과적합(Overfitting)을 방지하기 위한 제일 좋은 알고리즘입니다.
    • 검증 세트의 Loss 가장 낮은 곳에서 훈련을 멈춥니다.
  • 적응적 학습률(Adaptive Learning Rate)
    • 확률적 경사 하강 법은 학습률에 민감합니다.
    • 이를 보완하기 위해서 다양한 Adam, Adadelta 등 다양한 알고리즘이 나왔습니다.

 

 

본 내용은 부스트코스 조경현 교수의 딥러닝을 이용한 자연어 처리 수업 내용입니다.

반응형

'Data Science > NLP' 카테고리의 다른 글

How to represent sentence & token  (0) 2022.03.28
Text classification Overview  (0) 2022.03.28
Backpropagation  (0) 2022.03.28
Optimization methods  (0) 2022.03.28
Probability & Loss Function  (0) 2022.03.28

댓글