반응형
- Loss 는 비순환그래프(DAG)를 거쳐 계산됩니다.
- 가설이 무수히 많기 때문에 모든 것을 다 시도해보고 최적인 것을 고를 수가 없습니다.
- 따라서, 일단 아무 곳을 선택한 후에 Loss 를 낮추는 방향으로 최적화를 진행합니다.
- 방법:
- Local, Iterative Optimization: Random Guided Search
- 장점: 어떤 비용함수를 사용해도 무관합니다.
- 단점: 차원이 작을 때는 잘 되지만, 차원의 저주 때문에 커질 수록 오래걸립니다. 샘플링(sampling) 에 따라서 오래걸립니다.
- Gradient-based Optimization:
- 미분을 통해 최적화 할 방향을 정합니다
- 장점: Random Guided search 에 비해서 탐색영역은 작지만 확실한 방향은 정할 수 있습니다.
- 단점: 학습률(Learning Rate)이 너무 크거나 작으면 최적의 값으로 못갈 수도 있습니다.
- Local, Iterative Optimization: Random Guided Search
본 내용은 부스트코스 조경현 교수의 딥러닝을 이용한 자연어처리 강의 내용입니다.
반응형
'Data Science > NLP' 카테고리의 다른 글
Gradient-Based Optimization (0) | 2022.03.28 |
---|---|
Backpropagation (0) | 2022.03.28 |
Probability & Loss Function (0) | 2022.03.28 |
Hypothesis Set (0) | 2022.03.28 |
Basic ML/DL Overview (0) | 2022.03.28 |
댓글