반응형
알고리즘 vs 머신러닝
- 알고리즘: 어떤 문제를 푸는데 있어서 필요한 일련의 명령들입니다.
- 머신러닝: data-driven algorithm design
- 예전에는 문제가 주어졌을 때 해당 문제에 알맞는 알고리즘을 만드는 것이 일이었는데, 머신러닝에서는 실제로 문제를 특정하는 것 부터가 어렵습니다. 따라서 아래의 과정을 거칩니다.
- 대략적인 문제의 정의가 있습니다. 없을 때도 있습니다.
- 어떤 형태로든 데이터 훈련 샘플이 있습니다.
- 머신러닝 모델이 이 문제를 풀도록 훈련 시킵니다.
지도 학습에서 결정해야할 일
- Provided
- N 개의 Input 과 Output 으로 구성된 훈련 샘플(Training Examples)
- D={(x1,y1),⋯,(xN,yN)}
- Loss Function: 머신러닝 모델 M 의 Output, M(X) 와 실제 값들인 y 를 평가할 지표
- L(M(x),y)≥0
- 모델을 평가할 검정 세트(Validation Set: Dval) 와 테스트 세트(Test Set: Dtest): 만든 모델이 기존에 보지 않았던 데이터를 풀 수 있는가를 검정합니다.
- N 개의 Input 과 Output 으로 구성된 훈련 샘플(Training Examples)
- Decide
- 가설 집합(Hypothesis Sets): 가설이란 이 문제를 풀기위한 알고리즘, 모델 아키텍쳐를 설정하는 과정입니다.
- 최적화 알고리즘(Optimization algorithm): Loss를 낮출 수 있는 머신을 찾을 수 있는 지에 대한 학습 방법을 결정합니다.
모든 것이 결정 되면, 지도학습은 각 가설 Hm 에 대하여 최적화 알고리즘을 사용해 제일 좋은 모델을 찾습니다.
- Given:
- Dtrain=(x1,y1),⋯,(xN,yN),Dval,dtest
- L(M(x),y)≥0
- H1,⋯,HM
- Optimization Algorithm
- 과정:
1. [Training] 각 가설마다, Training Set 을 사용해서 퍼포먼스가 제일 좋은 모델들을 찾습니다.
M^m=argminM∈Hm∑(x,y)∈DL(M(x),y)
2. [Model Selection] Validation Set 을 사용해서 훈련된 모델들 중에 제일 좋은 모델을 선택합니다.
M^m=argminM∈Hm∑(x,y)∈DvalL(M(x),y)
3. [Reporting] Test Set 를 사용해서 제일 좋은 모델의 퍼포먼스를 측정합니다.
R(M^)≈∣Dtest∣1∑(x,y)∈DtestL(M^(x),y)
- 앞으로 우리는 3가지를 정해야합니다.
- 가설 집합(Hypothesis set)
- 비용함수(Loss function)
- 최적화 알고리즘(Optimization algorithm)
본 내용은 부스트코스 조경현 교수의 딥러닝을 이용한 자연어 처리 강의 내용입니다.
반응형
'Data Science > NLP' 카테고리의 다른 글
Gradient-Based Optimization (0) | 2022.03.28 |
---|---|
Backpropagation (0) | 2022.03.28 |
Optimization methods (0) | 2022.03.28 |
Probability & Loss Function (0) | 2022.03.28 |
Hypothesis Set (0) | 2022.03.28 |
댓글