본문 바로가기
Data Science/NLP

Basic ML/DL Overview

by 루크 Luke 2022. 3. 28.
반응형

알고리즘 vs 머신러닝

  • 알고리즘: 어떤 문제를 푸는데 있어서 필요한 일련의 명령들입니다.
  • 머신러닝: data-driven algorithm design
  • 예전에는 문제가 주어졌을 때 해당 문제에 알맞는 알고리즘을 만드는 것이 일이었는데, 머신러닝에서는 실제로 문제를 특정하는 것 부터가 어렵습니다. 따라서 아래의 과정을 거칩니다.  
    • 대략적인 문제의 정의가 있습니다. 없을 때도 있습니다.
    • 어떤 형태로든 데이터 훈련 샘플이 있습니다.
    • 머신러닝 모델이 이 문제를 풀도록 훈련 시킵니다.

 

지도 학습에서 결정해야할 일

  • Provided
    • N 개의 Input 과 Output 으로 구성된 훈련 샘플(Training Examples)
      • D={(x1​,y1​),⋯,(xN​,yN​)} 
    • Loss Function: 머신러닝 모델 M 의 Output, M(X) 와 실제 값들인 y 를 평가할 지표
      • L(M(x),y)≥0
    • 모델을 평가할 검정 세트(Validation Set: Dval​) 와 테스트 세트(Test Set: Dtest​): 만든 모델이 기존에 보지 않았던 데이터를 풀 수 있는가를 검정합니다.

 

 

 

  • Decide
    • 가설 집합(Hypothesis Sets): 가설이란 이 문제를 풀기위한 알고리즘, 모델 아키텍쳐를 설정하는 과정입니다.
    • 최적화 알고리즘(Optimization algorithm): Loss를 낮출 수 있는 머신을 찾을 수 있는 지에 대한 학습 방법을 결정합니다.

 

모든 것이 결정 되면, 지도학습은 각 가설 Hm​ 에 대하여 최적화 알고리즘을 사용해 제일 좋은 모델을 찾습니다.

  • Given:
    •  Dtrain​=(x1​,y1​),⋯,(xN​,yN​),Dval​,dtest​ 
    •  L(M(x),y)≥0 
    •  H1​,⋯,HM​ 
    • Optimization Algorithm
  • 과정:

1. [Training] 각 가설마다, Training Set 을 사용해서 퍼포먼스가 제일 좋은 모델들을 찾습니다. 

 M^m​=argminMHm(x,y)∈D​L(M(x),y

2. [Model Selection] Validation Set 을 사용해서 훈련된 모델들 중에 제일 좋은 모델을 선택합니다. 

 M^m​=argminMHm(x,y)∈Dval​L(M(x),y

3. [Reporting] Test Set 를 사용해서 제일 좋은 모델의 퍼포먼스를 측정합니다.

 R(M^​)≈Dtest​∣1(x,y)∈Dtest​L(M^​(x),y

 

  • 앞으로 우리는 3가지를 정해야합니다.
    • 가설 집합(Hypothesis set)
    • 비용함수(Loss function)
    • 최적화 알고리즘(Optimization algorithm)

 

 

본 내용은 부스트코스 조경현 교수의 딥러닝을 이용한 자연어 처리 강의 내용입니다.

반응형

'Data Science > NLP' 카테고리의 다른 글

Gradient-Based Optimization  (0) 2022.03.28
Backpropagation  (0) 2022.03.28
Optimization methods  (0) 2022.03.28
Probability & Loss Function  (0) 2022.03.28
Hypothesis Set  (0) 2022.03.28

댓글