본문 바로가기
Data Science/NLP

Probability & Loss Function

by 루크 Luke 2022. 3. 28.
반응형

Probability 

  • 사건집합(Event Set) : 모든 가능한 사건의 집합
    •  Ω={e1​,e2​,⋯,eD​} 
    • 이벤트 갯수가 유한일때 : 이산(Descrete)
    • 이벤트 갯수가 무한일때 : 연속(Continuous)
  • 확률변수(Random Variable): 사건집합 안에 속하지만 정의되지 않은 어떤 값
  • 확률(Probability): 사건집합에 속한 확률변수에게 어떤 값을 지정해주는 함수입니다.
    •  p(X=ei​) 
  • 특성(Properties)
    1. Non-negatives:  p(X=ei​)≥0 , 확률은 비음수입니다.
    2. Unit volume:  e∈Ω​p(X=e)=1 , 모든 확률의 합은 1이 되어야 합니다.
  • 결합확률(Joint probability):  p(Y=ejY​,X=eiX​) 
  • 조건부 확률(Conditional probability):  p(Y=ejY​∣X=eiX​) 
  • 한계 확률(Marginal probability):   p(Y=ejY​)=e∈ΩX​p(Y=ejY​,X=eiX​) 

 

Loss Function

  • 지도학습은 Input(x) 값을 넣었을 때 Output(y) 값을 산출 하는 것입니다. 하지만 조금만 다르게 생각해서, Input(x) 값이 주어졌을 때 의 Output(y) 값이 y’ 일 확률을 구하는 것으로 생각할 수 있습니다.
    •  fθ​(x)= ? → p(y=y​∣x)= ? 
  • 어떤 확률 분포들이 있을까요?
    • 이진 분류: 베르누이(Bernoulli) 분포
    • 다중 분류: 카테고리(Categorical) 분포
    • 선형 회귀: 가우시안(Gaussian) 분포
    • 다항 회귀: 가우시안 믹스쳐(Mixture of Gaussians)
  • 인공신경망 모델이 조건부 확률 분포를 출력하면 이를 사용해서 비용함수를 정의 할 수 있습니다.
    • 최대한 모델이 출력한 조건부 확률 분포가 훈련 샘플의 확률분포와 같게 만드는 것입니다. 즉 모든 훈련 샘플이 나올 확률을 최대화 하는 것입니다.
    • 이렇게 함으로서 자동으로 비용함수를 정의 할 수 있습니다. 이를 최대 우도 추정(Maximum Likelihood Estimation)라고 합니다.

  • Log 를 사용하는 이유는 여러가지가 있지만, 이 강의에서는 이야기 하지 않겠습니다.
  • 또한 최소화를 하기 위해서 앞에 마이너스 부호를 붙여줍니다. (-1 을 곱합니다.)
  • 최종적으로, 비용함수는 음의 로그확률(Negative Log-probabilities)의 합으로 결정됩니다.

 

반응형

'Data Science > NLP' 카테고리의 다른 글

Gradient-Based Optimization  (0) 2022.03.28
Backpropagation  (0) 2022.03.28
Optimization methods  (0) 2022.03.28
Hypothesis Set  (0) 2022.03.28
Basic ML/DL Overview  (0) 2022.03.28

댓글