본문 바로가기
반응형

dl3

Neural N-Gram Language Model Neural N-Gram Language Model 신경망을 사용함으로서 데이터 희소성(data sparsity) 문제를 해결 할 수 있습니다. 기존의 카운트 기반 모델 보다 훈련 데이터에서 나오지 않았었던 N-gram 을 계산 할 수가 있었습니다. 어떻게 이것이 가능할까요? 그전에 데이터 희소성(data sparsity) 문제가 생기는 이유를 살펴봐야합니다. 간단한 대답은 토큰들이 훈련시에는 생기지 않지만, 테스트시에 만 생기기 때문입니다. 조금더 깊은 대답은 이산 공간(discrete space) 에서 카운트하여 토큰들의 유사도 측정이 불가능 하기 때문입니다. 하지만 신경망에서는 토큰을 연속 벡터 공간(continuous vector space) 에 매핑(mapping) 시킵니다. 나오지 않았던 단어.. 2022. 3. 30.
Language Modeling 언어 모델링(Language Modeling) Input: 하나의 문장 Output: Input 문장에 대한 확률 텍스트 분류 문제와 달리, 비지도학습입니다. 하지만, 순서가 있는 지도학습으로 문제를 바꿔서 풀 수 있습니다. Autoregressive language modelling (자기회귀 언어 모델링) Sequence 가 주어졌을 때 이 문장에게 점수를 부여 하는 방법입니다. 이전 토큰이 나왔을때 다음 토큰이 나올 확률을 계산하는 작업과 동일합니다. 이렇게 정의 하면서 비지도학습 문제를 지도학습으로 푸는 문제로 변하게 됩니다. 즉, 이전에 공부했던 텍스트 분류 문제와 같아지는데, input 은 이전에 나온 토큰, output은 다음에 나올 토큰을 예측 하는 것입니다. 또한, 문장에 점수(Score.. 2022. 3. 30.
Gradient-Based Optimization Off-the-shelf gradient-based optimization Gradient descent, L-BFGS, Conjugate gradient 등 방법 들이 있습니다. 그러나 위 방법들은 매개변수(parameters)가 많아질 수록 시간이 오래걸립니다. 그 이유는 훈련 샘플 전체의 Loss 는 각 샘플에 대한 Loss 의 합으로 구해지며, 데이터가 많아 질수록 오래 걸리기 때문입니다. 확률적 경사 하강법(Stochastic Gradient descent) 1. M개의 훈련 샘플을 선택합니다. 이를 미니배치(Mini batch) 라고 합니다. 2. 미니배치 경사를 계산합니다. 3. 매개변수를 업데이트합니다. 4. 검증 세트로 구한 validation loss 가 더 이상 진전이 없을때까지 진행.. 2022. 3. 28.
반응형