본문 바로가기

ML5

Neural N-Gram Language Model Neural N-Gram Language Model 신경망을 사용함으로서 데이터 희소성(data sparsity) 문제를 해결 할 수 있습니다. 기존의 카운트 기반 모델 보다 훈련 데이터에서 나오지 않았었던 N-gram 을 계산 할 수가 있었습니다. 어떻게 이것이 가능할까요? 그전에 데이터 희소성(data sparsity) 문제가 생기는 이유를 살펴봐야합니다. 간단한 대답은 토큰들이 훈련시에는 생기지 않지만, 테스트시에 만 생기기 때문입니다. 조금더 깊은 대답은 이산 공간(discrete space) 에서 카운트하여 토큰들의 유사도 측정이 불가능 하기 때문입니다. 하지만 신경망에서는 토큰을 연속 벡터 공간(continuous vector space) 에 매핑(mapping) 시킵니다. 나오지 않았던 단어.. 2022. 3. 30.

Language Modeling 언어 모델링(Language Modeling) Input: 하나의 문장 Output: Input 문장에 대한 확률 텍스트 분류 문제와 달리, 비지도학습입니다. 하지만, 순서가 있는 지도학습으로 문제를 바꿔서 풀 수 있습니다. Autoregressive language modelling (자기회귀 언어 모델링) Sequence 가 주어졌을 때 이 문장에게 점수를 부여 하는 방법입니다. 이전 토큰이 나왔을때 다음 토큰이 나올 확률을 계산하는 작업과 동일합니다. 이렇게 정의 하면서 비지도학습 문제를 지도학습으로 푸는 문제로 변하게 됩니다. 즉, 이전에 공부했던 텍스트 분류 문제와 같아지는데, input 은 이전에 나온 토큰, output은 다음에 나올 토큰을 예측 하는 것입니다. 또한, 문장에 점수(Score.. 2022. 3. 30.

Gradient-Based Optimization Off-the-shelf gradient-based optimization Gradient descent, L-BFGS, Conjugate gradient 등 방법 들이 있습니다. 그러나 위 방법들은 매개변수(parameters)가 많아질 수록 시간이 오래걸립니다. 그 이유는 훈련 샘플 전체의 Loss 는 각 샘플에 대한 Loss 의 합으로 구해지며, 데이터가 많아 질수록 오래 걸리기 때문입니다. 확률적 경사 하강법(Stochastic Gradient descent) 1. M개의 훈련 샘플을 선택합니다. 이를 미니배치(Mini batch) 라고 합니다. 2. 미니배치 경사를 계산합니다. 3. 매개변수를 업데이트합니다. 4. 검증 세트로 구한 validation loss 가 더 이상 진전이 없을때까지 진행.. 2022. 3. 28.

Basic ML/DL Overview 알고리즘 vs 머신러닝 알고리즘: 어떤 문제를 푸는데 있어서 필요한 일련의 명령들입니다. 머신러닝: data-driven algorithm design 예전에는 문제가 주어졌을 때 해당 문제에 알맞는 알고리즘을 만드는 것이 일이었는데, 머신러닝에서는 실제로 문제를 특정하는 것 부터가 어렵습니다. 따라서 아래의 과정을 거칩니다. 대략적인 문제의 정의가 있습니다. 없을 때도 있습니다. 어떤 형태로든 데이터 훈련 샘플이 있습니다. 머신러닝 모델이 이 문제를 풀도록 훈련 시킵니다. 지도 학습에서 결정해야할 일 Provided N 개의 Input 과 Output 으로 구성된 훈련 샘플(Training Examples) D={(x1,y1),⋯,(xN,yN)} Loss Function: 머신러닝.. 2022. 3. 28.

[홀로서기 #06] 회귀 Regression 결정계수(R^2), 알파(alpha) # 홀로서기 기획 연재물은 최근 개인 프로젝트를 진행하면서 겪은 어려움들을 기록한 지극히 개인적인 콘텐츠입니다. R^2, R-squared, 결정계수, 그게 뭔데. 지난 시간에 필자는 기본 회귀모델(Linear Regression)을 포함해서, Lasso, Ridge, ElasticNet까지 모두 돌려봤었다. 회귀 모델이 정규분포일 때 가장 성능이 좋다는 것을 간과하면 안 된다는 점을 깨닫고 Log Transformation(홀로서기 #05)까지 했었는데, 결국 R-sqaured 값은 쓸만하지 못했다. 다시 한번 살펴보면 아래와 같았다. 대체 '결정계수'라고 불리우는 R^2 값의 정체는 무엇일까. 데이터를 잘 정리해서 모델을 돌려도, 이 모델이 정말 유효한 모델인지 판단하는 데에는 '통계학적 지식'이 매.. 2022. 1. 11.

이전 1 다음

티스토리툴바