본문 바로가기
반응형

딥러닝기초5

Neural N-Gram Language Model Neural N-Gram Language Model 신경망을 사용함으로서 데이터 희소성(data sparsity) 문제를 해결 할 수 있습니다. 기존의 카운트 기반 모델 보다 훈련 데이터에서 나오지 않았었던 N-gram 을 계산 할 수가 있었습니다. 어떻게 이것이 가능할까요? 그전에 데이터 희소성(data sparsity) 문제가 생기는 이유를 살펴봐야합니다. 간단한 대답은 토큰들이 훈련시에는 생기지 않지만, 테스트시에 만 생기기 때문입니다. 조금더 깊은 대답은 이산 공간(discrete space) 에서 카운트하여 토큰들의 유사도 측정이 불가능 하기 때문입니다. 하지만 신경망에서는 토큰을 연속 벡터 공간(continuous vector space) 에 매핑(mapping) 시킵니다. 나오지 않았던 단어.. 2022. 3. 30.
CBoW & RN & CNN & Self Attention & RNN 문장표현(Sentence representation)의 의미: 어떤 과제를 풀기에 적합하고 숫자로 나타낸 문장의 표현입니다 CBoW(Continuous bag-of-words): 단어장을 단어 주머니로 보게되고, 이에 따라 단어의 순서는 무시합니다. 문장에 대한 표현은 단어 벡터들을 평균시킨 벡터로 구합니다. 효과가 좋기 때문에 제일 먼저 시도해봐야합니다. (Baseline 모델) 공간상에서 가까우면 비슷한 의미, 아니면 멀리 떨어져 있을 것입니다. Relation Network(Skip-Bigram): 문장안에 있는 모든 토큰 쌍(pairs)을 보고, 각 쌍에 대해서 신경망을 만들어서 문장표현을 찾습니다. 장점: 여러 단어로 된 표현을 탐지 할 수 있습니다. 단점: 모든 단어간의 관계를 보기 때문에, .. 2022. 3. 28.
Gradient-Based Optimization Off-the-shelf gradient-based optimization Gradient descent, L-BFGS, Conjugate gradient 등 방법 들이 있습니다. 그러나 위 방법들은 매개변수(parameters)가 많아질 수록 시간이 오래걸립니다. 그 이유는 훈련 샘플 전체의 Loss 는 각 샘플에 대한 Loss 의 합으로 구해지며, 데이터가 많아 질수록 오래 걸리기 때문입니다. 확률적 경사 하강법(Stochastic Gradient descent) 1. M개의 훈련 샘플을 선택합니다. 이를 미니배치(Mini batch) 라고 합니다. 2. 미니배치 경사를 계산합니다. 3. 매개변수를 업데이트합니다. 4. 검증 세트로 구한 validation loss 가 더 이상 진전이 없을때까지 진행.. 2022. 3. 28.
[Tensorflow] Tensorflow로 신경망 구조 만들기 텐서플로로 신경망 구조를 만드는 방법은 크게 2가지가 있다. 1. 시퀀스 API 사용 2. 함수형 API 사용 시퀀스 API 사용 - 텐서플로에서 제공하는 Sequential()을 통해 딥러닝 구조의 층을 쌓을 수 있음 - Sequential() 선언 후, model.add() 함수를 입력함으로써 실제로 층을 쌓음 - Sequential() : 신경망 모형을 선언, 생성하는 역할 from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Dense model = Sequential() model.add(Dense(100, activation='relu', input_shape=(32, 32, 1)) model.add.. 2022. 1. 7.
딥러닝 기본 용어 잡기(Introduction to Deep Learning) 딥러닝 : 인공신경망 기반의 학습 방식 - 수많은 뉴런이 서로 연결되어 신호를 서로 전달하는 것처럼 퍼셉트론이 연결되어 연산 결과를 주고 받음 퍼셉트론 : 신경망의 최소 단위 - 입력값(input), 가중치 벡터(w), 출력값(output) - 입력값 벡터와 가중치 벡터의 내적값이 활성화 함수(Activation Function)를 거쳐 최종 출력값을 반환 - 활성화 함수는 시그모이드(Sigmoid), 렐루(Relu), 리키 렐루(Leaky Relu) 등이 있음 - 편향(b, bias) : 가중합에 더해지는 상수 다층 퍼셉트론 : 퍼셉트론의 층 여러 개 - XOR 등 하나의 퍼셉트론으로는 해결할 수 없었던 문제를 해결할 수 있게 함 - 인공 신경망(Artificial neutral network), 줄여.. 2022. 1. 7.
반응형