본문 바로가기
반응형

전체 글92

[SQL로 맛보는 데이터 전처리 분석] 자동차 매출 데이터를 이용한 지표 추출(실습) - 3 데이터셋 - MySQL에서 제공하는 샘플 데이터셋을 활용함 - https://www.mysqltutorial.org/mysql-sample-database.aspx MySQL Sample Database This page provides you with a MySQL sample database that helps you to practice with MySQL effectively and quickly. You can download the sample database and load it into your MySQL Server. www.mysqltutorial.org - 지난 포스팅에 이어서 실습 진행함 (아래 링크를 통해 실습 2로 이동할 수 있다) [SQL로 맛보는 데이터 전처리 분석] 자동차 .. 2022. 7. 14.
[홀로서기 #09] 이상 탐지 모델링 베이스라인(Isolation Forest) 빠르게 훑기 # 홀로서기 기획 연재물은 최근 개인 프로젝트를 진행하면서 겪은 어려움들을 기록한 지극히 개인적인 콘텐츠입니다. 비지도학습 기반 이상탐지 모델 비지도학습에 활용되는 ML 모델로는 크게 아래와 같이 정리된다. (물론 딥러닝이나 최신 모델도 많지만 내 구글링 기준으로..) 1. Isolation Forest (가장 흔하고 쉽고 인기 있는 모델, 트리 기반) 2. Local Outlier Factor Algorithm (근접 기반) 3. One Class SVM 4. Random Cut Forest(Isolation Forest 변형) IF는 흔히 AI콘테스트에서 이상탐지 모델링 문제가 나왔을 때, 베이스라인 코드로도 많이 활용되는 기초 모델이다. 한번도 활용해본 적이 없기 때문에, 현재 내 프로젝트 데이터를.. 2022. 7. 14.
[홀로서기 #08] 이상 탐지(Anomaly Detection) 베이직. # 홀로서기 기획 연재물은 최근 개인 프로젝트를 진행하면서 겪은 어려움들을 기록한 지극히 개인적인 콘텐츠입니다. 하찮은 변명을 잠시.. 부트캠프 이후에 최근 데이터분석가로 취업하고, 포스팅 작업을 잠시 쉬었다. 그러면서 자연스럽게, 예전에 진행하던 데이터 프로젝트를 기록하지 못했다. 최근에 분석가로서 자신을 돌아보면서, 학문에 많이 소홀해졌다는 생각이 들어서, 이렇게 다시 포스트를 쓰고 있다. 이전 포스트를 확인해보니 이상탐지 모델링에 꽤나 진심이었던거 같기도 하다. 당시에 많은 논문들도 리뷰하면서 딥러닝 모델을 꾸렸었는데, 결론적으로 해당 프로젝트 모델 성능은 좋지 않았다. 원인을 생각해보면 하나는, 전처리 이슈, 다른 하나는 적합한 모델을 사용하지 않았다는 판단도 선다. 그래서 이상탐지와 관련한 기본.. 2022. 7. 13.
[SQL로 맛보는 데이터 전처리 분석] 자동차 매출 데이터를 이용한 지표 추출(실습) - 2 데이터셋 - MySQL에서 제공하는 샘플 데이터셋을 활용함 - https://www.mysqltutorial.org/mysql-sample-database.aspx MySQL Sample Database This page provides you with a MySQL sample database that helps you to practice with MySQL effectively and quickly. You can download the sample database and load it into your MySQL Server. www.mysqltutorial.org - 지난 포스팅에 이어서 실습 진행함 (아래 링크를 통해 실습 1로 이동할 수 있다) [SQL로 맛보는 데이터 전처리 분석] 자동차 .. 2022. 7. 12.
[SQL로 맛보는 데이터 전처리 분석] 자동차 매출 데이터를 이용한 지표 추출(실습) - 1 데이터셋 - MySQL에서 제공하는 샘플 데이터셋을 활용함 - https://www.mysqltutorial.org/mysql-sample-database.aspx MySQL Sample Database This page provides you with a MySQL sample database that helps you to practice with MySQL effectively and quickly. You can download the sample database and load it into your MySQL Server. www.mysqltutorial.org 1) 구매지표 추출 - 매출액(일자별, 월별, 연도별) - 구매자 수, 구매 건수(일자별, 월별, 연도별) - 인당 매출액(AMV, .. 2022. 7. 11.
[SQL로 맛보는 데이터 전처리 분석] 기본 문법 정리 - 2 * INSERT - 데이터를 추가할 때 사용하는 문법 - 행을 추가한다고 생각하면 됨 INSERT INTO [Table Name] ([Column Name 1], [Column Name 2], ... ) VALUES (Value1, Value2, ...) - 여러 행을 한번에 추가하고 싶다면, VALUES의 값을 ,(comma)로 구분해서 여러 줄 입력해주면 된다. INSERT INTO [Table Name] ([Column Name 1], [Column Name 2], ... ) VALUES (Value1, Value2, ...), (Value1, Value2, ...), (Value1, Value2, ...), (Value1, Value2, ...); * DELETE - 데이터를 삭제할 때 사용하는 .. 2022. 7. 7.
[SQL로 맛보는 데이터 전처리 분석] 기본 문법 정리 - 1 * SELECT - 분석가라면 가장 많이 사용하게 될 '조회' SELECT [Column name], [Column name], ... FROM [DB name].[Table name]; - GROUP BY 없이도 집계 함수 사용 가능함 - 모든 결과를 조회하려면 '*'를 사용한다. ex) SELECT * FROM TABLE - 별칭을 붙여서 컬럼명을 변경 조회할 수 있다. ex) SELECT COLUMN AS A FROM TABLE - 고유값을 보려면 DISTINCT 사용 ex) SELECT DISTINCT COLUMN FROM TABLE - WHERE절을 조건절로 사용해서, 조회 조건을 다양하게 가져갈 수 있다. WHERE 절에 쓸 수 있는 다양한 표현들 BETWEEN 특정 컬럼의 값이 시작점~끝점인.. 2022. 7. 6.
Neural N-Gram Language Model Neural N-Gram Language Model 신경망을 사용함으로서 데이터 희소성(data sparsity) 문제를 해결 할 수 있습니다. 기존의 카운트 기반 모델 보다 훈련 데이터에서 나오지 않았었던 N-gram 을 계산 할 수가 있었습니다. 어떻게 이것이 가능할까요? 그전에 데이터 희소성(data sparsity) 문제가 생기는 이유를 살펴봐야합니다. 간단한 대답은 토큰들이 훈련시에는 생기지 않지만, 테스트시에 만 생기기 때문입니다. 조금더 깊은 대답은 이산 공간(discrete space) 에서 카운트하여 토큰들의 유사도 측정이 불가능 하기 때문입니다. 하지만 신경망에서는 토큰을 연속 벡터 공간(continuous vector space) 에 매핑(mapping) 시킵니다. 나오지 않았던 단어.. 2022. 3. 30.
Language Modeling 언어 모델링(Language Modeling) Input: 하나의 문장 Output: Input 문장에 대한 확률 텍스트 분류 문제와 달리, 비지도학습입니다. 하지만, 순서가 있는 지도학습으로 문제를 바꿔서 풀 수 있습니다. Autoregressive language modelling (자기회귀 언어 모델링) Sequence 가 주어졌을 때 이 문장에게 점수를 부여 하는 방법입니다. 이전 토큰이 나왔을때 다음 토큰이 나올 확률을 계산하는 작업과 동일합니다. 이렇게 정의 하면서 비지도학습 문제를 지도학습으로 푸는 문제로 변하게 됩니다. 즉, 이전에 공부했던 텍스트 분류 문제와 같아지는데, input 은 이전에 나온 토큰, output은 다음에 나올 토큰을 예측 하는 것입니다. 또한, 문장에 점수(Score.. 2022. 3. 30.
반응형