본문 바로가기
반응형

데이터분석프로젝트4

[SQL로 맛보는 데이터 전처리 분석] 자동차 매출 데이터를 이용한 지표 추출(실습) - 3 데이터셋 - MySQL에서 제공하는 샘플 데이터셋을 활용함 - https://www.mysqltutorial.org/mysql-sample-database.aspx MySQL Sample Database This page provides you with a MySQL sample database that helps you to practice with MySQL effectively and quickly. You can download the sample database and load it into your MySQL Server. www.mysqltutorial.org - 지난 포스팅에 이어서 실습 진행함 (아래 링크를 통해 실습 2로 이동할 수 있다) [SQL로 맛보는 데이터 전처리 분석] 자동차 .. 2022. 7. 14.
[홀로서기 #09] 이상 탐지 모델링 베이스라인(Isolation Forest) 빠르게 훑기 # 홀로서기 기획 연재물은 최근 개인 프로젝트를 진행하면서 겪은 어려움들을 기록한 지극히 개인적인 콘텐츠입니다. 비지도학습 기반 이상탐지 모델 비지도학습에 활용되는 ML 모델로는 크게 아래와 같이 정리된다. (물론 딥러닝이나 최신 모델도 많지만 내 구글링 기준으로..) 1. Isolation Forest (가장 흔하고 쉽고 인기 있는 모델, 트리 기반) 2. Local Outlier Factor Algorithm (근접 기반) 3. One Class SVM 4. Random Cut Forest(Isolation Forest 변형) IF는 흔히 AI콘테스트에서 이상탐지 모델링 문제가 나왔을 때, 베이스라인 코드로도 많이 활용되는 기초 모델이다. 한번도 활용해본 적이 없기 때문에, 현재 내 프로젝트 데이터를.. 2022. 7. 14.
[홀로서기 #08] 이상 탐지(Anomaly Detection) 베이직. # 홀로서기 기획 연재물은 최근 개인 프로젝트를 진행하면서 겪은 어려움들을 기록한 지극히 개인적인 콘텐츠입니다. 하찮은 변명을 잠시.. 부트캠프 이후에 최근 데이터분석가로 취업하고, 포스팅 작업을 잠시 쉬었다. 그러면서 자연스럽게, 예전에 진행하던 데이터 프로젝트를 기록하지 못했다. 최근에 분석가로서 자신을 돌아보면서, 학문에 많이 소홀해졌다는 생각이 들어서, 이렇게 다시 포스트를 쓰고 있다. 이전 포스트를 확인해보니 이상탐지 모델링에 꽤나 진심이었던거 같기도 하다. 당시에 많은 논문들도 리뷰하면서 딥러닝 모델을 꾸렸었는데, 결론적으로 해당 프로젝트 모델 성능은 좋지 않았다. 원인을 생각해보면 하나는, 전처리 이슈, 다른 하나는 적합한 모델을 사용하지 않았다는 판단도 선다. 그래서 이상탐지와 관련한 기본.. 2022. 7. 13.
[홀로서기 #04] 회귀 모델링 하기 전에 꼭 확인하기 (1) - 범주형 특성 변수(Categorical Features) # 홀로서기 기획 연재물은 최근 개인 프로젝트를 진행하면서 겪은 어려움들을 기록한 지극히 개인적인 콘텐츠입니다. SQL로 최종 데이터 가져오기 지난 시간에 이어서 서울권 공유자전거(따릉이) 이용 데이터를 살펴본다. 시각화를 통해 데이터의 전체적인 모양과 흐름 파악을 마쳤으니, 예측 모델링을 위한 최종 전처리를 진행하고 실제로 ML(Machine Learning) 모델을 적용해봤다. 지금까지(홀로서기 #03)는 서울 강남역 근처의 5개소 대여소만을 기준으로 데이터를 봤다면, 최종 모델링은 전체 데이터를 활용해서 진행했다. 아래 Python 코드는 AWS의 RDS(데이터베이스)에 저장된 데이터 중 최종 모델링에 활용할 데이터를 SQL Query로 불러오는 예시를 나타낸 것이다. conn_aws = mysql.. 2021. 12. 28.
반응형