본문 바로가기
반응형

Data Science92

Udemy에서 DBT 강의 수강 시작하기 (데이터 분석 엔지니어 기술, Data Build Tool 강좌 소개) 개요 안녕하세요! 루크입니다. 제가 오랜만에 데이터 엔지니어링 관련 강의(The Complete dbt (Data Build Tool) Bootcamp: Zero to Hero)를 듣게 되었습니다. 최근에 Data Analytics Engineer 직무로 일을 하고 있는데, ETL 중에서도 T에 집중이 되어 있다는 Data Build Tool(DBT)를 접하게 되어 큰 관심을 가지게 되었습니다. 유데미를 통해서 강의를 듣게 되었는데, 강의 내용이 영어로 되어 있다 보니까, 언제든지 꺼내서 보기 위해서 블로그 포스트를 남겨두어야겠다는 생각이 들더라고요. 그래서! 오로지(?) 저 위해서 강의 내용을 텍스트로 남겨보려고 합니다. (혹시라도, 저작권 등에 문제가 된다면 수정 조치 하겠습니다.) 데이터 분석의 새.. 2024. 7. 31.
한국어 텍스트 분석기 KoNLPy 쉽게 설치하기 (간단 방법 완벽 정리) 이번 포스팅에서는 매번 겁부터 나던 KoNLPy 패키지 설치에 대해서 알아본다. 설치 방법이 공식 페이지에도 나와 있지만, 왠지 모르게 이해하기 힘들다.. https://konlpy.org/ko/latest/index.html KoNLPy: 파이썬 한국어 NLP — KoNLPy 0.6.0 documentation KoNLPy: 파이썬 한국어 NLP KoNLPy(“코엔엘파이”라고 읽습니다)는 한국어 정보처리를 위한 파이썬 패키지입니다. 설치법은 이 곳을 참고해주세요. NLP를 처음 시작하시는 분들은 시작하기 에서 가 konlpy.org 그래서, 설치 과정을 단계별로 쉽게 써 놓으려고 한다. 나중에 내가 보는 용도로 사용하고 싶어서.. - 회사에서 설치했었던지라, 보안 관련된 부분도 문제가 있었던 부분을 추.. 2022. 12. 6.
[ADP-14] 정상성 / 자기회귀모형(AR) / 이동평균모형(MA) / 자기회귀누적이동평균모형(ARIMA) / 분해시계열 정상성 - 시간의 흐름에 따라서 관측된 데이터를 시계열(Time-series) 자료라고 함 - 시계열 분석을 하기 위해서는 정상성(Stationary)을 만족해야 함 - 정상성은 시점에 상관없이 시계열의 특성이 일정하다는 것을 의미함 정상성 1) 평균이 일정하다 2) 분산이 시점에 의존하지 않는다. 3) 공분산은 단지 시차에만 의존하고 시점 자체에는 의존하지 않는다. - 정상성 조건을 하나라도 만족하지 못하는 경우, 비정상 시계열이라고 부름 - 비정상 시계열 자료는 정상성을 만족하도록 데이터를 정상 시계열 자료로 만든 다음 시계열 분석을 수행함 - 차분 : 현 시점의 자료값에서 전 시점의 자료값을 빼는 것 - 여러 시점 전의 자료를 빼는 것을 계절차분이라고 함 - 추세를 보이는(평균이 일정하지 않은) 경.. 2022. 8. 17.
[ADP-13] 회귀분석 모형 적절성 평가 / 설명변수 선택 / 상관분석 / 다차원척도법(MDS) / 주성분분석 회귀분석 모형 적절성 평가 1) 모형이 통계적으로 유의미한가? - F통계량을 확인함 - 유의수준 5% 하에서 F통계량의 p-value값이 0.05보다 작으면 추정된 회귀식은 통계적으로 유의함 2) 회귀계수들이 유의미한가? - 해당 계수의 t통계량과 p-value값 또는 이들의 신뢰구간을 확인함 3) 모형이 얼마나 설명력을 갖는가? - 결정계수를 확인함 - 결정계수는 0에서 1 값을 가지며, 높은 값을 가질수록 추정된 회귀식의 설명력이 높음 4) 모형이 데이터를 잘 적합하고 있는가? - 잔차를 그래프로 그리고 회귀진단을 함 5) 데이터가 아래 모형의 가정을 만족시키는가? - 선형성 / 독립성 / 등분산성 / 비상관성 / 정상성 선형성 독립변수의 변화에 따라 종속변수도 일정 크기로 변화함 독립성 잔차와 독립.. 2022. 8. 17.
[ADP-12] 통계학 정의 / 모집단과 표본/ 표본추출방법 / 자료의 종류 / 확률 및 확률변수 / 점추정과 구간추정 / 가설검정 / 비모수검정 통계학 정의 - 매일 발표되는 일기예보, 물가, 실업률, GNP 등과 같은 경제통계, 각 정당에 대한 지지도 조사나 가족법 개정에 대한 의식 조가와 같은 사회조사 분석 통계, 새로운 희귀병 치료제의 임상실험 결과와 같은 실험결과 분석 통계 등 - 자료로부터 유용한 정보를 이끌어 내는 학문 - 유용한 정보를 이끌어 내는 작업에는 자료의 수집과 정리, 그리고 이를 해석하는 방법 등을 모두 포함 모집단과 표본 - 모집단 : 우리가 알고자 하는 전체 - 모집단을 구성하는 개체를 추출단위 혹은 원소라고 함 - 모집단에 대해 조사하는 방법에는 총조사(census)와 표본조사로 나뉨 - 총조사 : 모집단의 개체 모두를 조사하는 방법, 많은 비용과 시간이 소요 - 표본조사 : 일부분만 조사하여 모집단에 대해 추론하는 .. 2022. 8. 17.
[ADP-11] R을 활용한 데이터 기초 통계 / 결측값 처리 / 이상값 탐색 데이터 기초 통계 head(df) # 데이터에서 앞 6줄만 보도록 함 head(df, 10) # 숫자를 넣어주면 원하는 개수만큼 볼 수 있음 str(df) # 데이터의 구조를 파악할 수 있도록 보여줌 summary(df) # 데이터의 기초 통계량을 볼 수 있음 cov(df[, 1:4]) # 컬럼 1~4의 공분산을 구해줌 cor(df[, 1:4]) # 컬럼 1~4의 상관계수를 구해줌 결측값 처리 - R에서 결측값 처리 관련 패키지는 Amelia 2, Mice, mistools 등이 있으며, Amelia가 대표적임 - R에서 결측값은 NA(Not available)로 처리함 - 불가능한 값(예를 들면 dividing by zero)는 NaN(Not a Number)으로 처리됨 - is.na(y) : 결측값인.. 2022. 8. 16.
[ADP-10] R 기타 유용한 기능들(paste, substr) / R 그래픽 기능 / 데이터 마트 / R reshape / sqldf / plyr / 데이터 테이블 R 기타 유용한 기능들 - paste : 입력받은 문자열들을 하나로 붙여줌, sep을 통해 구분자를 삽입시킬 수 있음 - substr : 주어진 문자열에서 특정 문자열을 추출하는 기능을 함, substr("string", 1, 4)는 1번째 글자부터 4번째 글자까지 추출 - 자료형 데이터 구조 변환 as.data.frame(x) 데이터 프레임 형식으로 변환함 as.list(x) 리스트 형식으로 변환함 as.matrix(x) 행렬 형식으로 변환함 as.vector(x) 벡터 형식으로 변환함 as.factor(x) 팩터 형식으로 변환함 - 강제로 데이터 구조를 변환하면 경고문이 발생할 수 있음 as.integer(3.14) # 3 as.numeric("foo") # NA # 경고메세지: # 강제형변환에 의해.. 2022. 8. 16.
[ADP-9] R 외부 데이터 불러오기 / R의 기초함수 / R 데이터 핸들링 / R 반복 구문과 조건문 외부 데이터 불러오기 - R은 다양한 형태의 외부 데이터를 불러올 수 있음 - csv, txt, xls, xlsx파일을 R로 불러올 수 있음 - 경로 지정할 때는 '\' 대신에 '\\'이나 '/'을 사용함 - CSV 파일 불러오기 data1 2022. 8. 16.
[ADP-8] 분석도구 R의 특징 / R 시작하기(install.packages, library, ?, help) / R의 데이터 구조(벡터 c, 행렬 matrix, 데이터프레임 data.frame) 분석도구 R의 특징 - R은 무료 소프트웨어이면서도 고차원적인 계산이 가능하며 통계 분석과 시각화에 최적화된 환경을 통해 단순한 계산부터 복잡한 통계 기법까지를 폭넓게 다룰 수 있음 1) 그래픽 처리 - 상용 소프트웨어에 버금가는 상당한 수준의 그래프와 그림 - 그림의 용도와 역할에 맞게 적절한 그래프를 언제든지 쉽게 생산할 수 있음 - 매우 세부적인 부분까지 사용자가 직접 지정, 섬세한 작업을 수행할 수 있음 - 출판물로 사용해도 손색이 없을 정도의 고해상도 이미지를 생산함에도 그 처리 시간이 매우 빠름 2) 데이터 처리 및 계산 능력 - 벡터, 행렬, 배열, 데이터프레임, 리스트 등 다양한 형태의 데이터 구조 지원 - 다양한 데이터 형태의 분석이 용이함 - 복잡한 구조 내 개별 데이터에 접근하는 절차.. 2022. 8. 12.
반응형