본문 바로가기
Data Science/DBT

데이터 웨어하우스 이해하기 (온프레미스 vs 클라우드 DW)

by 루크 Luke 2024. 8. 5.
반응형

 

개요

유데미 DBT 강의를 계속해서 듣고 있는데, 이 강의 진짜 매력있다. 단순히 DBT! 에 집중하는 강의는 아닌 것 같고, 전체적으로 데이터를 개발하는, 데이터를 구축하는, 데이터를 운영하는 사람이 당연히 알아야 할 것들을 찬찬히 빌드업하면서 우리가 해야하는 일이 무엇인지를 조금씩 조굼씩 인지시켜주는 것 같다. 강사님 성함.. Zoltan C. Toth 죨탄님. 계속 잘 따라가보겠습니다. 감사합니다.

 

과거의 데이터웨어하우스(DW)

데이터웨어하우스 구축의 2가지 방법 - On-Premise, Cloud

 

데이터 웨어하우스는 1960년대부터 존재해 온 기술로, 줄여서 BW(비즈니스 웨어하우스) 또는 DW(데이터 웨어하우스)라고 부른다. 데이터 웨어하우스는 궁극적으로는 데이터 분석과 보고를 위한 기술적 도구의 역할을 하는 것으로 볼 수 있다. 쉽게 말해, DW는 고속으로 분석 작업을 수행할 수 있는 데이터베이스. 우리는 데이터베이스를 통해 데이터의 다양한 차원(Dimension), 사실(Fact)을 정의하고 처리할 수 있다. 하지만 이미지나 비디오 같은 비정형 데이터는 처리할 수 없다는 것이 약점이다.

 

보통 데이터 웨어하우스는 SQL(Structured Query Language; SEQUEL)이라는 언어를 사용해서 데이터를 조회한다. 외국에서는 SQL을 SEQUEL이라고 많이 하는데, SQL 언어가 IBM의 SEQUEL 기반으로 만들어져서 그렇다고 한다. 그래서 외국에서 발음을 SEQUEL(씨퀄~)이라고 그냥 통용해서 쓰는 것 같다. 강의에서도 그랬다.

 

데이터 웨어하우스는 기본적으로 성능 좋은 분석 엔진 역할을 하는 셈인데, 분석 리포트나 대시보드를 만들 때도 데이터 웨어하우스를 사용하기 때문에 데이터를 미리미리 잘 구조화하고 정리해 두는 것이 중요하다. 그렇지 않으면 관리자가 간단한 질문을 했을 때 답변하는 데 며칠씩 걸릴 수도 있다.. (지금 내 현실..?)

 

예전에는 데이터 웨어하우스가 주로 IBM이나 Oracle 같은 업체에서 제공하는 온프레미스(자체 서버) 형태로 운영했다. 하지만 클라우드 컴퓨팅(Cloud Computing)이 등장하면서 많은 기업들이 AWS Redshift, Snowflake, Google BigQuery 같은 클라우드 기반 데이터 웨어하우스로 이동하고 있다.

 

On-Premise vs Cloud 기반 DW

온프레미스와 클라우드 기반 데이터 웨어하우스에는 큰 차이가 있다 :

  • 온프레미스 데이터 웨어하우스:
    • 장점: 하드웨어와 소프트웨어를 완전히 제어할 수 있어, 규제 준수가 엄격한 경우에 유리
    • 단점: 유지보수 비용이 높고, 하드웨어 고장 시 교체가 필요하며, 새로운 컴퓨터를 구매하고 전기 같은 추가 비용이 발생. 또한, 시스템 관리자와 네트워크 엔지니어 등 추가 인력이 필요
  • 클라우드 기반 데이터 웨어하우스:
    • 장점: 유지보수가 간편하고, 클라우드 제공자가 대부분의 작업을 처리해줌. 예측 가능한 가격과 뛰어난 확장성을 제공하며, 필요에 따라 컴퓨팅 노드를 추가하거나 제거할 수 있음
    • 단점: 직접 하드웨어를 관리하지 않으므로, 특정 규제 요구사항에 대한 제어가 제한될 수 있음

 

포스팅 자료 출처

본 포스팅은 유데미(Udemy) 사이트의 "The Complete dbt (Data Build Tool) Bootcamp: Zero to Hero" 강의의 내용을 발췌하여 작성했습니다. (광고 X)

 

반응형

댓글