본문 바로가기
Data Science/Data Analytics

[ADP-1] 데이터 구분 / 지식경영(암묵지, 형식지) / DIKW / 데이터베이스 / 빅데이터 정의, 특징, 기능

by 루크 Luke 2022. 7. 18.
반응형

정성/정량 데이터 구분

구 분 형 태 예 시
정성적 데이터
Qualitative Data
언어, 문자 등 회사 매출이 증가함
설문조사의 주관식 응답
트위터나 페이스북, 블로그 등 글
정량적 데이터
Quantative Data
수치, 도형, 기호 등 나이, 몸무게
지역별 온도, 풍속, 강우량 등

 

지식 경영(LM; Knowledge Management)과 지식 순환

구 분 설 명 예 시 상호작용
암묵지
(Tacit Kkowledge)
학습과 체험을 통해 개인에게 습득되어 있지만 겉으로 드러나지 않는 지식
- 시행착오와 오랜 경험을 통해 개인에게 습득된 무형의 지식
김장김치 담그기
자전거 타기
공통화 = 사회화, 공유화
Socialization
- 암묵지 → 암묵지

내면화
Interalization
- 형식지 → 암묵지
형식지
(Explicit Knowledge)
형상화된 지식, 유형의 대상이 있기 때문에 지식의 전달과 공유가 매우 용이함 교과서, 매뉴얼, 비디오, DB 표출화 = 외부화
- Externalization
- 암묵지 → 형식지

연결화 = 종합화
- Combination
- 형식지 → 형식지

 

DIKW 피라미드(Data Information Knowledge, Wisdom hierarchy)

구 분 설 명 예 시
데이터 존재형식을 불문하고, 타 데이터와의 상관관계가 없는 가공하기 전의 순수한 수치나 기호를 의미 A마트 100원, B마트는 200원에 연필을 판매하고 있음
정보 데이터의 가공 및 상관관계 간 이해를 통해 패턴을 인식하고 그 의미를 부여한 데이터 A마트의 연필가격이 더 저렴함
지식 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물 상대적으로 저렴한 A마트에서 연필을 사야겠다고 결정함
지혜 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어 A마트의 다른 상품들도 B마트보다 쌀 것이라고 판단함

 

데이터베이스의 특징과 특성

1) 특징

구 분 설 명
통합된 데이터
Intergrated Data
- DB에서 동일한 내용의 데이터가 중복되어 있지 않음
- 데이터의 중복은 일반적으로 관리상의 복잡한 부작용을 초래
저장된 데이터
Stored Data
- 자기 디스크나 자기 테이프 등과 같이 컴퓨터가 접근 가능한 저장 매체에 저장되는 것을 의미
- 기본적으로 컴퓨터 기술을 바탕으로 한 것
공용 데이터
Shared Data
- 여러 사용자가 서로 다른 목적으로 DB의 데이터를 공동으로 이용하는 것을 의미
- 일반적으로 대용량화되고 구조가 복잡한 것일 보통임
변화되는 데이터 - DB가 저장하는 내용은 곧 DB의 한 상태를 의미함
- 새로운 데이터의 삽입, 기존 데이터의 삭제, 갱신으로 항상 변화하면서도 항상 현재의 정확한 데이터를 유지해야 함

2) 특성

구 분 설 명
정보의 축적 및 전달 측면 - 대량의 정보를 일정한 형식에 따라 컴퓨터 등의 정보처리 기기가 읽고 쓸 수 있도록 하는 '기계 가독성'
- 다양한 방법으로 필요한 정보를 검색할 수 있는 '검색 가능성'
- 정보통신망을 통하여 원거리에서도 즉시 온라인으로 이용할 수 있는 '원격조작성'
정보 이용 측면 - 이용자의 정보 요구에 따라 다양한 정보를 신속하게 획득할 수 있고 원하는 정보를 정확하고 경제적으로 찾아낼 수 있음
정보 관리 측면 - 정보를 일정한 질서와 구조에 따라 정리, 저장하고 검색, 관리할 수 있도록 하여 방대한 양의 정보를 체계적으로 축적하고 새로운 내용 추가나 갱신이 용이함
정보기술 발전의 측면 - DB는 정보처리, 검색/관리 소프트웨어, 관련 하드웨어, 정보 전송을 위한 네트워크 기술 등의 발전을 견인
경제, 산업적 측면 - DB는 다양한 정보를 필요에 따라 신속하게 제공, 이용할 수 있는 인프라로서 특성을 가지고 있어 경제, 산업, 사회 활동의 효율성을 제고하고 국민의 편의를 증진하는 수단으로 역할

 

빅데이터(Big Data) 정의

1) 3V로 요약되는 데이터 자체의 특성 변화에 초점을 맞춘 좁은 범위의 정의

  - 3V : Volume(규모), Variety(형태), Velocity(속도)

2) 데이터 자체뿐 아니라 처리, 분석 기술적 변화까지 포함하는 중간 범위의 정의

3) 기존의 작은 데이터 처리 분석으로는 얻을 수 없었던 통찰과 가치를 창출하는 새로운 방식

4) 사업방식, 시장, 사회, 정부 등에서 변홤와 혁신을 주도함

 

빅데이터의 기능 

구 분 설 명
산업혁명의 석탄, 철 - 빅데이터는 석탄과 철이 산업혁명에서 했던 역할을 차세대 산업혁명에서 해낼 것으로 기대
- 서비스 분야의 생산성을 획기적으로 끌어올려 사회, 경제, 문화 생활 전반에 혁명적 변화를 가져올 것으로 기대됨
21세기의 원유 - 빅데이터도 원유처럼 각종 비즈니스, 공공기관 대국민 서비스, 경제 성장에 필요한 정보를 제공함으로써 산업 전반의 생산성을 한 단계 향상시키고 기존에 없던 새로운 범주의 산업을 만들어 낼 것으로 전망됨
렌즈 - 잘 알 수 없는 것들을 데이터를 통해 잘 알게 할 수 있음
- 구글의 Ngram Viewer
- 단어나 문장, 문법 등의 변화를 빅데이터를 통해서 확인할 수 있음
플랫폼 - 다양한 사업자들이 공동으로 사용하는 플랫폼을 빅데이터 형태로 제공할 수 있을 것
- 각종 사용자 데이터나 M2M센서 등에서 수집된 데이터를 가공, 처리, 저장해두고, 이 데이터에 접근할 수 있도록 API를 공개, 다양한 서드파티 사업자들이 비즈니스에 필요한 정보를 추출해 활용하게 되고 빅데이터가 그 자체로 플랫폼 역할을 하게 됨

 

빅데이터가 만든 본질적인 변화

구 분 설 명
1) 사전처리 → 사후처리 - (사전처리) 기존에는 필요한 정보만 수집하고 필요하지 않는 정보를 버림으로써 시스템으로 달성할 수 있는 효율성을 만들어냈음
- (사후처리) 빅데이터 시대에는 이미 가치가 있을 것이라고 정해진 특정한 정보만 모아서 처리하는 것이 아니라, 가능한 한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아냄
2) 표본조사 → 전수조사 - (표본조사) 과거에는 데이터 수집 비용, 대용량 데이터 처리 도구, 비용 등이 모두 걸림돌이 되어서 통계학적으로 샘플 조사가 보편적이었음
- (전수조사) 샘플링이 주지 못하는 패턴이나 정보를 제공해주는 전수조사의 장점이 큼.
3) 질 → 양 - 데이터가 지속적으로 추가될 때 양질의 정보가 오류 정보보다 많기 때문에 전체적으로 좋은 결과 산출에 긍정적인 영향을 미친다는 추론에 그 바탕을 둠
- 데이터 수가 증가함에 따라 사소한 몇 개의 오류데이터가 대세에 영향을 주지 못하는 경향이 늘어나기 때문에 질보다 양이 중요함
4) 인과관계 → 상관관계 - (인과관계) 과거 과학적 발견법은 이론에 기초해서 수집할 변인을 결정하고 엄격한 실험을 통해 잘 정제된 데이터를 얻어 변인간의 인과관계를 찾으려 함
- (상관관계) 비즈니스 상황에서는 상관관계 분석만으로 충분한 경우가 많으며, 그를 통해 도출한 인사이트로 수익을 창출할 수 있는 기회가 점점 늘어나고 있음

 

빅데이터의 가치 산정이 어려운 이유

1) 데이터 활용 방식 (재사용, 재조합 - Mashup, 다목적용 개발)

  - 특정 데이터를 언제, 어디서, 누가 활용할 지 알 수 없음

  - 데이터 재사용은 지금도 수시로 일어나고 있음

  - ex) 구글이 1분에 200만번 이상 검색 결과를 낼 때마다 구글은 클라우드에 저장된 웹사이트 정보를 매번 사용함

  - 데이터를 한번 사용하고 버리지 않는다는 말임

  - 데이터 재사용은 1차 목적 뿐만 아니라 2차, 3차적 목적으로 사용될 수 있음

2) 새로운 가치 창출 : 기존에 없던 가치를 창출함에 따라 그 가치를 측정하기 어려움

3) 분석기술의 발달 : 분석 비용이 예전에는 높았지만, 기술의 발달로 인해 저렴한 비용에 분석할 수 있게 됨

반응형

댓글