반응형
정성/정량 데이터 구분
구 분 | 형 태 | 예 시 |
정성적 데이터 Qualitative Data |
언어, 문자 등 | 회사 매출이 증가함 설문조사의 주관식 응답 트위터나 페이스북, 블로그 등 글 |
정량적 데이터 Quantative Data |
수치, 도형, 기호 등 | 나이, 몸무게 지역별 온도, 풍속, 강우량 등 |
지식 경영(LM; Knowledge Management)과 지식 순환
구 분 | 설 명 | 예 시 | 상호작용 |
암묵지 (Tacit Kkowledge) |
학습과 체험을 통해 개인에게 습득되어 있지만 겉으로 드러나지 않는 지식 - 시행착오와 오랜 경험을 통해 개인에게 습득된 무형의 지식 |
김장김치 담그기 자전거 타기 |
공통화 = 사회화, 공유화 Socialization - 암묵지 → 암묵지 내면화 Interalization - 형식지 → 암묵지 |
형식지 (Explicit Knowledge) |
형상화된 지식, 유형의 대상이 있기 때문에 지식의 전달과 공유가 매우 용이함 | 교과서, 매뉴얼, 비디오, DB | 표출화 = 외부화 - Externalization - 암묵지 → 형식지 연결화 = 종합화 - Combination - 형식지 → 형식지 |
DIKW 피라미드(Data Information Knowledge, Wisdom hierarchy)
구 분 | 설 명 | 예 시 |
데이터 | 존재형식을 불문하고, 타 데이터와의 상관관계가 없는 가공하기 전의 순수한 수치나 기호를 의미 | A마트 100원, B마트는 200원에 연필을 판매하고 있음 |
정보 | 데이터의 가공 및 상관관계 간 이해를 통해 패턴을 인식하고 그 의미를 부여한 데이터 | A마트의 연필가격이 더 저렴함 |
지식 | 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물 | 상대적으로 저렴한 A마트에서 연필을 사야겠다고 결정함 |
지혜 | 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어 | A마트의 다른 상품들도 B마트보다 쌀 것이라고 판단함 |
데이터베이스의 특징과 특성
1) 특징
구 분 | 설 명 |
통합된 데이터 Intergrated Data |
- DB에서 동일한 내용의 데이터가 중복되어 있지 않음 - 데이터의 중복은 일반적으로 관리상의 복잡한 부작용을 초래 |
저장된 데이터 Stored Data |
- 자기 디스크나 자기 테이프 등과 같이 컴퓨터가 접근 가능한 저장 매체에 저장되는 것을 의미 - 기본적으로 컴퓨터 기술을 바탕으로 한 것 |
공용 데이터 Shared Data |
- 여러 사용자가 서로 다른 목적으로 DB의 데이터를 공동으로 이용하는 것을 의미 - 일반적으로 대용량화되고 구조가 복잡한 것일 보통임 |
변화되는 데이터 | - DB가 저장하는 내용은 곧 DB의 한 상태를 의미함 - 새로운 데이터의 삽입, 기존 데이터의 삭제, 갱신으로 항상 변화하면서도 항상 현재의 정확한 데이터를 유지해야 함 |
2) 특성
구 분 | 설 명 |
정보의 축적 및 전달 측면 | - 대량의 정보를 일정한 형식에 따라 컴퓨터 등의 정보처리 기기가 읽고 쓸 수 있도록 하는 '기계 가독성' - 다양한 방법으로 필요한 정보를 검색할 수 있는 '검색 가능성' - 정보통신망을 통하여 원거리에서도 즉시 온라인으로 이용할 수 있는 '원격조작성' |
정보 이용 측면 | - 이용자의 정보 요구에 따라 다양한 정보를 신속하게 획득할 수 있고 원하는 정보를 정확하고 경제적으로 찾아낼 수 있음 |
정보 관리 측면 | - 정보를 일정한 질서와 구조에 따라 정리, 저장하고 검색, 관리할 수 있도록 하여 방대한 양의 정보를 체계적으로 축적하고 새로운 내용 추가나 갱신이 용이함 |
정보기술 발전의 측면 | - DB는 정보처리, 검색/관리 소프트웨어, 관련 하드웨어, 정보 전송을 위한 네트워크 기술 등의 발전을 견인 |
경제, 산업적 측면 | - DB는 다양한 정보를 필요에 따라 신속하게 제공, 이용할 수 있는 인프라로서 특성을 가지고 있어 경제, 산업, 사회 활동의 효율성을 제고하고 국민의 편의를 증진하는 수단으로 역할 |
빅데이터(Big Data) 정의
1) 3V로 요약되는 데이터 자체의 특성 변화에 초점을 맞춘 좁은 범위의 정의
- 3V : Volume(규모), Variety(형태), Velocity(속도)
2) 데이터 자체뿐 아니라 처리, 분석 기술적 변화까지 포함하는 중간 범위의 정의
3) 기존의 작은 데이터 처리 분석으로는 얻을 수 없었던 통찰과 가치를 창출하는 새로운 방식
4) 사업방식, 시장, 사회, 정부 등에서 변홤와 혁신을 주도함
빅데이터의 기능
구 분 | 설 명 |
산업혁명의 석탄, 철 | - 빅데이터는 석탄과 철이 산업혁명에서 했던 역할을 차세대 산업혁명에서 해낼 것으로 기대 - 서비스 분야의 생산성을 획기적으로 끌어올려 사회, 경제, 문화 생활 전반에 혁명적 변화를 가져올 것으로 기대됨 |
21세기의 원유 | - 빅데이터도 원유처럼 각종 비즈니스, 공공기관 대국민 서비스, 경제 성장에 필요한 정보를 제공함으로써 산업 전반의 생산성을 한 단계 향상시키고 기존에 없던 새로운 범주의 산업을 만들어 낼 것으로 전망됨 |
렌즈 | - 잘 알 수 없는 것들을 데이터를 통해 잘 알게 할 수 있음 - 구글의 Ngram Viewer - 단어나 문장, 문법 등의 변화를 빅데이터를 통해서 확인할 수 있음 |
플랫폼 | - 다양한 사업자들이 공동으로 사용하는 플랫폼을 빅데이터 형태로 제공할 수 있을 것 - 각종 사용자 데이터나 M2M센서 등에서 수집된 데이터를 가공, 처리, 저장해두고, 이 데이터에 접근할 수 있도록 API를 공개, 다양한 서드파티 사업자들이 비즈니스에 필요한 정보를 추출해 활용하게 되고 빅데이터가 그 자체로 플랫폼 역할을 하게 됨 |
빅데이터가 만든 본질적인 변화
구 분 | 설 명 |
1) 사전처리 → 사후처리 | - (사전처리) 기존에는 필요한 정보만 수집하고 필요하지 않는 정보를 버림으로써 시스템으로 달성할 수 있는 효율성을 만들어냈음 - (사후처리) 빅데이터 시대에는 이미 가치가 있을 것이라고 정해진 특정한 정보만 모아서 처리하는 것이 아니라, 가능한 한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아냄 |
2) 표본조사 → 전수조사 | - (표본조사) 과거에는 데이터 수집 비용, 대용량 데이터 처리 도구, 비용 등이 모두 걸림돌이 되어서 통계학적으로 샘플 조사가 보편적이었음 - (전수조사) 샘플링이 주지 못하는 패턴이나 정보를 제공해주는 전수조사의 장점이 큼. |
3) 질 → 양 | - 데이터가 지속적으로 추가될 때 양질의 정보가 오류 정보보다 많기 때문에 전체적으로 좋은 결과 산출에 긍정적인 영향을 미친다는 추론에 그 바탕을 둠 - 데이터 수가 증가함에 따라 사소한 몇 개의 오류데이터가 대세에 영향을 주지 못하는 경향이 늘어나기 때문에 질보다 양이 중요함 |
4) 인과관계 → 상관관계 | - (인과관계) 과거 과학적 발견법은 이론에 기초해서 수집할 변인을 결정하고 엄격한 실험을 통해 잘 정제된 데이터를 얻어 변인간의 인과관계를 찾으려 함 - (상관관계) 비즈니스 상황에서는 상관관계 분석만으로 충분한 경우가 많으며, 그를 통해 도출한 인사이트로 수익을 창출할 수 있는 기회가 점점 늘어나고 있음 |
빅데이터의 가치 산정이 어려운 이유
1) 데이터 활용 방식 (재사용, 재조합 - Mashup, 다목적용 개발)
- 특정 데이터를 언제, 어디서, 누가 활용할 지 알 수 없음
- 데이터 재사용은 지금도 수시로 일어나고 있음
- ex) 구글이 1분에 200만번 이상 검색 결과를 낼 때마다 구글은 클라우드에 저장된 웹사이트 정보를 매번 사용함
- 데이터를 한번 사용하고 버리지 않는다는 말임
- 데이터 재사용은 1차 목적 뿐만 아니라 2차, 3차적 목적으로 사용될 수 있음
2) 새로운 가치 창출 : 기존에 없던 가치를 창출함에 따라 그 가치를 측정하기 어려움
3) 분석기술의 발달 : 분석 비용이 예전에는 높았지만, 기술의 발달로 인해 저렴한 비용에 분석할 수 있게 됨
반응형
'Data Science > Data Analytics' 카테고리의 다른 글
[ADP-4] CRISP-DM 분석 방법론 / 분석과제 발굴 / 디자인사고(Design Thinking) / 하향식 접근법 (Top Down Approach) (0) | 2022.08.02 |
---|---|
[ADP-3] 분석 기획 / 분석 주제 유형 / 분석방법론 / 방법론 모델 / KDD 분석 방법론 (0) | 2022.07.29 |
[ADP-2] ETL / ODS / DW / 스타 스키마 & 스노우 플래이크 스키마 / CDC / EAI / 데이터 연계 및 통합 기법 요약 / 대규모 분산 병렬 처리(하둡) (0) | 2022.07.25 |
[ch1. EDA] 변이 추정, 데이터 분포 탐색 (0) | 2022.01.10 |
[ch1. EDA] 정형 데이터, 테이블 데이터, 위치 추정, 변이 추정 (0) | 2022.01.07 |
댓글