1. 데이터 분석의 근본적인 목적
- 과거의 데이터를 토대로 원인에 대해 분석하고 그 결과로 미래를 예측하는 것
- 데이터는 후행성의 성격을 지니지만 선행성의 성격도 동시에 가지고 있음
- 예시
- 사람들이 포털에서 검색하는 것은 무엇인가를 알고 싶기 때문이며,
- 검색 키워드라는 후행성 데이터로
- ‘왜 사람들이 그것을 알고 싶어할까?’라는 분석을 통해
- 미래에 일어날 일을 예측할 수 있음
- 특히 빅데이터의 분석은 통계에서 분석했던 방식과 함께 기존의 통계방식으로 분석할 수 없던 것도 분석이 가능함
2. 데이터 분석 목적의 분류
- 의사 결정
- 여러 대안 중에서 하나의 행동을 고르는 일을 해 내는 정신적 지각 활동
- 최종적으로 하나의 선택을 가지게 되고 이로 인한 결과가 도출됨
- 불확실성 해소
- 의사 결정의 가장 큰 문제는 불확실성
- 분석을 통해 불확실성을 제어한다면 시장 대응에 큰 도움이 될 수 있음
- 요약
- 데이터 요약을 통해 현 상황을 쉽고 빠르게 파악하는 것이 가능하며,
- 다음 대응할 방안 등을 생각할 수 있음
- 인과관계 파악
- 단순히 요약 기능만 사용하기보다 데이터 간 연관관계
- 분석으로 원인과 결과를 파악할 수 있음
- 인과관계 파악으로 세부적인 판단을 내릴 수 있음
- 예측
- 원인과 결과로 어떤 패턴을 파악하게 된다면 다음에 생길 결과에 대한 예측 또한 가능함
- 반드시 같은 패턴으로 이어지는 결과가 생기지는 않지만 향후 미래에 생길 결과에 대한 대비가 가능해짐
- (참고) 가트너 그룹에서 제시한 빅데이터 분석의 목적(2015)
- 고객 인사이트 (Customer Insight)
- 제품 및 절차 효율성 (Product & Process Efficiency)
- 디지털 제품 및 서비스 (Digital Products & Service)
- 운영의 탁월성 (Operational Excellence)
- 디지털 마케팅 (Digital Marketing)
- 위기 관리 시스템 (Risk Management and Compliance)
3. 데이터 분석과 데이터 분석 모델링의 차이
3-1. 데이터 분석
- 데이터의 수집, 정제, 탐색, 시각화 등 데이터 자체에 대한 이해를 목적으로 함
- 다양한 통계 기법, 시각화 도구 등을 활용해 데이터의 특성과 패턴을 파악
- 주로 데이터의 분포, 상관관계, 패턴 등을 분석하는 데 초점
- 분석 결과를 통해 인사이트를 도출하고, 이를 바탕으로 의사결정이나 문제 해결에 활용
3-2. 데이터 분석 모델링
- 데이터 분석을 기반으로 특정 목표(예측, 분류, 군집화 등)를 달성하기 위한 모델을 구축하는 과정
- 주어진 데이터를 활용해 모델링 기법을 적용하여 최적의 예측값, 분류 결과, 군집화 결과 등을 도출
- 회귀, 분류, 클러스터링 등 다양한 머신러닝/딥러닝 기법을 활용
- 모델의 성능 평가(정확도, 오차 등)를 통해 모델의 유효성을 검증하고, 하이퍼파라미터 튜닝 등을 통해 모델 최적화
3-3. 정리
- 데이터 분석은 데이터 자체에 대한 이해를 중심으로 이루어짐
- 데이터 분석 모델링은 그 이해를 바탕으로 특정 목표를 달성하기 위한 모델을 구축하고 평가하는 과정에 중점을 둠
- 데이터 분석은 데이터의 특성과 패턴을 파악하는 데 집중한다면,
- 데이터 분석 모델링은 그 결과를 바탕으로 모델을 설계하고, 이를 통해 실질적인 예측이나 분류 결과를 도출하는 것이 주된 목적
- 모델링 과정에서는 모델의 성능 평가와 최적화가 필수적으로 포함된다는 점에서 차이가 있음
4. 데이터 분석 모델 정의
4-1. 데이터 분석 모델(모형)이란?
- 분석 목표에 따라 데이터의 특성을 도출하고
- 가설 수립에 따라 전체적인 분석 방향을 정의하는 모델
4-2. 데이터 분석 모델 정의 시 사전 고려사항
- 데이터 분석 모델을 정의하기 전에
- 분석이 실제 추진될 수 있을지 가능성을 타진하는 것이 중요함
- EDA 활용
- 상황에 맞는 평가 기준표, 테이블을 작성하여 항목별로 점수를 부여하고 총점을 매긴 후 분석 모델 정의의 가능성을 판별할 수 있음
- 추진 시급성과 구현 가능성만으로 데이터 분석 모델 정의를 위한 사전 판별 기준 활용이 가능함
- 데이터 분석 모델 정의에 필요한 데이터가 충분히 확보되어 있는지를 판단하여 관련 과거 분석 사례 또는 솔루션을 최대한 활용할 수 있는지 검토한다면 보다 효율적인 데이터 분석 모델 설계를 진행할 수 있음
- 데이터 분석 모델 정의와 판별을 위한 평가 기준
평가기준 | 판단근거 |
---|
필요성 | 개인이나 기관 관점에서 분석 과제가 필요한지 판단 |
파급효과 | 정성적, 정량적 기대효과의 정도 판단 |
추진 시급성 | 당장 해소되어야 할 사회 현안 여부 판단, 장기과제 성격 분리 |
구현 가능성 | 과제를 구현함에 있어서 어려움이 없는지 현실성판단 |
데이터 수집 가능성 | 공공기관 협조나 데이터 확보, 데이터 구매 등 제약사항 판단 |
모델 확장성 | 과제가 시범과제로 끝나지 않고 전체 데이터 모델로 확장 가능한지 판단 |
4-3. 데이터 분석 모델 정의를 위한 접근 방법
- 상향식(Bottom-Up) 접근
- 문제 정의가 어려울 경우, 많은 양의 데이터 분석을 통해 인사이트를 도출함
- 특정 영역을 지정하여 의사결정 지점으로 진행하는 과정에서 분석 과제를 발굴할 때 많이 사용됨
- 하향식(Top-Down) 접근
- 문제 정의가 가능할 경우, 문제 탐색과 연관되어 비즈니스 모델, 외부 참조 모델, 분석 유스케이스 기반 모델로 발굴하는 방식을 적용할 수 있음
- 비즈니스 모델: 어떻게 수익을 창출할 것인가에 대한 검증으로 문제 해결을 위한 분석과제를 발굴
- 외부 참조 모델: 벤치마킹으로 분석 테마 후보 Pool을 구축, 선택
- 분석 유스케이스 기반 모델: 문제에 대한 상세 설명과 해결 시의 효과에 대해 명시함으로써 구체적인 분석 과제를 도출
4-4. 분석 모델의 종류
- 예측 분석 모형
- 어떤 일들이 발생할 것인가?
- 적조 예측, 날씨 예측, 주가 예측, 범죄/위험 예측, 쇼핑 아이템 추천 등 과거, 현재까지의 데이터와 상황에 따른 가설에 기반하여 미래에 대한 현상을 사전에 분류하고 예측하는 모형
- 현황 진단 모형
- 과거에 어떤 상황이 왜, 어떻게 일어났는가? 그리고 현재는 어떠한 상태인가?
- 과거 데이터를 통해 현재 상황을 객관적으로 진단하는 모형
- 미래 예측이 아닌 현재를 이해하기 위해 활용함
- 최적화 분석 모형
- 어떻게 하면 원하는 결과가 일어날 수 있을까?
- 제한된 자원, 환경 내에서 최대의 효용성, 이익과 같은 결과를 생성하기 위해 분석 모델을 최적화하는데 중점을 둠
5. 데이터 분석 모델의 선정
5-1. 데이터 분석 모델의 선정이란?
- 분석 기법 또는 분석 알고리즘을 적용하기 전에 분석 모델에 대한 선정이 필요함
- 분석이 필요한 데이터 속성을 세부적으로 파악, 처리한 뒤에 분석 모델을 선정, 적합한 분석 기법을 선택함
- 만약 데이터가 준비되어 있지 않다면 사전 분석 목적을 정확하게 파악해야만 문제 인식과 필요한 데이터의 준비에 따른 분석 모델 선정을 수월하게 진행할 수 있음
5-2. 데이터 분석 모형의 선정 프로세스
- 문제요건 정의 또는 비즈니스 이해에 따른 대상 데이터 선정과 분석 목표/조건 정의
- 데이터 수집, 정리 및 도식화
- 데이터 전처리(데이터 정제, 종속/독립변수 선정, 데이터 변환, 데이터 통합, 데이터 축소 등)
- 최적의 분석 모형 선정