데이터 분석 모델링

1. 데이터 분석의 근본적인 목적

  • 과거의 데이터를 토대로 원인에 대해 분석하고 그 결과로 미래를 예측하는 것
  • 데이터는 후행성의 성격을 지니지만 선행성의 성격도 동시에 가지고 있음
    • 예시
      • 사람들이 포털에서 검색하는 것은 무엇인가를 알고 싶기 때문이며,
      • 검색 키워드라는 후행성 데이터로
      • ‘왜 사람들이 그것을 알고 싶어할까?’라는 분석을 통해
      • 미래에 일어날 일을 예측할 수 있음
  • 특히 빅데이터의 분석은 통계에서 분석했던 방식과 함께 기존의 통계방식으로 분석할 수 없던 것도 분석이 가능함


2. 데이터 분석 목적의 분류

  • 의사 결정
    • 여러 대안 중에서 하나의 행동을 고르는 일을 해 내는 정신적 지각 활동
    • 최종적으로 하나의 선택을 가지게 되고 이로 인한 결과가 도출됨
  • 불확실성 해소
    • 의사 결정의 가장 큰 문제는 불확실성
    • 분석을 통해 불확실성을 제어한다면 시장 대응에 큰 도움이 될 수 있음
  • 요약
    • 데이터 요약을 통해 현 상황을 쉽고 빠르게 파악하는 것이 가능하며,
    • 다음 대응할 방안 등을 생각할 수 있음
  • 인과관계 파악
    • 단순히 요약 기능만 사용하기보다 데이터 간 연관관계
    • 분석으로 원인과 결과를 파악할 수 있음
    • 인과관계 파악으로 세부적인 판단을 내릴 수 있음
  • 예측
    • 원인과 결과로 어떤 패턴을 파악하게 된다면 다음에 생길 결과에 대한 예측 또한 가능함
    • 반드시 같은 패턴으로 이어지는 결과가 생기지는 않지만 향후 미래에 생길 결과에 대한 대비가 가능해짐
  • (참고) 가트너 그룹에서 제시한 빅데이터 분석의 목적(2015)
    • 고객 인사이트 (Customer Insight)
    • 제품 및 절차 효율성 (Product & Process Efficiency)
    • 디지털 제품 및 서비스 (Digital Products & Service)
    • 운영의 탁월성 (Operational Excellence)
    • 디지털 마케팅 (Digital Marketing)
    • 위기 관리 시스템 (Risk Management and Compliance)


3. 데이터 분석과 데이터 분석 모델링의 차이

3-1. 데이터 분석

  • 데이터의 수집, 정제, 탐색, 시각화 등 데이터 자체에 대한 이해를 목적으로 함
  • 다양한 통계 기법, 시각화 도구 등을 활용해 데이터의 특성과 패턴을 파악
  • 주로 데이터의 분포, 상관관계, 패턴 등을 분석하는 데 초점
  • 분석 결과를 통해 인사이트를 도출하고, 이를 바탕으로 의사결정이나 문제 해결에 활용

3-2. 데이터 분석 모델링

  • 데이터 분석을 기반으로 특정 목표(예측, 분류, 군집화 등)를 달성하기 위한 모델을 구축하는 과정
  • 주어진 데이터를 활용해 모델링 기법을 적용하여 최적의 예측값, 분류 결과, 군집화 결과 등을 도출
  • 회귀, 분류, 클러스터링 등 다양한 머신러닝/딥러닝 기법을 활용
  • 모델의 성능 평가(정확도, 오차 등)를 통해 모델의 유효성을 검증하고, 하이퍼파라미터 튜닝 등을 통해 모델 최적화

3-3. 정리

  • 데이터 분석은 데이터 자체에 대한 이해를 중심으로 이루어짐
  • 데이터 분석 모델링은 그 이해를 바탕으로 특정 목표를 달성하기 위한 모델을 구축하고 평가하는 과정에 중점을 둠

  • 데이터 분석은 데이터의 특성과 패턴을 파악하는 데 집중한다면,
  • 데이터 분석 모델링은 그 결과를 바탕으로 모델을 설계하고, 이를 통해 실질적인 예측이나 분류 결과를 도출하는 것이 주된 목적

  • 모델링 과정에서는 모델의 성능 평가와 최적화가 필수적으로 포함된다는 점에서 차이가 있음


4. 데이터 분석 모델 정의

4-1. 데이터 분석 모델(모형)이란?

  • 분석 목표에 따라 데이터의 특성을 도출하고
  • 가설 수립에 따라 전체적인 분석 방향을 정의하는 모델

4-2. 데이터 분석 모델 정의 시 사전 고려사항

  • 데이터 분석 모델을 정의하기 전에
    • 분석이 실제 추진될 수 있을지 가능성을 타진하는 것이 중요함
      • EDA 활용
      • 상황에 맞는 평가 기준표, 테이블을 작성하여 항목별로 점수를 부여하고 총점을 매긴 후 분석 모델 정의의 가능성을 판별할 수 있음
    • 추진 시급성과 구현 가능성만으로 데이터 분석 모델 정의를 위한 사전 판별 기준 활용이 가능함
    • 데이터 분석 모델 정의에 필요한 데이터가 충분히 확보되어 있는지를 판단하여 관련 과거 분석 사례 또는 솔루션을 최대한 활용할 수 있는지 검토한다면 보다 효율적인 데이터 분석 모델 설계를 진행할 수 있음
  • 데이터 분석 모델 정의와 판별을 위한 평가 기준
평가기준판단근거
필요성개인이나 기관 관점에서 분석 과제가 필요한지 판단
파급효과정성적, 정량적 기대효과의 정도 판단
추진 시급성당장 해소되어야 할 사회 현안 여부 판단, 장기과제 성격 분리
구현 가능성과제를 구현함에 있어서 어려움이 없는지 현실성판단
데이터 수집 가능성공공기관 협조나 데이터 확보, 데이터 구매 등 제약사항 판단
모델 확장성과제가 시범과제로 끝나지 않고 전체 데이터 모델로 확장 가능한지 판단

4-3. 데이터 분석 모델 정의를 위한 접근 방법

  • 상향식(Bottom-Up) 접근
    • 문제 정의가 어려울 경우, 많은 양의 데이터 분석을 통해 인사이트를 도출함
    • 특정 영역을 지정하여 의사결정 지점으로 진행하는 과정에서 분석 과제를 발굴할 때 많이 사용됨
  • 하향식(Top-Down) 접근
    • 문제 정의가 가능할 경우, 문제 탐색과 연관되어 비즈니스 모델, 외부 참조 모델, 분석 유스케이스 기반 모델로 발굴하는 방식을 적용할 수 있음
      • 비즈니스 모델: 어떻게 수익을 창출할 것인가에 대한 검증으로 문제 해결을 위한 분석과제를 발굴
      • 외부 참조 모델: 벤치마킹으로 분석 테마 후보 Pool을 구축, 선택
      • 분석 유스케이스 기반 모델: 문제에 대한 상세 설명과 해결 시의 효과에 대해 명시함으로써 구체적인 분석 과제를 도출

4-4. 분석 모델의 종류

  • 예측 분석 모형
    • 어떤 일들이 발생할 것인가?
    • 적조 예측, 날씨 예측, 주가 예측, 범죄/위험 예측, 쇼핑 아이템 추천 등 과거, 현재까지의 데이터와 상황에 따른 가설에 기반하여 미래에 대한 현상을 사전에 분류하고 예측하는 모형
  • 현황 진단 모형
    • 과거에 어떤 상황이 왜, 어떻게 일어났는가? 그리고 현재는 어떠한 상태인가?
    • 과거 데이터를 통해 현재 상황을 객관적으로 진단하는 모형
    • 미래 예측이 아닌 현재를 이해하기 위해 활용함
  • 최적화 분석 모형
    • 어떻게 하면 원하는 결과가 일어날 수 있을까?
    • 제한된 자원, 환경 내에서 최대의 효용성, 이익과 같은 결과를 생성하기 위해 분석 모델을 최적화하는데 중점을 둠


5. 데이터 분석 모델의 선정

5-1. 데이터 분석 모델의 선정이란?

  • 분석 기법 또는 분석 알고리즘을 적용하기 전에 분석 모델에 대한 선정이 필요함
  • 분석이 필요한 데이터 속성을 세부적으로 파악, 처리한 뒤에 분석 모델을 선정, 적합한 분석 기법을 선택함
  • 만약 데이터가 준비되어 있지 않다면 사전 분석 목적을 정확하게 파악해야만 문제 인식과 필요한 데이터의 준비에 따른 분석 모델 선정을 수월하게 진행할 수 있음

5-2. 데이터 분석 모형의 선정 프로세스

  1. 문제요건 정의 또는 비즈니스 이해에 따른 대상 데이터 선정과 분석 목표/조건 정의
  2. 데이터 수집, 정리 및 도식화
  3. 데이터 전처리(데이터 정제, 종속/독립변수 선정, 데이터 변환, 데이터 통합, 데이터 축소 등)
  4. 최적의 분석 모형 선정