티스토리 뷰

반응형

1장. 데이터 분석 기획의 이해

ㅇ데이터 유형

  - 정형 : 정형된 DB 형태의 데이터  

  - 반정형 : 센서, 스트리밍, 머신 데이터

  - 비정형 : 소셜 데이터


ㅇ분석 기획

  - 실제 분석을 수행하기에 앞서 분석을 수행할 과제를 정의하고, 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업


ㅇ 데이터 사이언티스트의 역량

  - 수학/통계학적 지식

  - 정보기술(IT,해킹,통신 기술 등)

  - 해당 비즈니스의 이해


ㅇ분석 대상과 방법

  


ㅇ분석 기획 시 고려사항

  - 가용 데이터에 대한 고려 필요

  - 적절한 활용방안과 유즈케이스 탐색 필요

  - 발생 가능한 장애요소들에 대한 사전 계획 수립 필요


ㅇ 방법론의 구성

  - 절차(Procedures)

  - 방법(Methods)

  - 도구와 기법(Tools&Techniques)

  - 템플릿과 산출물(Templates&Outputs)


ㅇ기업의 합리적 의사결정을 가로막는 장애요소

  - 고정관념, 편향된 생각, 프레이밍 효과(시각에 따른 판단의 차이)


ㅇ 방법론의 적용 업무의 특성에 따른 모델

  - 폭포수 모델(Waterfall Model) : 단계를 순차적으로 진행하는 방법

  - 프로토타입 모델(Prototype Model) : 일부분을 우선 개발하여 사용자에게 제공, 피드백을 통한 개선 작업

  - 나선형 모델(Spiral Model) : 반복을 통해 점증적으로 개발


ㅇ빅데이터 분석의 계층적 프로세스

  - 단계(Phase) : 단계별 산출물이 생성, 각 단계는 기준선으로 설정되어 관리, 버전 관리 등을 통한 통제 (단계별 완료 보고서) 

  -> 테스크(Task) : 단계를 구성하는 단위 활동, 품질검토의 항목 (보고서)

  -> 스텝(Step) : 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스 (보고서 구성요소)


ㅇ KDD 분석 방법론

  - 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스


ㅇKDD 분석 절차 - 5단계

  - 데이터셋 선택 (selection) : 비즈니스 도메인 이해, 프로젝트 목표 설정, 데이터 선택

  - 데이터 전처리 (preprocessing) : 잡음-이상치-결측치 제거-재처리, 데이터 정제, 추가 데이터 필요 시 데이터 선택 프로세스 재실행

  - 데이터 변환 (transformation) : 분석 목적에 맞게 변수를 생성-선택, 데이터 차원 축소, 학습용-검증용 데이터 분리

  - 데이터 마이닝 (data mining) : 기법 선택 및 적용

  - 결과 평가 (Interpretation/evaluation) : 결과에 대한 해석과 평가, 분석 목적과의 일치성 확인


ㅇ CRISP-DM 분석 방법론 - 4레벨

  - 단계(Phases)

  - 일반화 태스크(Generic Tasks) : 데이터마이닝의 단일 프로세스를 완전하게 수행하는 단위

  - 세분화 태스크(Specialized Tasks) : 구체적인 수행

  - 프로세스 실행(process instances) : 데이터마이닝을 위한 구체적인 실행


ㅇCRISP-DM 프로세스 - 6단계

  - 업무 이해 (business understanding) : 목적과 요구사항을 이해, 초기 프로젝트 계획을 수립

     ㄴ 업무 목적 파악, 상황 파악, 데이터마이닝 목표 설정, 프로젝트 계획 수립

  - 데이터 이해 (data understanding) : 데이터 수집, 속성 이해, 인사이트 발견

     ㄴ 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인

  - 데이터 준비 (data preparation) : 분석기법에 적합한 데이터를 편성(많은 시간 소요)

     ㄴ 분석용 데이터셋 선택 및 편성, 데이터 정제, 데이터 통합, 데이터 포맷

  - 모델링 (modeling) : 모델링 기법과 알고리즘을 선택, 최적화, 과적합 문제 확인

     ㄴ 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가

  - 평가 (evaluation) : 프로젝트 목적에 부합하는지 평가

    ㄴ 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가

  - 전개 (deployment) : 실 업무에 적용하기 위한 계획, 유지보수 계획 마련

    ㄴ 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료보고서 작성, 프로젝트 리뷰


ㅇ빅데이터 분석 방법론 - 5단계

  - 분석 기획 : 비즈니스 도메인과 문제점 인식, 분석 계획 및 프로젝트 수행 계획 수립

  - 데이터 준비 : 원천 데이터 정의 및 준비

  - 데이터 분석 : 분석용 데이터셋으로 편성, 다양한 분석 기법과 알고리즘을 이용하여 데이터 분석

  - 시스템 구현 : 분석 기획에 맞는 모델 도출, 운영중인 가동 시스템에 적용, 프로토타입 시스템 구현

  - 평가 및 전개 : 프로젝트 성과 평가 및 정리


ㅇ분석과제 발굴 방법론

  - 하향식 접근 방식 : 분석 과제가 주어지고 이에 대한 해법을 찾기 위해 각 과정이 체계적으로 단계화되어 수행하는 방식

     ㄴ하향식 접근 방식 과정

        -> 문제 탐색 : 비즈니스 모델 기반 문제 탐색(업무, 제품, 고객, 규제와 감사, 지원 인프라)

                           외부 참조 모델 기반의 문제 탐색(유사, 동종 사례를 벤치마킹을 통해 분석 기회 발굴)

                           분석 유즈 케이스 정의

        -> 문제 정의 : 비즈니스 문제를 데이터의 문제로 변환하여 정의

        -> 해결방안 탐색 : 분석 역량(Who), 분석기법 및 시스템(How) 으로 해결 방안 탐색

        -> 타당성 검토 : 경제적 타당성, 데이터 및 기술적 다탕성 검토

  - 상향식 접근 방식 : 문제의 정의 자체가 어려운 경우 데이터를 기반으로 문제를 지속적으로 개선하는 방식

     ㄴ 특징 

          : 비지도 학습 방법으로 수행, 데이터 자체의 결합, 연관성, 유사성 중심으로 접근

          : 프로토타이핑 접근법

          : 하향식 접근법은 논리적 단계별 접근법으로 최근 복잡하고 다양한 환경에서 발생하는 문제를 해결하기 어려움

          : 디자인적 사고 접근법을 통해 Why -> What 관점으로 존재하는 데이터 그 자체를 객관적으로 관찰하여 문제를 해결


ㅇ분석 과제 관리를 위한 5가지 주요 영역

  - Data Size : 분석하고자하는 데이터의 양을 고려

  - Data Complexity : 초기 데이터의 확보와 통합, 데이터에 잘 적용될 수 있는 분석 모델의 선정

  - Speed : 분석 모델의 성능 및 속도를 고려한 개발 및 테스트

  - Accuracy & Precision : 모델과 실제 값의 차이가 적은 정확도, 모델의 지속적인 반복 시 편차의 수준이 일관적인 정밀도 

  - Analytic Complexity : 해석이 가능하면서도 정확도를 올릴 수 있는 최적 모델


ㅇ 분석 프로젝트의 관리 방안

  - 범위 / 시간 / 원가 / 품질 / 통합 / 조달 / 자원 / 리스크 / 의사소통 / 이해관계자




2장. 분석 마스터 플랜

ㅇ마스터 플랜 수립 프레임 워크

  - 우선순위 고려 요소

    1. 전략적 중요도 : 전략적 필요성, 시급성

    2. 비즈니스 성과 / ROI

    3. 실행 용이성 : 투자 용이성, 기술 용이성


ㅇROI 관점에서 빅데이터의 핵심 특징

  - 투자비용 요소 : 크기(Volume), 다양성(Variety), 속도(Velocity)

  - 비즈니스 효과 : 가치(Value)


ㅇ 포트폴리오 사분면 분석을 통한 과제 우선순위 선정 (시급성, 난이도)

   - 시급성 : 3->4->2

   - 난이도 : 3->1->2

       


ㅇ분석 거버넌스 체계 구성요소

  - Data (데이터)

  - Human Resource (분석교육 / 마인드 육성체계)

  - Organization (분석기획 및 관리 수행 조직)

  - Process (과제 기획 및 운영 프로세스)

  - System (분석관련 시스템)


ㅇ데이터 분석 수준진단

  - 분석 준비도 

    ㄴ 분석업무 : 발생한 사실 분석업무, 예측 분석업무, 시뮬레이션 분석업무, 최적화 분석업무, 분석업무 정기적 개선

    ㄴ 분석인력,조직 : 분석 전문가 직무 존재, 분석 전문가 교육 훈련 프로그램, 관리자들의 기본적 분석 능력, 전사 분석업무 총괄 조직 존재, 경영진의 분석 업무 이해 능력

    ㄴ 분석기법 : 업무별 적합한 분석기법 사용, 분석업무 도입 방법론, 분석기법 라이브러리, 분석기법 효과성 평가, 분석기법 정기적 개선

    ㄴ 분석데이터 : 분석업부를 위한 데이터 충분성-신뢰성-적시성, 비구조 데이터 관리, 외부 데이터 활용 체계, 기준 데이터 관리

    ㄴ 분석문화 : 사실에 근거한 의사결정, 관리자의 데이터 중시 정도, 회의 등에서 데이터 활용 상황, 경영진의 직관 vs 데이터 기반의 의사결정, 데이터 공유 및 협업 문화

    ㄴ 분석인프라 : 운영시스템 데이터 통합, 데이터유통체계, 분석 전용 서버 및 스토리지, 빅데이터 분석 환경, 통계 분석 환경, 비쥬얼 분석 환경


  - 분석 성숙도 (CMMI 모델로 평가) 

   ㄴ 도입단계 : 분석을 시작하여 환경과 시스템을 구출

   ㄴ 활용단계 : 분석 결과를 실제 업무에 적용

   ㄴ 확산단계 : 전사 차원에서 분석을 관리하고 공유

   ㄴ 최적화단계 : 분석을 진화시켜서 혁신 및 성과 향상에 기여


ㅇ 분석 관점에서의 사분면 분석 (준비도, 성숙도)

  - 정착형 : 준비도는 낮으나 조직, 인력, 분석업무, 분석기법 등을 기업 내부에서 제한적으로 사용하고 있어 1차적으로 정착이 필요한 기업

  - 확산형 : 기업에 필요한 6가지 분석 구성요소를 갖추고 있고, 현재 부분적으로 도입이 되어 지속적인 확산이 필요한 기업

  - 준비형 : 기업에 필요한 데이터, 인력, 조직, 분석업무, 분석기법 등이 적용되어있지 않아 사전준비가 필요한 기업

  - 도입형 : 기업에서 활용하는 분석업무, 기법 등은 부족하지만 적용조직 등 준비도가 높아 바로 도입할 수 있는 기업

    


ㅇ데이터 거버넌스 구성요소

  - 원칙 (Principle) : 데이터를 유지-관리하기 위한 지침과 가이드 (보안,품질기준, 변경관리)

  - 조직 (Organization) : 데이터를 관리할 조직의 역할과 책임 (데이터 관리자, DB 관리자, 데이터 아키텍트)

  - 프로세스 (Process) : 데이터 관리를 위한 활동과 체계 (작업절차, 모니터링 활동, 측정 활동)


ㅇ 데이터 거버넌스 체계

  - 데이터 표준화 : 데이터 표준 용어 설정, 명명 규칙, 메타 데이터 구축, 데이터 사전 구축 등

  - 데이터 관리 체계 : 메타 데이터와 데이터 사전의 관리 원칙 수립, 조직별 역할과 책임 

  - 데이터 저장소 관리 : 메타 데이터 및 표준 데이터 관리를 위한 전사 차원의 저장소 구성

  - 표준화 활동 : 표준 준수 여부를 주기적으로 점검하고 모니터링 


ㅇ 분석을 위한 3가지 조직 구조

  - 집중구조 : 전사 분석업무를 별도의 분석전담 조직에서 담당

  - 기능구조 : 해당 업무 부서에서 분석 수행

  - 분산구조 : 분석조직 인력들을 현업부서로 직접 배치하여 분석업무 수행

       

                                      출처 :  https://vipeveloper.tistory.com/category/ADsP


ㅇ분석과제 관리 프로세스

  - (과제 발굴) 분석 Idea 발굴 -> 분석과제 후보제안 -> 분석과제 확정 ->

    (과제 수행) 팀구성 -> 분석과제 실행 -> 분석과제 진행관리 -> 결과 공유/개선

  - 해당 과제를 진행하면서 만들어진 시사점을 포함한 결과물을 풀(Pool)에 잘 축적하고 관리




고 : 데이터 분석 준전문가(데이터에듀)

반응형

'ADsP' 카테고리의 다른 글

[ADsP] 3과목 - 데이터 분석  (0) 2019.03.07
[ADsP] 1과목 - 데이터의 이해  (0) 2019.03.07
[ADsP] 주관식 정리  (2) 2019.02.28
댓글
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday