티스토리 뷰
1장. 데이터 분석 기획의 이해
ㅇ데이터 유형
- 정형 : 정형된 DB 형태의 데이터
- 반정형 : 센서, 스트리밍, 머신 데이터
- 비정형 : 소셜 데이터
ㅇ분석 기획
- 실제 분석을 수행하기에 앞서 분석을 수행할 과제를 정의하고, 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업
ㅇ 데이터 사이언티스트의 역량
- 수학/통계학적 지식
- 정보기술(IT,해킹,통신 기술 등)
- 해당 비즈니스의 이해
ㅇ분석 대상과 방법
ㅇ분석 기획 시 고려사항
- 가용 데이터에 대한 고려 필요
- 적절한 활용방안과 유즈케이스 탐색 필요
- 발생 가능한 장애요소들에 대한 사전 계획 수립 필요
ㅇ 방법론의 구성
- 절차(Procedures)
- 방법(Methods)
- 도구와 기법(Tools&Techniques)
- 템플릿과 산출물(Templates&Outputs)
ㅇ기업의 합리적 의사결정을 가로막는 장애요소
- 고정관념, 편향된 생각, 프레이밍 효과(시각에 따른 판단의 차이)
ㅇ 방법론의 적용 업무의 특성에 따른 모델
- 폭포수 모델(Waterfall Model) : 단계를 순차적으로 진행하는 방법
- 프로토타입 모델(Prototype Model) : 일부분을 우선 개발하여 사용자에게 제공, 피드백을 통한 개선 작업
- 나선형 모델(Spiral Model) : 반복을 통해 점증적으로 개발
ㅇ빅데이터 분석의 계층적 프로세스
- 단계(Phase) : 단계별 산출물이 생성, 각 단계는 기준선으로 설정되어 관리, 버전 관리 등을 통한 통제 (단계별 완료 보고서)
-> 테스크(Task) : 단계를 구성하는 단위 활동, 품질검토의 항목 (보고서)
-> 스텝(Step) : 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스 (보고서 구성요소)
ㅇ KDD 분석 방법론
- 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스
ㅇKDD 분석 절차 - 5단계
- 데이터셋 선택 (selection) : 비즈니스 도메인 이해, 프로젝트 목표 설정, 데이터 선택
- 데이터 전처리 (preprocessing) : 잡음-이상치-결측치 제거-재처리, 데이터 정제, 추가 데이터 필요 시 데이터 선택 프로세스 재실행
- 데이터 변환 (transformation) : 분석 목적에 맞게 변수를 생성-선택, 데이터 차원 축소, 학습용-검증용 데이터 분리
- 데이터 마이닝 (data mining) : 기법 선택 및 적용
- 결과 평가 (Interpretation/evaluation) : 결과에 대한 해석과 평가, 분석 목적과의 일치성 확인
ㅇ CRISP-DM 분석 방법론 - 4레벨
- 단계(Phases)
- 일반화 태스크(Generic Tasks) : 데이터마이닝의 단일 프로세스를 완전하게 수행하는 단위
- 세분화 태스크(Specialized Tasks) : 구체적인 수행
- 프로세스 실행(process instances) : 데이터마이닝을 위한 구체적인 실행
ㅇCRISP-DM 프로세스 - 6단계
- 업무 이해 (business understanding) : 목적과 요구사항을 이해, 초기 프로젝트 계획을 수립
ㄴ 업무 목적 파악, 상황 파악, 데이터마이닝 목표 설정, 프로젝트 계획 수립
- 데이터 이해 (data understanding) : 데이터 수집, 속성 이해, 인사이트 발견
ㄴ 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
- 데이터 준비 (data preparation) : 분석기법에 적합한 데이터를 편성(많은 시간 소요)
ㄴ 분석용 데이터셋 선택 및 편성, 데이터 정제, 데이터 통합, 데이터 포맷
- 모델링 (modeling) : 모델링 기법과 알고리즘을 선택, 최적화, 과적합 문제 확인
ㄴ 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가
- 평가 (evaluation) : 프로젝트 목적에 부합하는지 평가
ㄴ 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가
- 전개 (deployment) : 실 업무에 적용하기 위한 계획, 유지보수 계획 마련
ㄴ 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료보고서 작성, 프로젝트 리뷰
ㅇ빅데이터 분석 방법론 - 5단계
- 분석 기획 : 비즈니스 도메인과 문제점 인식, 분석 계획 및 프로젝트 수행 계획 수립
- 데이터 준비 : 원천 데이터 정의 및 준비
- 데이터 분석 : 분석용 데이터셋으로 편성, 다양한 분석 기법과 알고리즘을 이용하여 데이터 분석
- 시스템 구현 : 분석 기획에 맞는 모델 도출, 운영중인 가동 시스템에 적용, 프로토타입 시스템 구현
- 평가 및 전개 : 프로젝트 성과 평가 및 정리
ㅇ분석과제 발굴 방법론
- 하향식 접근 방식 : 분석 과제가 주어지고 이에 대한 해법을 찾기 위해 각 과정이 체계적으로 단계화되어 수행하는 방식
ㄴ하향식 접근 방식 과정
-> 문제 탐색 : 비즈니스 모델 기반 문제 탐색(업무, 제품, 고객, 규제와 감사, 지원 인프라)
외부 참조 모델 기반의 문제 탐색(유사, 동종 사례를 벤치마킹을 통해 분석 기회 발굴)
분석 유즈 케이스 정의
-> 문제 정의 : 비즈니스 문제를 데이터의 문제로 변환하여 정의
-> 해결방안 탐색 : 분석 역량(Who), 분석기법 및 시스템(How) 으로 해결 방안 탐색
-> 타당성 검토 : 경제적 타당성, 데이터 및 기술적 다탕성 검토
- 상향식 접근 방식 : 문제의 정의 자체가 어려운 경우 데이터를 기반으로 문제를 지속적으로 개선하는 방식
ㄴ 특징
: 비지도 학습 방법으로 수행, 데이터 자체의 결합, 연관성, 유사성 중심으로 접근
: 프로토타이핑 접근법
: 하향식 접근법은 논리적 단계별 접근법으로 최근 복잡하고 다양한 환경에서 발생하는 문제를 해결하기 어려움
: 디자인적 사고 접근법을 통해 Why -> What 관점으로 존재하는 데이터 그 자체를 객관적으로 관찰하여 문제를 해결
ㅇ분석 과제 관리를 위한 5가지 주요 영역
- Data Size : 분석하고자하는 데이터의 양을 고려
- Data Complexity : 초기 데이터의 확보와 통합, 데이터에 잘 적용될 수 있는 분석 모델의 선정
- Speed : 분석 모델의 성능 및 속도를 고려한 개발 및 테스트
- Accuracy & Precision : 모델과 실제 값의 차이가 적은 정확도, 모델의 지속적인 반복 시 편차의 수준이 일관적인 정밀도
- Analytic Complexity : 해석이 가능하면서도 정확도를 올릴 수 있는 최적 모델
ㅇ 분석 프로젝트의 관리 방안
- 범위 / 시간 / 원가 / 품질 / 통합 / 조달 / 자원 / 리스크 / 의사소통 / 이해관계자
2장. 분석 마스터 플랜
ㅇ마스터 플랜 수립 프레임 워크
- 우선순위 고려 요소
1. 전략적 중요도 : 전략적 필요성, 시급성
2. 비즈니스 성과 / ROI
3. 실행 용이성 : 투자 용이성, 기술 용이성
ㅇROI 관점에서 빅데이터의 핵심 특징
- 투자비용 요소 : 크기(Volume), 다양성(Variety), 속도(Velocity)
- 비즈니스 효과 : 가치(Value)
ㅇ 포트폴리오 사분면 분석을 통한 과제 우선순위 선정 (시급성, 난이도)
- 시급성 : 3->4->2
- 난이도 : 3->1->2
ㅇ분석 거버넌스 체계 구성요소
- Data (데이터)
- Human Resource (분석교육 / 마인드 육성체계)
- Organization (분석기획 및 관리 수행 조직)
- Process (과제 기획 및 운영 프로세스)
- System (분석관련 시스템)
ㅇ데이터 분석 수준진단
- 분석 준비도
ㄴ 분석업무 : 발생한 사실 분석업무, 예측 분석업무, 시뮬레이션 분석업무, 최적화 분석업무, 분석업무 정기적 개선
ㄴ 분석인력,조직 : 분석 전문가 직무 존재, 분석 전문가 교육 훈련 프로그램, 관리자들의 기본적 분석 능력, 전사 분석업무 총괄 조직 존재, 경영진의 분석 업무 이해 능력
ㄴ 분석기법 : 업무별 적합한 분석기법 사용, 분석업무 도입 방법론, 분석기법 라이브러리, 분석기법 효과성 평가, 분석기법 정기적 개선
ㄴ 분석데이터 : 분석업부를 위한 데이터 충분성-신뢰성-적시성, 비구조 데이터 관리, 외부 데이터 활용 체계, 기준 데이터 관리
ㄴ 분석문화 : 사실에 근거한 의사결정, 관리자의 데이터 중시 정도, 회의 등에서 데이터 활용 상황, 경영진의 직관 vs 데이터 기반의 의사결정, 데이터 공유 및 협업 문화
ㄴ 분석인프라 : 운영시스템 데이터 통합, 데이터유통체계, 분석 전용 서버 및 스토리지, 빅데이터 분석 환경, 통계 분석 환경, 비쥬얼 분석 환경
- 분석 성숙도 (CMMI 모델로 평가)
ㄴ 도입단계 : 분석을 시작하여 환경과 시스템을 구출
ㄴ 활용단계 : 분석 결과를 실제 업무에 적용
ㄴ 확산단계 : 전사 차원에서 분석을 관리하고 공유
ㄴ 최적화단계 : 분석을 진화시켜서 혁신 및 성과 향상에 기여
ㅇ 분석 관점에서의 사분면 분석 (준비도, 성숙도)
- 정착형 : 준비도는 낮으나 조직, 인력, 분석업무, 분석기법 등을 기업 내부에서 제한적으로 사용하고 있어 1차적으로 정착이 필요한 기업
- 확산형 : 기업에 필요한 6가지 분석 구성요소를 갖추고 있고, 현재 부분적으로 도입이 되어 지속적인 확산이 필요한 기업
- 준비형 : 기업에 필요한 데이터, 인력, 조직, 분석업무, 분석기법 등이 적용되어있지 않아 사전준비가 필요한 기업
- 도입형 : 기업에서 활용하는 분석업무, 기법 등은 부족하지만 적용조직 등 준비도가 높아 바로 도입할 수 있는 기업
ㅇ데이터 거버넌스 구성요소
- 원칙 (Principle) : 데이터를 유지-관리하기 위한 지침과 가이드 (보안,품질기준, 변경관리)
- 조직 (Organization) : 데이터를 관리할 조직의 역할과 책임 (데이터 관리자, DB 관리자, 데이터 아키텍트)
- 프로세스 (Process) : 데이터 관리를 위한 활동과 체계 (작업절차, 모니터링 활동, 측정 활동)
ㅇ 데이터 거버넌스 체계
- 데이터 표준화 : 데이터 표준 용어 설정, 명명 규칙, 메타 데이터 구축, 데이터 사전 구축 등
- 데이터 관리 체계 : 메타 데이터와 데이터 사전의 관리 원칙 수립, 조직별 역할과 책임
- 데이터 저장소 관리 : 메타 데이터 및 표준 데이터 관리를 위한 전사 차원의 저장소 구성
- 표준화 활동 : 표준 준수 여부를 주기적으로 점검하고 모니터링
ㅇ 분석을 위한 3가지 조직 구조
- 집중구조 : 전사 분석업무를 별도의 분석전담 조직에서 담당
- 기능구조 : 해당 업무 부서에서 분석 수행
- 분산구조 : 분석조직 인력들을 현업부서로 직접 배치하여 분석업무 수행
출처 : https://vipeveloper.tistory.com/category/ADsP
ㅇ분석과제 관리 프로세스
- (과제 발굴) 분석 Idea 발굴 -> 분석과제 후보제안 -> 분석과제 확정 ->
(과제 수행) 팀구성 -> 분석과제 실행 -> 분석과제 진행관리 -> 결과 공유/개선
- 해당 과제를 진행하면서 만들어진 시사점을 포함한 결과물을 풀(Pool)에 잘 축적하고 관리
참고 : 데이터 분석 준전문가(데이터에듀)
'ADsP' 카테고리의 다른 글
[ADsP] 3과목 - 데이터 분석 (0) | 2019.03.07 |
---|---|
[ADsP] 1과목 - 데이터의 이해 (0) | 2019.03.07 |
[ADsP] 주관식 정리 (2) | 2019.02.28 |