티스토리 뷰

ADsP

[ADsP] 1과목 - 데이터의 이해

Aaron 2019. 3. 7. 09:30
반응형

1장. 데이터의 이해

ㅇ데이터 정의

  - 존재적 특성 : 객관적 사실

  - 당위적 특성 : 추론, 예측, 전망, 추정을 위한 근거


ㅇ데이터 특징

  - 정성적 데이터 : 언어, 문자 형태의 데이터 (회사 매출의 증가 등)

  - 정량적 데이터 : 수치, 도형, 기호 형태의 데이터 (나이, 몸무게, 주가 등)


ㅇ지식

  - 암묵지 : 학습과 경험을 통해 개인에 체화된 지식, 공유와 전달의 어려움 (내면화->공통화 필요)

  - 형식지 : 문서나 메뉴얼처럼 형식화된 지식, 공유와 전달이 용이 (표출화->연결화 필요)


ㅇ DIKW 피라미드

  - 데이터 (가공하기 전의 순수한 수치나 기호) 

  -> 정보 (데이터의 가공 및 상관관계간 이해를 통해 패턴을 인식하고 그 의미를 부여)  

  -> 지식 (상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물) 

  -> 지혜 (근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적인 아이디어) 


ㅇ 1980년대 기업내부 데이터베이스

  - OLTP(On-line Transaction Processing) : 호스트 컴퓨터가 데이터베이스를 액세스하고, 바로 처리 결과를 돌려보내는 형태(데이터 갱신 위주)

  - OLAP(On-line Analytical Processing) : 쉽고 빠르게 다차원적인 데이터에 접근하여 의사 결정에 활용할 수 있는 정보를 얻을 수 있게 해주는 기술(데이터 조회 위주)


ㅇ 2000년대 기업내부 데이터베이스

  - CRM(Customer Relationship Management) : 고객관계관리, 기업이 고객과 관련된 내-외부 자료를 분석-통합하여 고객 중심 자원 극대화하고, 이를 토대로 고객 특성에 맞게 마케팅 활동을 계획-지원-평가

  - SCM(Supply Chain Management) : 공급망관리, 기업에서 원재료의 생산-유통 등 모든 공급망 단계를 최적화해 수요자가 원하는 제품을 원하는 시간과 장소에 제공


ㅇ 분야별 데이터베이스

  - 제조분문

     ㄴ ERP(Enterprise Resource Planing) : 경영자원을 하나의 통합 시스템으로 재구축, 생산성 극대화를 위한 경영혁신기법

     ㄴ BI(Business Intelligence) : 기업이 보유하고 있는 데이터를 통해 기업의 의사결정에 활용하는 프로세스

     ㄴ CRM(Customer Relationship Management) : 고객 중심 자원을 극대화

     ㄴ RTE(Real-Time Enterprise) : 회사 전 부문의 정보를 하나로 통합

  - 금융부문

     ㄴ EAI(Enterprise Application Integration) : 필요한 정보를 중앙 집중적으로 통합-관리-사용할 수 있는 환경

     ㄴ EDW(Enterprise Data Warehouse) : BPR, CRM, BSC 같은 다양한 분석 애플리케이션들을 위한 원천

  - 유통부문

     ㄴ KMS(knowledge Management System) : 지식관리시스템, 기업 경영을 지식 관점에서 접근

     ㄴ RFID(RF, Radio Frequency) : 주파수를 이용해 ID를 식별하는 System, 일명 전자태그


ㅇDB 용어

  - DML(데이터 조작어) : 데이터 처리 및 관리 (select, insert, update, delete)

  - DDL(데이터 정의어) : 데이터 구조 정의 (create, alter, drop, rename)

  - DCL(데이터 제어어) : 권한 관리 (grant, revoke)

  - TCL(트랜잭션 제어어) : 작업을 단위별로 제어 (commit, rollback)


ㅇ데이터베이스 특징

  - 통합된 데이터 : 중복된 데이터가 없음

  - 저장된 데이터 : 저장 매체에 저장

  - 공용 데이터 : 여러 사용자가 서로 다른 목적을 가지고 공동으로 이용

  - 변화되는 데이터 : 데이터 삽입, 삭제, 갱신으로 항상 변화하면서도 현재의 정확한 데이터를 유지



2장. 데이터의 가치와 미래

ㅇ빅데이터의 3V

  - 양(Volume) : 데이터의 규모

  - 다양성(Variety) : 데이터의 유형과 소스

  - 속도(Velocity) : 데이터의 수집과 처리

  + 가치(Value)

  + 시각화(Visualization)

  + 정확성(Veracity)


ㅇ빅데이터 정의의 범주 및 효과

  - 데이터 변화 (규모, 형태, 속도)

  -> 기술 변화 (데이터 처리-저장-분석 기술 및 아키텍쳐, 클라우드 컴퓨팅 활용)

  -> 인재, 조직 변화 (Data Scientist 같은 새로운 인재 필요, 데이터 중심 조직)


ㅇ 빅데이터에 거는 기대의 비유적 표현

  - 산업혁명의 석탄과 철 : 혁명적 변화

  - 21세기의 원유 : 생산성의 향상, 새로운 범주의 산업

  - 렌즈 :산업 발전에 영향

  - 플랫폼 : 공동 활용의 목적으로 구축된 유무형의 구조물


ㅇ빅데이터가 만들어내는 변화

  - 사전처리 -> 사후처리 : 가능한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아냄

  - 표본조사 -> 전수조사 : 샘플링이 주지 못하는 패턴이나 정보를 발견하는 방식으로 데이터를 활용

  - 질 -> 양 : 양질의 정보가 전체적으로 좋은 결과 산출에 긍정정인 영향

  - 인과관계 -> 상관관계 : 특정 현상의 발생 가능성 포착


ㅇ빅데이터 가치 산정이 어려운 이유

  - 데이터 활용 방식 : 특정 데이터를 언제-어디서-누가 활용하는지 알 수 없음, 가치 선정이 어려움

  - 새로운 가치 창출 : 기존에 없던 가치를 창출함에 따라 그 가치를 측정하기 어려움

  - 분석기술 발전 : 가치가 없는 데이터일지라고 새로운 분석 기법이 등장한다면 거대한 가지를 지닐 수 있음


ㅇ 빅데이터 활용 기본 테크닉

  - 정형데이터 활용

     ㄴ 연관규칙학습 : 상관관계의 발견

     ㄴ 유형분석 : 분류

     ㄴ 유전자 알고리즘 : 최적화가 필요한 문제의 해결책을 점진적으로 진화

     ㄴ 기계학습 : 훈련 데이터로부터 학습한 알려진 특성을 활용해 예측

     ㄴ 회귀분석 : 독립변수의 조작에 따른 종속변수의 변화를 보면서 두 변인의 관계를 파악

  - 비정형데이터 활용

     ㄴ 감정분석 : 감정을 분석

     ㄴ 쇼셜네트워크분석(=사회관계망분석) : 영향력있는 사람을 찾아냄


ㅇ 빅데이터 시대의 위기 요인

  - 사생활 침해 (여행 사실을 트윗 한 사람의 집을 강도가 노림)

  - 책임 원칙 훼손 (범행을 저지르기 전에 체포)

  - 데이터 오용 (과장된 데이터)


ㅇ위기 요인에 따른 통제 방안

  - 사생활 침해 -> 동의에서 책임으로

  - 책임 원칙 훼손 -> 결과 기반 책임 원칙 고수

  - 데이터 오용 -> 알고리즘 접근 허용 (예측 알고리즘의 부당함을 반증할 수 있는 방법-알고리즈미스트)


ㅇ빅데이터 활용의 3요소

  - 데이터 : 모든 것이 데이터화

  - 기술 : 진화하는 알고리즘, 인공지능

  - 인력 : 데이터 사이언티스트, 알고리즈미스트




3장. 가치 창조를 위한 데이터 사이언스와 전략 인사이트

ㅇ산업별 분석 애플리케이션

  - 금융 서비스 : 신용점수 산정, 사기 탐지, 가격 책정, 고객 수익성분석, 클레임 분석

  - 병원 : 가격 책정, 고객 로열티, 수익 관리

  - 에너지 : 트레이딩, 공급, 수요 예측

  - 정부 : 사기 탐지, 사례관리, 범죄 방지, 수익 최적화


ㅇ데이터 사이언티스트의 요구 역량

  - Hard Skill : 빅데이터 이론적 지식, 분석 기술 등

  - Soft Skill : 통찰력(창의적 사고,호기심,논리적 비판), 설득력(스토리텔링,시각화), 협력(커뮤니케이션)


ㅇ전략적 통찰력과 인문학의 부활

  - 컨버전스 -> 디버전스 : 단순세계화에서 복잡한 세계화로의 변화

  - 생산 -> 서비스 : 비즈니스 중심이 제품생산에서 서비스로 이동

  - 생산 -> 시장창조 : 공급자 중심의 기술경쟁에서 무형자산의 경쟁으로 변화


ㅇ빅데이터 가치 패러다임의 변화

  - 과거(디지털화 Digitalization) : 아날로그 세상을 어떻게 효과적으로 디지털화 하는가

  -> 현재(연결 Connection) : 연결을 더 효과적이고 효율적으로 제공해 주는가

  -> 미래(에이전시 Agency) : 복잡한 연결을 얼마나 효과적이고 믿을 수 있게 관리하는가


ㅇ데이터 사이언스의 한계

  - 인간의 해석이 개입

  - 사람에 따라 전혀 다른 해석과 결론

  - 모든 분석은 가정에 근거



+.

ㅇ DBMS(Data Base management System)

  - 데이터베이스를 관리하여 응용 프로그램들이 데이터베이스를 공유하며 사용하라 수 있는 환경을 제공

  - 효율적인 데이터 검색, 저장 기능 등 제공

  - 오라클, 인포믹스, 액세스


ㅇ DBMS의 종류

  - 관계형 DBMS

     ㄴ 컬럼과 로우를 이루는 하나 이상의 테이블로 정리

     키가 존재

  - 객체지향 DBMS

     ㄴ 정보를 객체 형태로 표현하는 데이터베이스 모델

  - 네트워크 DBMS

     ㄴ 레코드=노드, 관계=간선, 으로 표현되는 그래프 기반 데이터베이스 모델

  - 계층형 DBMS

     ㄴ 트리 구조를 기반으로 하는 계층 데이터베이스 모델


ㅇ 개인정보 비식별 기술

  - 데이터 마스킹 : 데이터를 익명으로 생성 (홍**, **대학)

  - 가명처리 : 다른 값으로 대체 (홍국, 항곡대학)

  - 총계처리 : 총합 값으로 대체 (키 합:750cm, 평균키:185cm)

  - 데이터값 삭제 : 개인식별에 중요한 값 삭제 (90년대 생, 남자)

  - 데이터 범주화 : 범주의 값으로 변환 (홍씨, 30~40세)


ㅇ 데이터 무결성

  - 데이터에 대한 정확한 일관성, 유효성, 신뢰성 보장을 위해 제한


ㅇ 데이터 레이크

  - 데이터 형식, 방식에 상관없이 데이터를 저장하는 시스템


ㅇ 빅데이터 분석 기술

  - 하둡(Hadoop) : 여러 개의 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술

  - Apache Spark : 실시간 분산형 컴퓨팅 플랙폼, In-Memory 방식으로 하둡에 비해 처리속도가 빠름

  - Smart Factory : 공장 내 설비와 기계에 사물인터넷이 설치되어, 공정 데이터가 실시간으로 수집되고 데이터에 기반한 의사결정이 이뤄짐으로써 생산성을 극대화

  - Machine Learning : 인간의 학습 능력과 같은 기능을 컴퓨터에서 실현하고자하는 기술 및 기법

  - Deep Learning : 컴퓨터가 많은 데이터를 이용해 사람처럼 스스로 학습할 수 있도록 인공신경망 등의 기술을 기반하여 구축한 기계학습 기술 중 하나


ㅇ 데이터의 유형

  - 정형데이터 : 형태 존재, 연산 가능, RDBMS에 저장 (RDBMS, CSV, spread sheet 등)

  - 반정형데이터 : 형태 존재, 연산 불가능, 파일로 저장 (XML, HTML, JSON, 웹로그, 센서데이터 등)

  - 비정형데이터 : 형태 없음, 연산 불가능, NoSQL에 저장 (소셜데이터, 영상, 이미지, 음성, 텍스트 등)




고 : 데이터 분석 준전문가(데이터에듀)

반응형

'ADsP' 카테고리의 다른 글

[ADsP] 3과목 - 데이터 분석  (0) 2019.03.07
[ADsP] 2과목 - 데이터 분석 기획  (0) 2019.03.07
[ADsP] 주관식 정리  (2) 2019.02.28
댓글
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday