티스토리 뷰
1장. 데이터의 이해
ㅇ데이터 정의
- 존재적 특성 : 객관적 사실
- 당위적 특성 : 추론, 예측, 전망, 추정을 위한 근거
ㅇ데이터 특징
- 정성적 데이터 : 언어, 문자 형태의 데이터 (회사 매출의 증가 등)
- 정량적 데이터 : 수치, 도형, 기호 형태의 데이터 (나이, 몸무게, 주가 등)
ㅇ지식
- 암묵지 : 학습과 경험을 통해 개인에 체화된 지식, 공유와 전달의 어려움 (내면화->공통화 필요)
- 형식지 : 문서나 메뉴얼처럼 형식화된 지식, 공유와 전달이 용이 (표출화->연결화 필요)
ㅇ DIKW 피라미드
- 데이터 (가공하기 전의 순수한 수치나 기호)
-> 정보 (데이터의 가공 및 상관관계간 이해를 통해 패턴을 인식하고 그 의미를 부여)
-> 지식 (상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물)
-> 지혜 (근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적인 아이디어)
ㅇ 1980년대 기업내부 데이터베이스
- OLTP(On-line Transaction Processing) : 호스트 컴퓨터가 데이터베이스를 액세스하고, 바로 처리 결과를 돌려보내는 형태(데이터 갱신 위주)
- OLAP(On-line Analytical Processing) : 쉽고 빠르게 다차원적인 데이터에 접근하여 의사 결정에 활용할 수 있는 정보를 얻을 수 있게 해주는 기술(데이터 조회 위주)
ㅇ 2000년대 기업내부 데이터베이스
- CRM(Customer Relationship Management) : 고객관계관리, 기업이 고객과 관련된 내-외부 자료를 분석-통합하여 고객 중심 자원 극대화하고, 이를 토대로 고객 특성에 맞게 마케팅 활동을 계획-지원-평가
- SCM(Supply Chain Management) : 공급망관리, 기업에서 원재료의 생산-유통 등 모든 공급망 단계를 최적화해 수요자가 원하는 제품을 원하는 시간과 장소에 제공
ㅇ 분야별 데이터베이스
- 제조분문
ㄴ ERP(Enterprise Resource Planing) : 경영자원을 하나의 통합 시스템으로 재구축, 생산성 극대화를 위한 경영혁신기법
ㄴ BI(Business Intelligence) : 기업이 보유하고 있는 데이터를 통해 기업의 의사결정에 활용하는 프로세스
ㄴ CRM(Customer Relationship Management) : 고객 중심 자원을 극대화
ㄴ RTE(Real-Time Enterprise) : 회사 전 부문의 정보를 하나로 통합
- 금융부문
ㄴ EAI(Enterprise Application Integration) : 필요한 정보를 중앙 집중적으로 통합-관리-사용할 수 있는 환경
ㄴ EDW(Enterprise Data Warehouse) : BPR, CRM, BSC 같은 다양한 분석 애플리케이션들을 위한 원천
- 유통부문
ㄴ KMS(knowledge Management System) : 지식관리시스템, 기업 경영을 지식 관점에서 접근
ㄴ RFID(RF, Radio Frequency) : 주파수를 이용해 ID를 식별하는 System, 일명 전자태그
ㅇDB 용어
- DML(데이터 조작어) : 데이터 처리 및 관리 (select, insert, update, delete)
- DDL(데이터 정의어) : 데이터 구조 정의 (create, alter, drop, rename)
- DCL(데이터 제어어) : 권한 관리 (grant, revoke)
- TCL(트랜잭션 제어어) : 작업을 단위별로 제어 (commit, rollback)
ㅇ데이터베이스 특징
- 통합된 데이터 : 중복된 데이터가 없음
- 저장된 데이터 : 저장 매체에 저장
- 공용 데이터 : 여러 사용자가 서로 다른 목적을 가지고 공동으로 이용
- 변화되는 데이터 : 데이터 삽입, 삭제, 갱신으로 항상 변화하면서도 현재의 정확한 데이터를 유지
2장. 데이터의 가치와 미래
ㅇ빅데이터의 3V
- 양(Volume) : 데이터의 규모
- 다양성(Variety) : 데이터의 유형과 소스
- 속도(Velocity) : 데이터의 수집과 처리
+ 가치(Value)
+ 시각화(Visualization)
+ 정확성(Veracity)
ㅇ빅데이터 정의의 범주 및 효과
- 데이터 변화 (규모, 형태, 속도)
-> 기술 변화 (데이터 처리-저장-분석 기술 및 아키텍쳐, 클라우드 컴퓨팅 활용)
-> 인재, 조직 변화 (Data Scientist 같은 새로운 인재 필요, 데이터 중심 조직)
ㅇ 빅데이터에 거는 기대의 비유적 표현
- 산업혁명의 석탄과 철 : 혁명적 변화
- 21세기의 원유 : 생산성의 향상, 새로운 범주의 산업
- 렌즈 :산업 발전에 영향
- 플랫폼 : 공동 활용의 목적으로 구축된 유무형의 구조물
ㅇ빅데이터가 만들어내는 변화
- 사전처리 -> 사후처리 : 가능한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아냄
- 표본조사 -> 전수조사 : 샘플링이 주지 못하는 패턴이나 정보를 발견하는 방식으로 데이터를 활용
- 질 -> 양 : 양질의 정보가 전체적으로 좋은 결과 산출에 긍정정인 영향
- 인과관계 -> 상관관계 : 특정 현상의 발생 가능성 포착
ㅇ빅데이터 가치 산정이 어려운 이유
- 데이터 활용 방식 : 특정 데이터를 언제-어디서-누가 활용하는지 알 수 없음, 가치 선정이 어려움
- 새로운 가치 창출 : 기존에 없던 가치를 창출함에 따라 그 가치를 측정하기 어려움
- 분석기술 발전 : 가치가 없는 데이터일지라고 새로운 분석 기법이 등장한다면 거대한 가지를 지닐 수 있음
ㅇ 빅데이터 활용 기본 테크닉
- 정형데이터 활용
ㄴ 연관규칙학습 : 상관관계의 발견
ㄴ 유형분석 : 분류
ㄴ 유전자 알고리즘 : 최적화가 필요한 문제의 해결책을 점진적으로 진화
ㄴ 기계학습 : 훈련 데이터로부터 학습한 알려진 특성을 활용해 예측
ㄴ 회귀분석 : 독립변수의 조작에 따른 종속변수의 변화를 보면서 두 변인의 관계를 파악
- 비정형데이터 활용
ㄴ 감정분석 : 감정을 분석
ㄴ 쇼셜네트워크분석(=사회관계망분석) : 영향력있는 사람을 찾아냄
ㅇ 빅데이터 시대의 위기 요인
- 사생활 침해 (여행 사실을 트윗 한 사람의 집을 강도가 노림)
- 책임 원칙 훼손 (범행을 저지르기 전에 체포)
- 데이터 오용 (과장된 데이터)
ㅇ위기 요인에 따른 통제 방안
- 사생활 침해 -> 동의에서 책임으로
- 책임 원칙 훼손 -> 결과 기반 책임 원칙 고수
- 데이터 오용 -> 알고리즘 접근 허용 (예측 알고리즘의 부당함을 반증할 수 있는 방법-알고리즈미스트)
ㅇ빅데이터 활용의 3요소
- 데이터 : 모든 것이 데이터화
- 기술 : 진화하는 알고리즘, 인공지능
- 인력 : 데이터 사이언티스트, 알고리즈미스트
3장. 가치 창조를 위한 데이터 사이언스와 전략 인사이트
ㅇ산업별 분석 애플리케이션
- 금융 서비스 : 신용점수 산정, 사기 탐지, 가격 책정, 고객 수익성분석, 클레임 분석
- 병원 : 가격 책정, 고객 로열티, 수익 관리
- 에너지 : 트레이딩, 공급, 수요 예측
- 정부 : 사기 탐지, 사례관리, 범죄 방지, 수익 최적화
ㅇ데이터 사이언티스트의 요구 역량
- Hard Skill : 빅데이터 이론적 지식, 분석 기술 등
- Soft Skill : 통찰력(창의적 사고,호기심,논리적 비판), 설득력(스토리텔링,시각화), 협력(커뮤니케이션) 등
ㅇ전략적 통찰력과 인문학의 부활
- 컨버전스 -> 디버전스 : 단순세계화에서 복잡한 세계화로의 변화
- 생산 -> 서비스 : 비즈니스 중심이 제품생산에서 서비스로 이동
- 생산 -> 시장창조 : 공급자 중심의 기술경쟁에서 무형자산의 경쟁으로 변화
ㅇ빅데이터 가치 패러다임의 변화
- 과거(디지털화 Digitalization) : 아날로그 세상을 어떻게 효과적으로 디지털화 하는가
-> 현재(연결 Connection) : 연결을 더 효과적이고 효율적으로 제공해 주는가
-> 미래(에이전시 Agency) : 복잡한 연결을 얼마나 효과적이고 믿을 수 있게 관리하는가
ㅇ데이터 사이언스의 한계
- 인간의 해석이 개입
- 사람에 따라 전혀 다른 해석과 결론
- 모든 분석은 가정에 근거
+.
ㅇ DBMS(Data Base management System)
- 데이터베이스를 관리하여 응용 프로그램들이 데이터베이스를 공유하며 사용하라 수 있는 환경을 제공
- 효율적인 데이터 검색, 저장 기능 등 제공
- 오라클, 인포믹스, 액세스
ㅇ DBMS의 종류
- 관계형 DBMS
ㄴ 컬럼과 로우를 이루는 하나 이상의 테이블로 정리
ㄴ 키가 존재
- 객체지향 DBMS
ㄴ 정보를 객체 형태로 표현하는 데이터베이스 모델
- 네트워크 DBMS
ㄴ 레코드=노드, 관계=간선, 으로 표현되는 그래프 기반 데이터베이스 모델
- 계층형 DBMS
ㄴ 트리 구조를 기반으로 하는 계층 데이터베이스 모델
ㅇ 개인정보 비식별 기술
- 데이터 마스킹 : 데이터를 익명으로 생성 (홍**, **대학)
- 가명처리 : 다른 값으로 대체 (홍국돈, 항곡대학)
- 총계처리 : 총합 값으로 대체 (키 합:750cm, 평균키:185cm)
- 데이터값 삭제 : 개인식별에 중요한 값 삭제 (90년대 생, 남자)
- 데이터 범주화 : 범주의 값으로 변환 (홍씨, 30~40세)
ㅇ 데이터 무결성
- 데이터에 대한 정확한 일관성, 유효성, 신뢰성 보장을 위해 제한
ㅇ 데이터 레이크
- 데이터 형식, 방식에 상관없이 데이터를 저장하는 시스템
ㅇ 빅데이터 분석 기술
- 하둡(Hadoop) : 여러 개의 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술
- Apache Spark : 실시간 분산형 컴퓨팅 플랙폼, In-Memory 방식으로 하둡에 비해 처리속도가 빠름
- Smart Factory : 공장 내 설비와 기계에 사물인터넷이 설치되어, 공정 데이터가 실시간으로 수집되고 데이터에 기반한 의사결정이 이뤄짐으로써 생산성을 극대화
- Machine Learning : 인간의 학습 능력과 같은 기능을 컴퓨터에서 실현하고자하는 기술 및 기법
- Deep Learning : 컴퓨터가 많은 데이터를 이용해 사람처럼 스스로 학습할 수 있도록 인공신경망 등의 기술을 기반하여 구축한 기계학습 기술 중 하나
ㅇ 데이터의 유형
- 정형데이터 : 형태 존재, 연산 가능, RDBMS에 저장 (RDBMS, CSV, spread sheet 등)
- 반정형데이터 : 형태 존재, 연산 불가능, 파일로 저장 (XML, HTML, JSON, 웹로그, 센서데이터 등)
- 비정형데이터 : 형태 없음, 연산 불가능, NoSQL에 저장 (소셜데이터, 영상, 이미지, 음성, 텍스트 등)
참고 : 데이터 분석 준전문가(데이터에듀)
'ADsP' 카테고리의 다른 글
[ADsP] 3과목 - 데이터 분석 (0) | 2019.03.07 |
---|---|
[ADsP] 2과목 - 데이터 분석 기획 (0) | 2019.03.07 |
[ADsP] 주관식 정리 (2) | 2019.02.28 |