참고글 : [Statistics] 가설 검정 및 추정[Statistics] p-value 란?[Statistics/R] 모집단 추론, 추정[Statistics] 모집단과 표본 #. 가설검정 - 표본평균으로부터 모수(모집단의 특성을 나타내는 통계량)의 상태에 대한 여러 가설들 중 어떤 가설을 사실로 받아들일지 결정하는 과정 - 표본으로부터 얻은 정보로 모집단 모수의 참 or 거짓 검증 #. 가설검정의 단계1) 가설 수립2) 통계량 계산 (표본으로부터 검정)3) 가설 선택의 기준 수립4) 판정 1) 가설 수립#. 가설의 종류 1) 영가설(귀무가설, H0) : 기존에 알려진 것과 차이가 없음 (α = 0) - 기각되길 희망하는 가설 2) 대안가설(대립가설, H1) : 기존에 알려진 것과 차이가 있음 (α !=..
참고글 :[Statistics] 표준 정규 분포[Statistics/R] 중심극한정리(표본과 모집단)[Statistics] 모집단과 표본 모집단 추론 추론 : 표본으로부터 모집단의 특성을 예측하는 과정 (가설검정) 예를 들어 대한민국 전체 국민의 소득 평균을 구한다고 해봅시다.모집단(전체 국민의 소득)을 모두 알기 힘들뿐더러, 안다고 하더라도 전수조사 할 수 없으므로 샘플링을 수행하여 전체 평균을 가설하게 됩니다. 샘플링을 통해 가설된 전체 평균을, 구간 추정(추정)으로 가설 검정(추론)을 수행합니다. # 모평균의 추정추정 : 표본으로부터 모집단의 특성에 대하여 가설을 세우고, 오차의 한계를 제시하는 과정 (고정된 특정 모수) 1. 점 추정 - Xbar ≈ mu 라는 사실을 이용하여, "한 번 추출된 표..
시각화 참고글 :[R 시각화] 막대 그래프 그리기 - BarPlot[R 시각화] 선 그래프 그리기 - Line Plot[R 시각화] 히스토그램 그래프 그리기 - histogram plot[R 시각화] 파이, 3D파이 그래프 그리기 - pie, pie3D plot #. plot 차트 주 옵션xlim = c(0, 10) : x축 범주(눈금) (limit) ylim = c(0, 10) : y축 범주(눈금) type = ' ' : 그래프 타입plot(x1, type = 'o')plot(x1, type = 'l')plot(x1, type = 'b')... lty = ' ' : 그래프 선 모양 (line type) plot(x1, type = 'o', lty=0) # lty="blank" plot(x1, type ..
참고글 :[Statistics] 중심극한정리(표본과 모집단)[Statistics] 표본 정규 분포 모집단 : 통계적인 관찰의 대상이 되는 집단 전체 (출처 : 두산백과)모수 : 모집단의 특성을 나타내는 정보 - 모평균(μ:mu): 모집단의 평균 - 모분산(σ2) : 모집단의 분산 - 모표준편차(σ:sigma): 모집단의 표준편차 = s x √n (n=sample size) 표본 : 모집단에서 선택된 모집단 구성단위의 일부 (출처 : 두산백과) - 모집단 전체를 모두 조사할 수 없으므로, 모집단으로부터 random sampling 된 하위 집단통계량 : 표본의 특성통계치 : 통계량에 표본으로부터 관찰된 정보를 대입하여 구한 실측값 - 표본평균(X-bar) : 표본의 평균 - 표본분산(s2) : 표본의 분산..
참고글 : [Statistics] 확률 기초 용어 정리(확률분포, 이항분포, 정규분포) #. 이항분포 in Rdbinom(x = 이산형 확률변수, size = 수행횟수, prob = 성공확률) # 동전을 10회 반복하여 던질 때, 앞 면이 나오는 사건, 각 확률변수가 취하는 분포 확인 n choose(10,1) * (0.5)^1 * (0.5)^9 # P(X=1) [1] 0.009765625 # 1번 성공할 경우의 수 {앞뒤뒤뒤뒤뒤뒤뒤뒤뒤}, {뒤앞뒤뒤뒤뒤뒤뒤뒤뒤}, {뒤뒤앞뒤뒤뒤뒤뒤뒤뒤}, .. > choose(10,2) * (0.5)^2 * (0.5)^8 # P(X=2) [1] 0.04394531 ... > choose(10,10) * (0.5)^10 * (0.5)^0 # P(X=10) [1] 0.00..
계층적 군집 분석(hierarchical clustering) 수행 및 시각화 참고글 : [데이터 분석] 계층적 군집 분석(hierarchical clustering) hclust(d, method = "complete", members = NULL) # 1. 거리행렬 구하기> v1 d1 d1 1 2 3 42 2 3 5 3 4 9 7 4 5 17 15 12 8 # 2. 거리행렬 모델 적용> m1 m1 Call:hclust(d = d1, method = "average") Cluster method : average Distance : euclidean Number of objects: 5 ** method : 클러스터와 관측치와의 거리 계산 기준 - single : 최단거리법 - complete : 최장..
KNN (K-Nearest Neighbors) 알고리즘 참고글 : [R 분석] K-NN 알고리즘 적용 및 매개변수 튜닝 KNN 알고리즘은 거리기반 분류분석 모델입니다.'기존 데이터와 특성이 비슷하면 새로운 데이터도 저들과 비슷하지 않을까?' 라는 고안으로 나온 알고리즘이라고 합니다. 예측을 하고자하는 새로운 관측치(데이터)와 이미 정답이 있는 기존 관측치(데이터) 사이의 거리를 계산하여,가장 가까운 K개 관측치들의 Class(범주, 그룹)를 확인하여 예측하게 됩니다. 여기서 기존 관측치의 Y값(Class)이 존재한다면 KNN 알고리즘으로, 기존 관측치의 Y값(Class)이 존재하지 않는다면 군집분석 Clustering 알고리즘으로 구분됩니다. 위 그림을 예로 들면, 중앙에 새..
데이터 그룹 연산을 위한 주요 함수 정리 1. apply 계열 적용 함수 1. apply(matrix, margin, function, ...) : '행/열별' 함수에 반복적 적용(연산)의 위해 사용 => 그룹함수 연산 - 2차원 구조 적용 가능, 벡터에 적용 불가 - 행별, 열별 연산을 위해 만들어짐 - 그룹함수의 적용과 함께 사용 가능 - 행/열별 "벡터"로 묶어서 함수에 전달하므로 함수는 하나의 인자를 가져야 함 > m1 apply(m1,1,sum) # 행별 sum[1] 12 15 18> apply(m1,2,sum) # 열별 sum[1] 6 15 24 2. lapply(list, function) : '원소별' 함수에 반복적 적용(연산)을 위해 사용 (리스트로 리턴) - 리스트와 데이터 프레임(ke..